Утверждение, которое я хочу изучить,
Дата-центр АНБ в штате Юта сможет обрабатывать пять зеттабайт данных.
Я думаю, что «зеттабайты» слишком велики. Даже одного эксабайта может быть слишком много для хранения (не говоря уже о возможности обработки такого объема данных).
Центр обработки данных в штате Юта, также известный как Центр обработки данных Всеобъемлющей национальной инициативы по кибербезопасности разведывательного сообщества, представляет собой хранилище данных для разведывательного сообщества США, предназначенное для хранения чрезвычайно больших объемов данных.
Источник: Википедия
Агентство национальной безопасности строит центр обработки данных, который потенциально может хранить йоттабайты данных.
Источник: cnet.co.uk
Предполагаемая мощность этих вычислительных ресурсов в Юте настолько велика, что требует использования малоизвестной единицы пространства для хранения: зеттабайта . Cisco определяет зеттабайт как количество данных, которое заполнило бы 250 миллиардов DVD-дисков. [...] Центр данных АНБ в штате Юта сможет обрабатывать пять зеттабайт данных, по словам Уильяма Бинни, бывшего технического директора АНБ, ставшего осведомителем. Расчет Бинни является оценкой. Представитель АНБ говорит, что фактический объем данных центра засекречен.
Источник: npr.org
Space(1 DVD) = 4.7 GB
Space(250 * 10^9 DVDs) = 250*10^9*4.7 GB = 1175 EB = 1.175 ZB
Поскольку эти цифры примерно совпадают, я думаю, это не простая опечатка на npr.org.
Но 1 YB = 1000 ZB, так что это не совпадает.
Кроме того: самое большое устройство хранения, которое я смог найти на Amazon с помощью этого поиска , было Quantum StorNext AEL500 Archive за 143 918,20 долларов США. Он может хранить 399 ТБ. Это означает399 TB / $143,918.20 = $0.36 per GigaByte
Так что 5 ZB
нам понадобится (5 * 10^21 Byte) / (399 * 10^12 Byte) = 1.253*10^7
. Это означало бы, что вам придется заплатить около $143,918.20*1.253*10^7 = $1.803 trillion (US dollars)
. Но:
На этой неделе Инженерный корпус армии США заложил основы нового крупного центра киберразведки Агентства национальной безопасности в штате Юта. Расположенный в Кэмп-Уильямс, в 25 милях к югу от Солт-Лейк-Сити, объект стоимостью 1,2 миллиарда долларов, официально известный как Центр обработки данных в Юте, будет отвечать за сбор и агрегирование поступающих разведывательных данных.
Источник: Defensesystems.com
Даже после поиска устройства с самым низким соотношением доллара к гигабайту я не нашел ничего дешевле, чем 0,05 доллара за ГБ. Это означает, что вы можете снизиться до 250 миллиардов долларов США, что все еще слишком много.
Еще более проблематичным может быть энергопотребление.
Я сделал какую-то ошибку? Может ли это в конечном итоге оказаться правдой (Что нового в науке о хранилищах данных?) Какой емкостью обладают крупные компании, такие как Google/Facebook/Dropbox? Сколько может хранить Википедия (особенно общедоступная)?
Обеспечьте до 900 ПБ автоматизированного недорогого хранилища
Ленточная библиотека IBM System Storage TS3500
Этот ответ весьма умозрительный, поскольку АНБ не дало никаких указаний относительно вместимости объекта. Кроме того, это очень сложный вопрос для понимания, потому что у нас нет указаний на то, сколько данных они хотят хранить на самом деле.
При рассмотрении первого заявления о том, что они обрабатывают до пяти зеттабайт данных, это кажется правдоподобным. Мы знаем, что Большой адронный коллайдер (БАК) генерирует один петабайт данных в секунду и хранит двадцать пять петабайт данных в год 1 . Используя простую математику,
1 zettabyte = 1,048,576 petabytes
1,048,576 seconds = 12.1363 days
1 zettabyte every 12.1363 days
or about 30 zettabytes of data a year
Согласно прогнозу Cisco , к концу 2017 года мир будет иметь 1,4 зеттабайта глобального IP - трафика в год. Таким образом, мы можем заключить, что вполне вероятно, что такое агентство, как АНБ, разработало это в системе. Кроме того, это включает только IP-трафик и другую голосовую связь и передачу данных, которые проходят через другие системы.
Что касается хранения данных, обычное число составляет пять зеттабайт, поэтому мы рассмотрим это. Возможности для эксабайтной системы хранения уже существуют на коммерческой основе. IBM производит ленточную библиотеку System Storage TS3500 , которая предлагает до 2,7 экзабайт данных, в частности,
До 180 ПБ в сжатом виде с 3592 картриджами увеличенной емкости на библиотеку, до 2,7 ЭБ в сжатом виде на комплекс
Физические размеры одной рамы составляют 70,9 дюйма (В) × 30,8 дюйма (Ш) × 47,7 дюйма (Г) (1800 мм × 782 мм × 1212 мм) или около 10,2 кв. футов. (0,9 кв. м), что соответствует размерам большинства стоек 42U . Чтобы достичь полных 2,7 эксабайта, необходимо 15 библиотек, каждая из которых потребует 16 фреймов, что дает нам 2 448 кв. футов (227,4 кв. м). Объем дополнительного пространства, необходимого из-за воздушного потока и доступа к системе, довольно сложен , поэтому исключая это из уравнения,
2.7 exabytes per complex with a footprint of 2,448 sq.ft.
1 zettabyte = 1024 exabytes
1024 / 2.7 = 379.2 systems, so say 380 systems
380 * 2,448 sq.ft = 930,240 sq.ft per zettabyte
Это дает нам около 4 651 200 кв. футов. (432 110,62 кв. м) за обычно указанную цифру в 5 зеттабайт. Даже хранение одного зеттабайта с использованием систем выходит за пределы 100 000 квадратных футов. для залов данных , которые будут в дата-центре в Юте, не говоря уже о площади от 1 до 1,5 млн кв. футов. размер дан для комплекса в целом.
Исходя из этого, заявления о том, что он будет хранить пять зеттабайт данных, сомнительны; однако эти расчеты основаны на коммерчески доступной системе, поэтому возможно, что они занимают меньше места для того, что они используют. Тем не менее, даже хранение одного зеттабайта, вероятно, является чрезмерным усилием, учитывая то, что есть на коммерческом рынке. Однако в 2010 году IBM Research объявила о новом рекорде в ленточных хранилищах с потенциальной емкостью 35 терабайт несжатого хранилища на картридж. Нынешнее высококлассное предложение от IBM — ленточный картридж 3592 емкостью до 4 терабайт.
Вышеупомянутая ленточная библиотека TS3500 вмещает до 225 000 ленточных картриджей, поэтому, если каждый из картриджей рассчитан на 35 терабайт, общий объем хранилища комплекса TS3500 составит около 7,51 эксабайта. Если мы применим эти обновленные значения к предыдущим расчетам,
7.51 exabytes per complex with a footprint of 2,448 sq.ft.
1 zettabyte = 1024 exabytes
1024 / 7.51 = 136.4 systems, so say 137 systems
137 * 2,448 sq.ft = 335,376 sq.ft per zettabyte
Таким образом, даже при этом залы данных все еще слишком малы для хранения одного зеттабайта, хотя мы сейчас находимся в диапазоне, где комплекс в целом может быть способен хранить от одного до двух зеттабайт в идеальных условиях.
Конечно, требуется использование ленточных хранилищ данных, которые очень медленны ; однако, не зная точно, что АНБ делает с данными, мы не можем предположить, заботятся ли они о скорости доступа или нет. Кроме того, методы индексации метаданных означают, что необработанные данные могут не понадобиться для большей части обработки, поэтому задержка, связанная с хранением на ленте, может не беспокоить АНБ. Мы уже знаем, что у них есть большие базы метаданных , поэтому вполне вероятно, что они могут использовать такие методы для работы с ленточными данными .
Таким образом, заявления о количестве данных, которые могут быть сохранены и обработаны, в настоящее время неправдоподобны , учитывая размер объекта и известные в настоящее время современные и коммерчески доступные системы. Однако утверждение о том, что они могут обрабатывать пять зеттабайт данных, правдоподобно , учитывая огромный объем трафика данных, который существует в мире, и мы не знаем, как они обрабатывают данные. Если они будут использовать проверку любопытства с последующим отбрасыванием неинтересных данных, таких как БАК, тогда это возможно, и их фактические требования к хранению данных также будут снижены.
Есть несколько утверждений о чрезвычайно огромной емкости хранилища данных в Юте, например, « Центр обработки данных АНБ в штате Юта сможет обрабатывать пять зеттабайт данных » .
Многие из них исходят из неправильных оценок Уильяма Бинни (бывшего технического директора АНБ), согласно NPR: http://www.npr.org/2013/06/10/190160772/amid-data-controversy-nsa-builds- самая большая ферма данных
По словам Уильяма Бинни , бывшего технического директора АНБ, ставшего осведомителем , центр данных АНБ в штате Юта сможет обрабатывать пять зеттабайт данных . Расчет Бинни является оценкой . Представитель АНБ говорит, что фактический объем данных центра засекречен.
Вот полная фотокопия декларации Бинни по ДЕЛУ №. CV-08-04373-JSW, от 28 сентября 2012 г.: https://www.eff.org/sites/default/files/filenode/binneydeclaration.pdf — стр. 4, строки 18–26:
18 11. A futher notable development has been the NSA's public announcement in October
19 2009 that it was building a massive, $1.2 billion digital storage facility in Ft. Williams, Utah.
20 According to some reports, the Utah facility will eventually have a data storage capacity measured
21 in yottabytes (10**24 bytes). Even if the Utah facility were to have no more than the amount of data
22 storage that is presently commercially available, then one would expect the data storage to be in the
23 range of multiples of ten exebytes (10**18 bytes). See www.cleversafe.com. (According to
24 Cleversafe, its ten exebyte storage solution fills no more than tho hundred square feet).
Forbes проверил его оценки и обнаружил огромную ошибку в том, сколько места потребуется решению Cleversafe для 10 эксабайт: http://www.forbes.com/sites/kashmirhill/2013/07/24/blueprints-of-nsa-data-center- in-utah-suggest-Емкость-хранилища-менее-впечатляет-чем-думали/
Чертежи смехотворно дорогого центра обработки данных АНБ в Юте предполагают, что он содержит меньше информации, чем предполагалось, 24 июля 2013 г.
Бинни дал NPR оценку в 5 зеттабайт, а также включил ее в письменные показания под присягой, поданные в деле «Джевел против АНБ»…
Его оценка основана на предположении, что предприятие может предложить оборудование, подобное разработанному Cleversafe. Компания заявляет, что у нее есть система хранения данных объемом 10 экзабайт, которая включает в себя переносные центры обработки данных с 21 стойкой в каждом.
Бинни понял, что это означает, что 21 стойка может вместить 10 экзабайтов, и предположил, что эффективный размер стойки составляет 4 квадратных фута…
он неправильно прочитал маркетинговые материалы Cleversafe . На самом деле говорят, что 560 переносных дата-центров по 21 стойке в каждом (или 11 760 стоек) могут вместить 10 эксабайт. ...
Крис Глэдвин, основатель Cleversafe, говорит, что в январе 2012 года для 10 экзабайт системы хранения потребовалось бы «около 2 миллионов квадратных футов».
Так что маркетинговая речь Cleversafe приводит бывшего технического директора АНБ к очень неверным оценкам.
Зависит от интерпретации того, что на самом деле означает обрабатывать и обрабатывать пять зеттабайт данных :
Если вы собираетесь построить что-то столь же крупное, как центр обработки данных АНБ, вместо того, чтобы покупать доступное оборудование, вы можете выбрать индивидуальную сборку с использованием отраслевых стандартов для больших данных.
Open Compute Storage от Facebook указывает хранилище Open Vault , которое предназначено для размещения 30 3,5-дюймовых жестких дисков в корпусе 2U. Что с доступными в настоящее время жесткими дисками будет означать плотность 120 ТБ на 2U.
Вы можете разместить 21 из них в одной стандартной 19-дюймовой стойке высотой 42U , что означает, что у вас будет 2520 ТБ на стойку.
Каждая стойка имеет основание около 0,62 м². Если добавить минимальный зазор, то 1 м² на стойку будет очень низкой оценкой.
Это предполагает, что вы хотели бы иметь машины, изготовленные по индивидуальному заказу для вашего центра обработки данных. В противном случае это стандартное оборудование. Например , Dell PowerVault MD1200 с 12 дисками SATA емкостью 4 ТБ стоит 11 254,21 долл. США; Это, конечно, розничная цена, при оптовых заказах вы получаете большие скидки. Точно так же вы можете получить облачный сервер, такой как PowerEdge C6145 , который также может быть оснащен 12 дисками SATA по 4 ТБ. Они не предоставляют свои цены онлайн, но, если я правильно помню, такая установка будет стоить около 15-20 тысяч долларов.
Оба вышеперечисленных дают вам плотность 48 ТБ на 2U. Это означает 1004 ТБ на стойку.
Сообщается , что центр обработки данных NSA в штате Юта имеет 10 000 м², выделенных для серверов (100 000 м², включая административные и вспомогательные здания). Так что действительно, очень высокая оценка будет заключаться в том, что они теоретически могут втиснуть туда 25 ЭБ облачного хранилища. Это всего 0,5% от 5ZB.
Если вы планируете автономное архивирование данных, вы можете использовать ленточные библиотеки. Обычно это не используется в больших данных, но опять же, АНБ не является типичной компанией, работающей с большими данными.
Проблема в том, что даже с ленточной библиотекой IBM System Storage TS3500 с максимальной плотностью вы можете хранить 180 ПБ на библиотеку, занимающую площадь не менее 15 м². Это означает, что только для ленточных библиотек потребуется около 420 000 м². Весь комплекс NSA в штате Юта оценивается в «1 миллион или 1,5 миллиона квадратных футов» (93 000–149 000 м²), но также было сказано, что это «100 000 квадратных футов (9 300 м²) пространства центра обработки данных и более 900 000 квадратных футов. (83 600 м²) технической поддержки и административных помещений» ( источник). Назначение зданий может быть засекречено или намеренно введено в заблуждение, внешние размеры - нет. Таким образом, очевидно, что нет никакого способа втиснуть туда 5 ЗБ ленточного архива, даже если здания, которые называются административными, на самом деле предназначены для ленточного архива.
Итак, давайте предположим, что даже если вам удастся каким-то образом заархивировать 5 ЗБ необработанных данных, как я подсчитал выше, даже если вы будете использовать все пространство своего центра обработки данных для оперативной обработки, это будет означать, что вы храните только 5 КБ данных. метаданные для каждого 1 МБ данных. В то время как для мультимедийных файлов, которых кажется более чем достаточно, я действительно сомневаюсь, что вы можете достичь соотношения, близкого к тому, что для электронных писем, чатов, текстовых сообщений, твитов и т. д. Конечно, они могут отфильтровывать информацию, которая им не интересна, и не хранить какие-либо связанные метаданные. к этой информации. Но в этом случае нет смысла архивировать эту информацию в автономном режиме, потому что у вас нет пути доступа — у вас нет метаданных, указывающих на нее, и вы не можете извлечь данные, заархивированные на лентах.
Если предположить, что это 5 ЗБ в год, то устойчивая пропускная способность составляет 570 ПБ в день или 160 ТБ в секунду. Не говоря уже о вычислительной мощности, необходимой для обработки этого, вопрос в том, как эти данные будут туда транспортироваться? Текущая интернет-инфраструктура далеко не готова к такому трафику. Три крупнейшие точки обмена интернет-трафиком расположены в Европе и имеют максимальную пропускную способность 2,2 Тбайт/с, 2,1 Тбайт/с и 1,6 Тбайт/с соответственно. США сильно отстают: лучшие биржи США имеют только 0,28 ТБ/с и 0,25 ТБ/с, еще одна, Equinix имеет всего 1,4 ТБ/с в 12 странах на 4 континентах. Другими словами, совершенно невозможно вкладывать 5 ZB в год в центр обработки данных, особенно в таком удаленном месте. И, как видите, не обязательно, даже если вы хотите обрабатывать весь интернет-трафик.
На сайте HighScalability.com есть гостевой пост «PRISM: удивительно низкая стоимость использования больших данных, позволяющих узнать о вас больше менее чем за минуту» , написанный основателем и техническим директором BugSense Джоном Влахогианнисом и руководителем отдела инфраструктуры BugSense Панайотисом Пападомитсосом.
Они рассчитывают необходимое хранилище как 3,75 ЭБ.
ДАННЫЕ
Facebook: 500 ТБ/день * 30 = 1,5 PT/месяц ( источник )
Twitter: 8 ТБ/день * 30 = 240 ТБ/месяц 8 ТБ/день ( источник )
Электронная почта/Другая информация: 193 PT в месяц Google говорит, что 24 ПБ в день (2008 г.). Пять лет спустя предположим, что это в 8 раз больше = 192 ПБ. Теперь реальная информация о пользователе составляет 1/3 = 64 PT/день ( источник ) .
Мобильный трафик/машинно-машинный обмен/автомобили и т. д.: 4000 ТБ в день = 117 ПБ/месяц ( источник )
Всего данных = ~ 312 ПБ в месяц
Стоимость оборудования
Приведенные ниже цены соответствуют аренде готовых серверов в коммерческих высокопроизводительных центрах обработки данных (учитывая, что данные будут храниться в архитектуре распределенной файловой системы, такой как HDFS). Это наихудший сценарий, который не включает потенциальные скидки из-за аренды такого большого объема оборудования и трафика или приобретения вышеупомянутого оборудования (которое влечет за собой более высокие первоначальные инвестиции, но меньшие текущие расходы). Конфигурация оборудования, используемая для расчета затрат в этом примере, включает шасси 2U, два процессора Intel Hexacore, 16 ГБ ОЗУ, 30 ТБ полезного пространства в сочетании с резервированием на аппаратном уровне (RAID5).
Нам потребуется около 20 тыс. серверов, размещенных в 320 стойках 46U. Стоимость серверного оборудования оценивается примерно в 7,5 млн евро в месяц (включая серверы для вспомогательных услуг). Стоимость стоек, электричества и трафика оценивается примерно в 0,5 млн евро в месяц (включая вспомогательные устройства и сетевое оборудование).
Общая стоимость оборудования в год для хранения данных объемом 3,75 ЭБ: 168 млн евро.
И сравнение с Facebook:
Не секрет, что Facebook хранит много данных — 100 петабайт ( источник )
По приблизительным подсчетам, сделанным Брюстером Кейлом, который знает о хранении данных из Internet Archive, для хранения всех телефонных звонков в США в течение года требуется около 270 петабайт (и 27 миллионов долларов). Таким образом, эти цифры могут быть на порядок выше ожиданий центра обработки данных в Юте в ближайшем будущем. http://blog.archive.org/2013/06/15/cost-to-store-all-us-phonecalls-made-in-a-year-in-cloud-storage-so-it-could-be- датамайнинг/
Конрад Рудольф
охотник2
Шадур
Мартин Тома
Шадур
Мартин Тома