Сможет ли дата-центр АНБ в штате Юта обрабатывать пять зеттабайт данных?

Question

Сможет ли дата-центр АНБ в штате Юта обрабатывать пять зеттабайт данных?

Мартин Тома

Утверждение, которое я хочу изучить,

Дата-центр АНБ в штате Юта сможет обрабатывать пять зеттабайт данных.

Я думаю, что «зеттабайты» слишком велики. Даже одного эксабайта может быть слишком много для хранения (не говоря уже о возможности обработки такого объема данных).

Источники

Центр обработки данных в штате Юта, также известный как Центр обработки данных Всеобъемлющей национальной инициативы по кибербезопасности разведывательного сообщества, представляет собой хранилище данных для разведывательного сообщества США, предназначенное для хранения чрезвычайно больших объемов данных.

Источник: Википедия

Агентство национальной безопасности строит центр обработки данных, который потенциально может хранить йоттабайты данных.

Источник: cnet.co.uk

Предполагаемая мощность этих вычислительных ресурсов в Юте настолько велика, что требует использования малоизвестной единицы пространства для хранения: зеттабайта . Cisco определяет зеттабайт как количество данных, которое заполнило бы 250 миллиардов DVD-дисков. [...] Центр данных АНБ в штате Юта сможет обрабатывать пять зеттабайт данных, по словам Уильяма Бинни, бывшего технического директора АНБ, ставшего осведомителем. Расчет Бинни является оценкой. Представитель АНБ говорит, что фактический объем данных центра засекречен.

Источник: npr.org

Space(1 DVD) = 4.7 GB
Space(250 * 10^9 DVDs) = 250*10^9*4.7 GB = 1175 EB = 1.175 ZB

Поскольку эти цифры примерно совпадают, я думаю, это не простая опечатка на npr.org.

Но 1 YB = 1000 ZB, так что это не совпадает.

Кроме того: самое большое устройство хранения, которое я смог найти на Amazon с помощью этого поиска , было Quantum StorNext AEL500 Archive за 143 918,20 долларов США. Он может хранить 399 ТБ. Это означает399 TB / $143,918.20 = $0.36 per GigaByte

Так что 5 ZBнам понадобится (5 * 10^21 Byte) / (399 * 10^12 Byte) = 1.253*10^7. Это означало бы, что вам придется заплатить около $143,918.20*1.253*10^7 = $1.803 trillion (US dollars). Но:

На этой неделе Инженерный корпус армии США заложил основы нового крупного центра киберразведки Агентства национальной безопасности в штате Юта. Расположенный в Кэмп-Уильямс, в 25 милях к югу от Солт-Лейк-Сити, объект стоимостью 1,2 миллиарда долларов, официально известный как Центр обработки данных в Юте, будет отвечать за сбор и агрегирование поступающих разведывательных данных.

Источник: Defensesystems.com

оценки

Даже после поиска устройства с самым низким соотношением доллара к гигабайту я не нашел ничего дешевле, чем 0,05 доллара за ГБ. Это означает, что вы можете снизиться до 250 миллиардов долларов США, что все еще слишком много.

Еще более проблематичным может быть энергопотребление.

Вопросы, которые могут привести к ответу

Я сделал какую-то ошибку? Может ли это в конечном итоге оказаться правдой (Что нового в науке о хранилищах данных?) Какой емкостью обладают крупные компании, такие как Google/Facebook/Dropbox? Сколько может хранить Википедия (особенно общедоступная)?

Системы хранения

Обеспечьте до 900 ПБ автоматизированного недорогого хранилища

Ленточная библиотека IBM System Storage TS3500

Проблемы этого вопроса

Я думал, что «обрабатывать и обрабатывать» будет означать, что они должны хранить этот объем информации, но источник не говорит, что
Неясно, что именно означает «обрабатывать и обрабатывать». Особо следует отметить пропускную способность.

Конрад Рудольф

Здесь нет содержательной претензии. «процесс» требует измерения пропускной способности , а не объема. «обрабатывать X байтов» бессмысленно, «обрабатывать X байтов в секунду » будет иметь смысл. Может быть, вопрос заключался в том, сможет ли центр хранить столько данных, а не обрабатывать их? Если это так, то это принципиально другое утверждение: обработка не подразумевает хранения, а хранение подразумевает только нематериальную обработку.

охотник2

Ах да, это может быть «интересно», если вы не используете «зеттабайты» каждый день: xkcd.com/992

Шадур

В ваших расчетах цен отсутствуют: 1) тот факт, что АНБ явно будет закупать оптом, что, вероятно, снизит цену за единицу продукции, и 2) технология, доступная для широкой публики, в любом ценовом диапазоне, почти наверняка не будет такая же, как технология, доступная правительственному агентству с максимальным уровнем допуска .

Мартин Тома

@Shadur «технология, доступная для широкой публики, в любом ценовом диапазоне, почти наверняка не совпадает с технологией, доступной государственному агентству с максимальным уровнем допуска». - почему ты так думаешь?

Шадур

@martinthoma gps.gov/systems/gps/performance/accuracy был бы самым быстрым примером, но все сводится к тому, что вы обычно можете положиться на правительства и военные агентства, чтобы держать их самые блестящие игрушки близко к груди и не позволять гражданским лицам играйте с ними, пока у них не появится что-то лучшее для себя.

Мартин Тома

@Shadur Я думаю, что есть большая разница. Спутники не используются многими потребителями и не производятся многими организациями. Напротив, стремление хранить большие объемы данных есть у многих компаний. GPS разработан Минобороны и есть альтернативы только России, ЕС и Китая. Получить что-либо, пригодное для глобальной навигации, невероятно дорого. Но решения для хранения разрабатывают многие компании. Разработка полезных решений сравнительно проста и дешева. Следовательно, я не думаю, что у АНБ есть технологии хранения, которые недоступны для (богатой) публики.

Ответы (4)

Сможет ли дата-центр АНБ в штате Юта обрабатывать пять зеттабайт данных?

Здесь нет содержательной претензии. «процесс» требует измерения пропускной способности , а не объема. «обрабатывать X байтов» бессмысленно, «обрабатывать X байтов в секунду » будет иметь смысл. Может быть, вопрос заключался в том, сможет ли центр хранить столько данных, а не обрабатывать их? Если это так, то это принципиально другое утверждение: обработка не подразумевает хранения, а хранение подразумевает только нематериальную обработку.
Ах да, это может быть «интересно», если вы не используете «зеттабайты» каждый день: xkcd.com/992
В ваших расчетах цен отсутствуют: 1) тот факт, что АНБ явно будет закупать оптом, что, вероятно, снизит цену за единицу продукции, и 2) технология, доступная для широкой публики, в любом ценовом диапазоне, почти наверняка не будет такая же, как технология, доступная правительственному агентству с максимальным уровнем допуска .
@Shadur «технология, доступная для широкой публики, в любом ценовом диапазоне, почти наверняка не совпадает с технологией, доступной государственному агентству с максимальным уровнем допуска». - почему ты так думаешь?
@martinthoma gps.gov/systems/gps/performance/accuracy был бы самым быстрым примером, но все сводится к тому, что вы обычно можете положиться на правительства и военные агентства, чтобы держать их самые блестящие игрушки близко к груди и не позволять гражданским лицам играйте с ними, пока у них не появится что-то лучшее для себя.
@Shadur Я думаю, что есть большая разница. Спутники не используются многими потребителями и не производятся многими организациями. Напротив, стремление хранить большие объемы данных есть у многих компаний. GPS разработан Минобороны и есть альтернативы только России, ЕС и Китая. Получить что-либо, пригодное для глобальной навигации, невероятно дорого. Но решения для хранения разрабатывают многие компании. Разработка полезных решений сравнительно проста и дешева. Следовательно, я не думаю, что у АНБ есть технологии хранения, которые недоступны для (богатой) публики.

rjzii · Answer 1

Этот ответ весьма умозрительный, поскольку АНБ не дало никаких указаний относительно вместимости объекта. Кроме того, это очень сложный вопрос для понимания, потому что у нас нет указаний на то, сколько данных они хотят хранить на самом деле.

При рассмотрении первого заявления о том, что они обрабатывают до пяти зеттабайт данных, это кажется правдоподобным. Мы знаем, что Большой адронный коллайдер (БАК) генерирует один петабайт данных в секунду и хранит двадцать пять петабайт данных в год ¹ . Используя простую математику,

1 zettabyte = 1,048,576 petabytes
1,048,576 seconds = 12.1363 days

1 zettabyte every 12.1363 days 
or about 30 zettabytes of data a year

Согласно прогнозу Cisco , к концу 2017 года мир будет иметь 1,4 зеттабайта глобального IP - трафика в год. Таким образом, мы можем заключить, что вполне вероятно, что такое агентство, как АНБ, разработало это в системе. Кроме того, это включает только IP-трафик и другую голосовую связь и передачу данных, которые проходят через другие системы.

Что касается хранения данных, обычное число составляет пять зеттабайт, поэтому мы рассмотрим это. Возможности для эксабайтной системы хранения уже существуют на коммерческой основе. IBM производит ленточную библиотеку System Storage TS3500 , которая предлагает до 2,7 экзабайт данных, в частности,

До 180 ПБ в сжатом виде с 3592 картриджами увеличенной емкости на библиотеку, до 2,7 ЭБ в сжатом виде на комплекс

Физические размеры одной рамы составляют 70,9 дюйма (В) × 30,8 дюйма (Ш) × 47,7 дюйма (Г) (1800 мм × 782 мм × 1212 мм) или около 10,2 кв. футов. (0,9 кв. м), что соответствует размерам большинства стоек 42U . Чтобы достичь полных 2,7 эксабайта, необходимо 15 библиотек, каждая из которых потребует 16 фреймов, что дает нам 2 448 кв. футов (227,4 кв. м). Объем дополнительного пространства, необходимого из-за воздушного потока и доступа к системе, довольно сложен , поэтому исключая это из уравнения,

2.7 exabytes per complex with a footprint of 2,448 sq.ft.
1 zettabyte = 1024 exabytes
1024 / 2.7 = 379.2 systems, so say 380 systems
380 * 2,448 sq.ft = 930,240 sq.ft per zettabyte

Это дает нам около 4 651 200 кв. футов. (432 110,62 кв. м) за обычно указанную цифру в 5 зеттабайт. Даже хранение одного зеттабайта с использованием систем выходит за пределы 100 000 квадратных футов. для залов данных , которые будут в дата-центре в Юте, не говоря уже о площади от 1 до 1,5 млн кв. футов. размер дан для комплекса в целом.

Исходя из этого, заявления о том, что он будет хранить пять зеттабайт данных, сомнительны; однако эти расчеты основаны на коммерчески доступной системе, поэтому возможно, что они занимают меньше места для того, что они используют. Тем не менее, даже хранение одного зеттабайта, вероятно, является чрезмерным усилием, учитывая то, что есть на коммерческом рынке. Однако в 2010 году IBM Research объявила о новом рекорде в ленточных хранилищах с потенциальной емкостью 35 терабайт несжатого хранилища на картридж. Нынешнее высококлассное предложение от IBM — ленточный картридж 3592 емкостью до 4 терабайт.

Вышеупомянутая ленточная библиотека TS3500 вмещает до 225 000 ленточных картриджей, поэтому, если каждый из картриджей рассчитан на 35 терабайт, общий объем хранилища комплекса TS3500 составит около 7,51 эксабайта. Если мы применим эти обновленные значения к предыдущим расчетам,

7.51 exabytes per complex with a footprint of 2,448 sq.ft.
1 zettabyte = 1024 exabytes
1024 / 7.51 = 136.4 systems, so say 137 systems
137 * 2,448 sq.ft = 335,376 sq.ft per zettabyte

Таким образом, даже при этом залы данных все еще слишком малы для хранения одного зеттабайта, хотя мы сейчас находимся в диапазоне, где комплекс в целом может быть способен хранить от одного до двух зеттабайт в идеальных условиях.

Конечно, требуется использование ленточных хранилищ данных, которые очень медленны ; однако, не зная точно, что АНБ делает с данными, мы не можем предположить, заботятся ли они о скорости доступа или нет. Кроме того, методы индексации метаданных означают, что необработанные данные могут не понадобиться для большей части обработки, поэтому задержка, связанная с хранением на ленте, может не беспокоить АНБ. Мы уже знаем, что у них есть большие базы метаданных , поэтому вполне вероятно, что они могут использовать такие методы для работы с ленточными данными .

Таким образом, заявления о количестве данных, которые могут быть сохранены и обработаны, в настоящее время неправдоподобны , учитывая размер объекта и известные в настоящее время современные и коммерчески доступные системы. Однако утверждение о том, что они могут обрабатывать пять зеттабайт данных, правдоподобно , учитывая огромный объем трафика данных, который существует в мире, и мы не знаем, как они обрабатывают данные. Если они будут использовать проверку любопытства с последующим отбрасыванием неинтересных данных, таких как БАК, тогда это возможно, и их фактические требования к хранению данных также будут снижены.

В случае БАК они отбрасывают большую часть данных как «неинтересные», а не сохраняют их.
Даже если залы данных составляют всего 100 000 кв. футов. должно быть достаточно места, хотя это может быть менее вероятно, учитывая, что мы не знаем конфигурации зданий.

Даже если они отбрасывают данные как неинтересные, они все равно «обрабатывают и обрабатывают» их.
Комплекс в Юте может быть 1 млн кв. футов, но говорят, что 900 000 кв. футов. из них административные и вспомогательные здания, и только 100 000 кв.м. являются фактическим центром обработки данных
Кроме того, пример LHC просто неверен. Они генерируют столько данных из экспериментов, но не утверждают, что данные из экспериментов обрабатываются в режиме реального времени.
@vartec вариант использования этого средства будет заключаться в анализе данных в реальном времени по мере их поступления, а затем в архивировании данных для последующего извлечения. Они будут запускать Hadoop и тому подобное на вещах, которые они высасывают сегодня, но данные за последний месяц будут доступны только в том случае, если они решат, что вы подозрительны, и захотят более внимательно изучить историю вашей активности. Это всего лишь кеширование слоев :)
Также кажется, что вы не совсем правильно интерпретировали емкость/размеры ленточной библиотеки. 16 кадров - это одна библиотека, а не весь комплекс. Весь комплекс 2.7EB — это 15 библиотек по 16 фреймов в каждой.
@роб: ты сделал. Расчет вычислительной мощности ЦЕРН, как если бы они обрабатывали данные в режиме реального времени. Они не делают. home.web.cern.ch/о/компьютинг
Хорошо, я отказываюсь от своего предыдущего отрицательного комментария. На самом деле это -1 за 15-кратную ошибку размера ленточной библиотеки и полное непонимание пропускной способности центра обработки данных CERN.
@vartec Хороший улов на сложных размерах, я соответственно обновил ответ и выводы.
@vartec Использование LHC по-прежнему кажется актуальным, поскольку часть проблемы, с которой сталкиваются люди с зеттабайтами, заключается в том, что в мире вообще генерируется столько данных.
@rob: проблема с LHC в том, что эксперименты длятся доли секунды, а результаты анализируются в ЦЕРНе месяцами. Таким образом, они могут захватывать всплески данных, но им далеко до устойчивой пропускной способности таких пропорций.
@vartec Это противоречит тому, что CREN говорит, что они делают - home.web.cern.ch/about/updates/2013/04/… - короче говоря, они фильтруют данные, поступающие с детекторов, и отбрасывают большую их часть. Затем следует второй проход, который отбрасывает еще больше данных. После этого они отправляют «интересные» данные на более длительный анализ. Лично я не слишком удивлюсь, если установка АНБ будет похожа на то, что ЦЕРН делает для данных LHC.
@rob: если бы они проигнорировали данные, зачем они хранили бы их зеттабайтами?
@vartec АНБ или БАК? Насколько я могу судить, ЦЕРН ежегодно хранит только петабайты данных, и никто окончательно не доказал, что АНБ хранит пять зеттабайт, о которых заявляли люди. Они могли бы хранить зеттабайт в Юте (я, скорее всего, предположил бы, что это сочетание ленты, сжатия, дедупликации и т. д.), но пять зеттабайт кажутся за пределами современного уровня техники, учитывая квадратные метры.
Площадь объекта — это еще не все. Используя несколько этажей, подвалов и т. д., его можно легко увеличить. Итак, если у них есть 100 000 кв. Футов. площадь для хранения и хранения на 3-х этажах и 2-х подвальных этажах, это уже полмиллиона квадратных футов.
@jwenting Я знаю, но поскольку я не вижу, чтобы они раскрывали такую информацию, я не понимаю, как это можно принять во внимание. Лично я был бы удивлен, если бы в залах данных не было нескольких подуровней.
@rob: какой смысл иметь подуровни, если вы строите в отдаленном районе, где земля дешевая? Их бюджет составляет $1,2 млрд, а не $1,2 трлн.
@vartec Ну, обман. Я понимаю вашу точку зрения и не совсем согласен с Робом по поводу вероятности, но это возможно. Обратите внимание, что во время холодной войны было несколько случаев проектирования баз таким образом, что даже если у другой стороны были спутниковые снимки, они не знали бы всего (или даже масштаба) объекта.
@ hunter2 Думаю, это зависит от того, как вы определяете подуровни. Учитывая здания, я был бы удивлен, если бы не было хотя бы подвала для инфраструктуры, но вопрос в том, сколько их ниже.
@rob, я согласен с тем, что скорее всего «по крайней мере подвал для инфраструктуры», и что возможно «несколько подуровней к залам данных». Я думал, вы имели в виду, что вы считаете последнее не только возможным, но и вероятным («удивитесь, если не было нескольких подуровней») ... мда, семантика

osgx · Answer 2

Есть несколько утверждений о чрезвычайно огромной емкости хранилища данных в Юте, например, « Центр обработки данных АНБ в штате Юта сможет обрабатывать пять зеттабайт данных » .

Многие из них исходят из неправильных оценок Уильяма Бинни (бывшего технического директора АНБ), согласно NPR: http://www.npr.org/2013/06/10/190160772/amid-data-controversy-nsa-builds- самая большая ферма данных

По словам Уильяма Бинни , бывшего технического директора АНБ, ставшего осведомителем , центр данных АНБ в штате Юта сможет обрабатывать пять зеттабайт данных . Расчет Бинни является оценкой . Представитель АНБ говорит, что фактический объем данных центра засекречен.

Вот полная фотокопия декларации Бинни по ДЕЛУ №. CV-08-04373-JSW, от 28 сентября 2012 г.: https://www.eff.org/sites/default/files/filenode/binneydeclaration.pdf — стр. 4, строки 18–26:

18   11. A futher notable development has been the NSA's public announcement in October 
19  2009 that it was building a massive, $1.2 billion digital storage facility in Ft. Williams, Utah.
20  According to some reports, the Utah facility will eventually have a data storage capacity measured 
21  in yottabytes (10**24 bytes). Even if the Utah facility were to have no more than the amount of data
22  storage that is presently commercially available, then one would expect the data storage to be in the
23  range of multiples of ten exebytes (10**18 bytes). See www.cleversafe.com. (According to 
24  Cleversafe, its ten exebyte storage solution fills no more than tho hundred square feet).

Forbes проверил его оценки и обнаружил огромную ошибку в том, сколько места потребуется решению Cleversafe для 10 эксабайт: http://www.forbes.com/sites/kashmirhill/2013/07/24/blueprints-of-nsa-data-center- in-utah-suggest-Емкость-хранилища-менее-впечатляет-чем-думали/

Чертежи смехотворно дорогого центра обработки данных АНБ в Юте предполагают, что он содержит меньше информации, чем предполагалось, 24 июля 2013 г.

Бинни дал NPR оценку в 5 зеттабайт, а также включил ее в письменные показания под присягой, поданные в деле «Джевел против АНБ»…

Его оценка основана на предположении, что предприятие может предложить оборудование, подобное разработанному Cleversafe. Компания заявляет, что у нее есть система хранения данных объемом 10 экзабайт, которая включает в себя переносные центры обработки данных с 21 стойкой в каждом.

Бинни понял, что это означает, что 21 стойка может вместить 10 экзабайтов, и предположил, что эффективный размер стойки составляет 4 квадратных фута…

он неправильно прочитал маркетинговые материалы Cleversafe . На самом деле говорят, что 560 переносных дата-центров по 21 стойке в каждом (или 11 760 стоек) могут вместить 10 эксабайт. ...

Крис Глэдвин, основатель Cleversafe, говорит, что в январе 2012 года для 10 экзабайт системы хранения потребовалось бы «около 2 миллионов квадратных футов».

Так что маркетинговая речь Cleversafe приводит бывшего технического директора АНБ к очень неверным оценкам.

вартек · Answer 3

Зависит от интерпретации того, что на самом деле означает обрабатывать и обрабатывать пять зеттабайт данных :

иметь 5ZB для онлайн-обработки?
иметь 5ZB в автономном архиве, имея при этом только метаданные, доступные для онлайновой обработки?
Иметь 5ZB входящего трафика, сбрасывая большую его часть, сохраняя и обрабатывая только интересное?

Он-лайн хранилище

Если вы собираетесь построить что-то столь же крупное, как центр обработки данных АНБ, вместо того, чтобы покупать доступное оборудование, вы можете выбрать индивидуальную сборку с использованием отраслевых стандартов для больших данных.

Open Compute Storage от Facebook указывает хранилище Open Vault , которое предназначено для размещения 30 3,5-дюймовых жестких дисков в корпусе 2U. Что с доступными в настоящее время жесткими дисками будет означать плотность 120 ТБ на 2U.

Вы можете разместить 21 из них в одной стандартной 19-дюймовой стойке высотой 42U , что означает, что у вас будет 2520 ТБ на стойку.

Каждая стойка имеет основание около 0,62 м². Если добавить минимальный зазор, то 1 м² на стойку будет очень низкой оценкой.

Это предполагает, что вы хотели бы иметь машины, изготовленные по индивидуальному заказу для вашего центра обработки данных. В противном случае это стандартное оборудование. Например , Dell PowerVault MD1200 с 12 дисками SATA емкостью 4 ТБ стоит 11 254,21 долл. США; Это, конечно, розничная цена, при оптовых заказах вы получаете большие скидки. Точно так же вы можете получить облачный сервер, такой как PowerEdge C6145 , который также может быть оснащен 12 дисками SATA по 4 ТБ. Они не предоставляют свои цены онлайн, но, если я правильно помню, такая установка будет стоить около 15-20 тысяч долларов.

Оба вышеперечисленных дают вам плотность 48 ТБ на 2U. Это означает 1004 ТБ на стойку.

Сообщается , что центр обработки данных NSA в штате Юта имеет 10 000 м², выделенных для серверов (100 000 м², включая административные и вспомогательные здания). Так что действительно, очень высокая оценка будет заключаться в том, что они теоретически могут втиснуть туда 25 ЭБ облачного хранилища. Это всего 0,5% от 5ZB.

Автономное хранилище

Если вы планируете автономное архивирование данных, вы можете использовать ленточные библиотеки. Обычно это не используется в больших данных, но опять же, АНБ не является типичной компанией, работающей с большими данными.

Проблема в том, что даже с ленточной библиотекой IBM System Storage TS3500 с максимальной плотностью вы можете хранить 180 ПБ на библиотеку, занимающую площадь не менее 15 м². Это означает, что только для ленточных библиотек потребуется около 420 000 м². Весь комплекс NSA в штате Юта оценивается в «1 миллион или 1,5 миллиона квадратных футов» (93 000–149 000 м²), но также было сказано, что это «100 000 квадратных футов (9 300 м²) пространства центра обработки данных и более 900 000 квадратных футов. (83 600 м²) технической поддержки и административных помещений» ( источник). Назначение зданий может быть засекречено или намеренно введено в заблуждение, внешние размеры - нет. Таким образом, очевидно, что нет никакого способа втиснуть туда 5 ЗБ ленточного архива, даже если здания, которые называются административными, на самом деле предназначены для ленточного архива.

Метаданные

Итак, давайте предположим, что даже если вам удастся каким-то образом заархивировать 5 ЗБ необработанных данных, как я подсчитал выше, даже если вы будете использовать все пространство своего центра обработки данных для оперативной обработки, это будет означать, что вы храните только 5 КБ данных. метаданные для каждого 1 МБ данных. В то время как для мультимедийных файлов, которых кажется более чем достаточно, я действительно сомневаюсь, что вы можете достичь соотношения, близкого к тому, что для электронных писем, чатов, текстовых сообщений, твитов и т. д. Конечно, они могут отфильтровывать информацию, которая им не интересна, и не хранить какие-либо связанные метаданные. к этой информации. Но в этом случае нет смысла архивировать эту информацию в автономном режиме, потому что у вас нет пути доступа — у вас нет метаданных, указывающих на нее, и вы не можете извлечь данные, заархивированные на лентах.

пропускная способность

Если предположить, что это 5 ЗБ в год, то устойчивая пропускная способность составляет 570 ПБ в день или 160 ТБ в секунду. Не говоря уже о вычислительной мощности, необходимой для обработки этого, вопрос в том, как эти данные будут туда транспортироваться? Текущая интернет-инфраструктура далеко не готова к такому трафику. Три крупнейшие точки обмена интернет-трафиком расположены в Европе и имеют максимальную пропускную способность 2,2 Тбайт/с, 2,1 Тбайт/с и 1,6 Тбайт/с соответственно. США сильно отстают: лучшие биржи США имеют только 0,28 ТБ/с и 0,25 ТБ/с, еще одна, Equinix имеет всего 1,4 ТБ/с в 12 странах на 4 континентах. Другими словами, совершенно невозможно вкладывать 5 ZB в год в центр обработки данных, особенно в таком удаленном месте. И, как видите, не обязательно, даже если вы хотите обрабатывать весь интернет-трафик.

Заключение

иметь 5ZB для онлайн-обработки?
Физически невозможно
иметь 5ZB в автономном архиве, имея при этом только метаданные, доступные для онлайновой обработки? Невозможно с текущими технологиями и размерами зданий, как сообщается.
Иметь 5ZB входящего трафика, сбрасывая большую его часть, сохраняя и обрабатывая только интересное? Независимо от обработки просто невозможно иметь такой объем входящего трафика

На сайте HighScalability.com есть гостевой пост «PRISM: удивительно низкая стоимость использования больших данных, позволяющих узнать о вас больше менее чем за минуту» , написанный основателем и техническим директором BugSense Джоном Влахогианнисом и руководителем отдела инфраструктуры BugSense Панайотисом Пападомитсосом.

Они рассчитывают необходимое хранилище как 3,75 ЭБ.

ДАННЫЕ

Facebook: 500 ТБ/день * 30 = 1,5 PT/месяц ( источник )

Twitter: 8 ТБ/день * 30 = 240 ТБ/месяц 8 ТБ/день ( источник )

Электронная почта/Другая информация: 193 PT в месяц Google говорит, что 24 ПБ в день (2008 г.). Пять лет спустя предположим, что это в 8 раз больше = 192 ПБ. Теперь реальная информация о пользователе составляет 1/3 = 64 PT/день ( источник ) .

Мобильный трафик/машинно-машинный обмен/автомобили и т. д.: 4000 ТБ в день = 117 ПБ/месяц ( источник )

Всего данных = ~ 312 ПБ в месяц

Стоимость оборудования

Приведенные ниже цены соответствуют аренде готовых серверов в коммерческих высокопроизводительных центрах обработки данных (учитывая, что данные будут храниться в архитектуре распределенной файловой системы, такой как HDFS). Это наихудший сценарий, который не включает потенциальные скидки из-за аренды такого большого объема оборудования и трафика или приобретения вышеупомянутого оборудования (которое влечет за собой более высокие первоначальные инвестиции, но меньшие текущие расходы). Конфигурация оборудования, используемая для расчета затрат в этом примере, включает шасси 2U, два процессора Intel Hexacore, 16 ГБ ОЗУ, 30 ТБ полезного пространства в сочетании с резервированием на аппаратном уровне (RAID5).

Нам потребуется около 20 тыс. серверов, размещенных в 320 стойках 46U. Стоимость серверного оборудования оценивается примерно в 7,5 млн евро в месяц (включая серверы для вспомогательных услуг). Стоимость стоек, электричества и трафика оценивается примерно в 0,5 млн евро в месяц (включая вспомогательные устройства и сетевое оборудование).

Общая стоимость оборудования в год для хранения данных объемом 3,75 ЭБ: 168 млн евро.

И сравнение с Facebook:

Не секрет, что Facebook хранит много данных — 100 петабайт ( источник )

Это предполагает, что мы знаем технологию хранения, которая будет доступна АНБ.
@Санчо: почему бы и нет? все экспериментальное было бы а) смехотворно дорогим б) должно было быть полностью сделано в США в) государственными учреждениями. Если только вы не думаете о каких-то инопланетных технологиях из Розуэлла...
все экспериментальное было бы а) смехотворно дорогим б) должно было быть полностью сделано в США в) государственными учреждениями. Да, это то, о чем я думаю, а не об инопланетянах.
@Sancho: хотя WD и Seagate являются американскими компаниями, у них есть иностранные акционеры, а сами жесткие диски не производятся в США. Так могли ли они тайно создавать жесткие диски в несколько сотен раз большей емкости только для АНБ? Или, может быть, IBM создала специальные ленты большей емкости специально для АНБ? Будет ли какая-либо компания готова пожертвовать своим бизнесом, чтобы угодить АНБ и сохранить убийственный продукт на рынке?
Так могли ли они тайно создавать жесткие диски в несколько сотен раз большей емкости только для АНБ? Я не знаю. Или, может быть, IBM создала специальные ленты большей емкости специально для АНБ? Может быть. Будет ли какая-либо компания готова пожертвовать своим бизнесом, чтобы угодить АНБ и сохранить убийственный продукт на рынке? Я не знаю.
Есть способ понять и согласиться с утверждением в ОП: 1) в мире есть пять зеттабайт данных, которые АНБ должно обрабатывать; 2) АНБ будет делать это с помощью своего нового средства обработки данных. Эти «160 ТБ в секунду» обработки, о которых вы упоминаете, например, могут быть (и я предполагаю, что это так) распределены по всему миру, часто совмещены с сетевыми коммутаторами или транками, которые управляют трафиком. И этот центр обработки данных может быть серверным, хранилищем, центром управления и операционным центром для этой (распределенной) обработки.
@ChrisW: хотя я мог представить, что британское правительство. позволили бы что-то подобное, я не вижу возможности, чтобы немцы или голландцы пошли на это. Кроме того, на это должна была пойти компания, управляющая биржей.
@vartec Федералы, как известно, привязаны к коммутаторам в самих США. И я читал, что Челтнем наблюдает за трафиком, идущим через спутники. Операционные компании установят любые лазейки для наблюдения, которые потребуются национальным правительствам. Во всяком случае, я предполагаю, что кое-что из этого на самом деле работает, более или менее: для меня не имеет особого смысла направлять весь необработанный трафик через Юту.
@ChrisW: АНБ может легко заставить американские компании соблюдать требования, это совершенно очевидно. Я не думаю, что они были бы настолько эффективны в случае иностранной компании на иностранной, не британской земле. GCHQ тесно сотрудничает с АНБ, что, к сожалению, является фактом.
Возьмем, к примеру, Германию и Голландию, между Амстердамом и Берлином существует транспортное сообщение. Либо АНБ каким-то образом может получить доступ к этому трафику, и в этом случае этот трафик является частью предполагаемого набора данных для обработки, либо они вообще не могут получить к нему доступ (в этом случае это не имеет отношения к вопросу). Теперь, ограничивая эксперимент Gedanken набором всех данных/трафика, к которым у АНБ есть доступ, вполне вероятно, что некоторая/большая часть/большая часть их обработки/фильтрации будет выполняться на «периферии» (их сети), на или рядом с их «отводами» (в общедоступную сеть).
Я предполагаю, что все национальные правительства тем или иным образом следят за своими телефонными сетями: например, некоторое время назад стало известно, что Индия хочет улучшить доступ для слежки к сообщениям, генерируемым устройствами Blackberry. Поэтому я ожидаю, что большинство операционных компаний имеют законные требования к сбору и хранению данных наблюдения. Сколько из этих данных может получить доступ АНБ, является (частью) вопросом.
Такие отчеты, как «В 2008 году, американцы потребляли… 3,6 зеттабайта и 10 845 триллионов слов, что соответствует 100 500 словам и 34 гигабайтам для среднего человека в среднем в день». предполагают, что «пять зеттабайт данных», указанные в ОП, могут быть коротким / небрежным способом сказать «весь набор данных АНБ».
«Значит, они могли тайно создавать жесткие диски с емкостью в несколько сотен раз больше только для АНБ?» Northrop тайно производила бомбардировщики-невидимки только для ВВС США, истребители-невидимки Lockheed, существует очень длинная история компаний, тайно производивших вещи только для правительственного учреждения в своей родной стране, которые они могли бы продавать на коммерческой основе, если бы они не были классифицированы достаточно высоко, чтобы запретить который.
@jwenting: истребители - это не совсем потребительские товары, и хотя технология невидимости, которая не имеет гражданского применения, держалась в секрете, другие технологии, такие как, например, цифровая электродистанционная связь, не были.
@ChrisW: если он будет отфильтрован на периферии, это будет означать, что он не обрабатывается и не хранится на объекте в Юте, о чем и идет речь.
Принцип @vartec тот же. И многие из этих вещей какое-то время держались в секрете. использовались в военных целях в течение многих лет, а иногда и десятилетий, прежде чем были выпущены для широкой публики.
@ChrisW: Кстати, что касается цифры 3.6ZB, это немного смешно. Например. 200 человек, просматривающих фильм в кинотеатре, считаются эквивалентом каждого потребления несжатого видео в формате Full-HD. Кроме того, игра в видеоигры считается еще более экстремальной, как если бы это было несжатое видео, записанное в собственном разрешении (это означает, что кто-то, играющий на дисплее Retina, считается потребляющим несжатое видео 2880 × 1800 при 60 Гц).
@jwentig: можете ли вы привести хоть один пример компьютерной или телекоммуникационной технологии, которая когда-либо держалась в секрете за последние 30-40 лет?
@vartec Это отдельная претензия для отдельного вопроса.
@jwenting: также, если вы думаете об экспериментальных технологиях, таких как самолеты-невидимки, совокупная стоимость B-2 составляет 2 миллиарда долларов за единицу. Бюджет всего центра обработки данных NSA в Юте, включая строительство, персонал и т. д., составляет 1,2 миллиарда долларов.

пользователь1215659 · Answer 4

По приблизительным подсчетам, сделанным Брюстером Кейлом, который знает о хранении данных из Internet Archive, для хранения всех телефонных звонков в США в течение года требуется около 270 петабайт (и 27 миллионов долларов). Таким образом, эти цифры могут быть на порядок выше ожиданий центра обработки данных в Юте в ближайшем будущем. http://blog.archive.org/2013/06/15/cost-to-store-all-us-phonecalls-made-in-a-year-in-cloud-storage-so-it-could-be- датамайнинг/

Сможет ли дата-центр АНБ в штате Юта обрабатывать пять зеттабайт данных?

Мартин Тома

Источники

оценки

Вопросы, которые могут привести к ответу

Системы хранения

Проблемы этого вопроса

Конрад Рудольф

охотник2

Шадур

Мартин Тома

Шадур

Мартин Тома

Ответы (4)

rjzii

пользователь5582

вартек

вартек

Такрой

вартек

вартек

вартек

rjzii

rjzii

вартек

rjzii

вартек

rjzii

путешествие

rjzii

вартек

охотник2

rjzii

охотник2

osgx

вартек

Он-лайн хранилище

Автономное хранилище

Метаданные

пропускная способность

Заключение

ДАННЫЕ

Стоимость оборудования

пользователь5582

вартек

пользователь5582

вартек

пользователь5582

КрисВ

вартек

КрисВ

вартек

КрисВ

КрисВ

КрисВ

путешествие

вартек

вартек

путешествие

вартек

вартек

пользователь5582

вартек

пользователь1215659