Было ли математически определено, что манускрипт Войнича не является тарабарщиной?

Примеры страниц рукописи Войнича.

Сообщение на форуме CthulhuTech содержит следующее заявление о манускрипте Войнича :

На самом деле немного покопавшись, и вид очень расплывчатый, те, кто чувствует, что это какой-то шифр, математически показали, что это не тарабарщина. Но можно утверждать, что возможно (но это потребует массы работы, особенно без вычислителей) сделать что-то, что будет работать (но нет никаких доказательств того, что требуемые знания существовали в тот момент, когда считается, что они были созданы.

Какой анализ был проведен, чтобы «доказать», что рукопись является законным шифровальным письмом, и как такой анализ может отличить настоящий шифр от тщательно созданной «тарабарщины»?


Приложение - краткая предыстория:

Рукопись Войнича представляет собой рукописную книгу объемом около 240 страниц, предположительно созданную в начале 15 века. Обычно предполагалось, что это зашифрованный текст, но автор и цель книги совершенно неизвестны. В 2009 году исследователи из Университета Аризоны использовали углеродный анализ, чтобы подтвердить, что страницы пергамента датируются периодом между 1404 и 1438 годами . Кроме того, Исследовательский институт Маккроуна в Чикаго определил, что чернила « не были добавлены в более поздний период ». Это подтверждает теорию о том, что документ не является анахроничной мистификацией, но не доказывает, что сценарий содержит поддающееся расшифровке сообщение.

Презентация в формате PDF, подготовленная Кевином Найтом из Института информатики Университета Южной Калифорнии, содержит дополнительную историческую справку о документе и обзор некоторого криптоанализа, который был проведен с документом в попытке расшифровать сценарий. Анализ рассматривает образцы отдельных символов и образцы целых слов, которые неубедительны.

Для получения дополнительной информации см. статью в Википедии , презентацию Кевина Найта , статью в Викиучебнике или погуглите «Рукопись Войнича» .

Доказать, что это шифр или что это не просто тарабарщина? Я думал, что большинство считает, что если это не розыгрыш, то написано на каком-то мертвом языке.
@oosterwal, не могли бы вы рассказать немного об этой рукописи? Какова специфика предполагаемого розыгрыша? Каковы возможные альтернативы?
Конечно, это не обман: xkcd.com/593 :)
@ Дэвид: Готово. Также рассмотрите эту статью в формате PDF Джима Ридса , которая охватывает транскрипцию, сделанную Уильямом Ф. Фридманом, американским криптографом времен Второй мировой войны, которому приписывают взлом японского ФИОЛЕТОВОГО кода.
Если это действительно хороший шифр, он должен быть неотличим от случайного потока символов. Таким образом, на самом деле невозможно доказать, что это окончательно розыгрыш, но можно доказать, что это не розыгрыш.
@Fake Name: Не расшифровывая текст, самое большее, что вы можете показать, это то, что генеративный метод создал структуру, (не)отличимую от человеческого языка. Единственный способ доказать, что это не тарабарщина, — создать версию с открытым текстом.
пожалуйста, избегайте использования начальных тегов, таких как [hoax]
@JoeWreschnig На самом деле, хорошо зашифрованный текст не должен иметь какой-либо структуры, поскольку любая структура является слабостью, которую можно использовать для ее расшифровки. Идеально зашифрованный текст должен казаться случайной тарабарщиной.
@rob Рассматриваемый текст имеет неслучайные шаблоны, похожие на естественные языки.
@rob: «хорошо зашифрованный текст не должен иметь никакой структуры» верно только с теоретико-информационной точки зрения. Документы могут быть зашифрованы (и часто зашифрованы) способами, структура которых неотличима от человеческого языка, и это нормально, если эта структура не несет информации об открытом тексте.
@JoeWreschnig Верно, но дело в том, что в контексте рукописи, если бы текст имел математическую последовательность тарабарщины, это само по себе не было бы доказательством того, что это розыгрыш, хотя это может быть в контексте исторической картины. времени.

Ответы (3)

Скорее наоборот, в 2004 году доктор Гордон Рагг из Кильского университета сделал прорыв в том, как такая рукопись могла быть создана с такой очевидной лингвистической регулярностью, но на самом деле быть тарабарщиной:

«Рукопись демонстрирует такую ​​лингвистическую структуру, что кажется, что мистификация требует почти такой же изощренности, как и невзламываемый код», — говорит Рагг в своей статье.

Но теперь компьютерный эксперт и его команда считают, что нашли секрет рукописи Войнича.

Они показали, что его различные слова, регулярно встречающиеся в сценарии, могли быть созданы с использованием техник таблицы и решетки. Различные слоги, из которых состоят слова, записываются в столбцы, а вдоль столбцов надвигается решетка — кусок картона с тремя квадратами, вырезанными по диагонали.

Три выделенных слога образуют слово. Решетка сдвигается, открывая три новых слога, и открывается новое слово.

Вывод Рагга состоит в том, что войничезе — язык манускрипта Войнича — является полной тарабарщиной, составленной из случайных наборов разных слогов.

В 2007 году доктор Андреас Шиннер из Университета Иоганна Кеплера провел дальнейший анализ, опубликованный в журнале Cryptologia, подтверждающий возможность:

В этой статье я анализирую рукопись Войнича, используя отображение случайных блужданий и статистику повторения токенов/слогов. Результаты значительно сужают границы возможных интерпретаций; они предполагают, что текст был сгенерирован случайным процессом, а не кодированием или шифрованием языка.

Единственное, что навсегда докажет, что это мистификация, - это найти документацию о реальных используемых инструментах для генерации - и если это была мистификация, они, скорее всего, были уничтожены вскоре после создания книги. Точно так же единственное, что навсегда докажет, что это не розыгрыш, — это найти перевод, который не является явно надуманным — что бы это ни значило.

Тем не менее, точно неизвестно , не является ли это мистификацией.

+1 за «Неизвестно, что это не розыгрыш» . Теперь мне жаль, что я не уделял больше внимания булевой алгебре, тем более, что дочь Джорджа Буля была замужем за Уилфредом Войничем.
Из википедии : «Устройство, известное как решетка Кардана, было изобретено около 1550 года как инструмент шифрования, более чем через 100 лет после предполагаемой даты создания манускрипта Войнича. Некоторые утверждают [...], что метод решетки можно использовать для подражать любому языку в определенной степени».
@BlueRaja: Опять же, работа Ругга не доказывает, что это розыгрыш. Тем не менее, он устанавливает, что это мог быть обман, что считалось невозможным из-за статистических свойств текста и отсутствия известного способа надежного достижения этих свойств без механического перевода с исходного языка в 1400-х годах. Это даже не обязательно должна быть настоящая решетка Cardan, потому что, если она просто генерирует тарабарщину, вам не нужно ничего расшифровывать.
Если я правильно понимаю, Рагг использовал процесс таблицы и решетки, чтобы определить, что рукопись — полная тарабарщина? Как анализ таблицы и решетки может доказать, что это тарабарщина, если рукопись не является шифром или если рукопись представляет собой шифр, созданный без использования таблицы и решетки?
Рагг использовал таблицу и решетку, чтобы показать, как можно генерировать тарабарщину с определенными статистическими свойствами достаточно быстро, чтобы написать рукопись. Это не доказывает, что книга - тарабарщина. Он обеспечивает правдоподобный механизм, с помощью которого книга может быть тарабарщиной, не требуя от автора знания современных лингвистических или криптографических методов. (Я не собираюсь повторять это снова.)
@ Джо, кажется, я понимаю твою точку зрения, которую ты продолжаешь повторять. Я думаю, это разумный момент. Я не думаю , что вы были непоследовательны в этом вопросе. Но две цитаты «вывод Рагга состоит в том, что Войничезе [...] является полной тарабарщиной» и «они предполагают, что текст был сгенерирован» являются более сильными утверждениями и могут привести к путанице.
@Oddthinking: я не думаю, что есть противоречие. Вывод Рагга (его убеждение) заключается в том, что это тарабарщина, и не требуется доказательств того , что это тарабарщина, чтобы быть разумным. Это просто требует веры в то, что это более правдоподобно, чем язык, которого никто никогда не видел и не может перевести, или анонимный автор, опередивший свое время в криптоисследованиях на столетия вперед. Вывод Шиннера основан на еще большем анализе, поэтому он делает более объективное заявление.
@ Джо, согласен. Нет противоречия. Но я подозреваю, что люди читают это как ваше убеждение, заставляя вас повторять, что ваше утверждение слабее — просто эта чушь не была опровергнута.

Возможно , но сильно склоняюсь к да, недавно опубликованной статье (по состоянию на 21 июня 2013 г.) в рецензируемом журнале PLOS ONE с открытым доступом . Сама статья на самом деле довольно глубокая и включает в себя математику, связанную с анализом, но следующий раздел обсуждения является сутью их аргументов,

Один из самых важных ключей к разгадке этой загадки — тот факт, что частота слов в тексте Войнича подчиняется закону Ципфа. Несмотря на то, что было показано, что длинные случайные тексты демонстрируют приблизительную форму этого закона, профиль частотно-рангового распределения в человеческих языках значительно отличается от профиля случайных символьных последовательностей. Точные черты закона Ципфа в языках не проявляются в простых случайных последовательностях и обычно требуют взаимодействия между мультипликативными и аддитивными процессами. Более того, закон Ципфа был открыт спустя столетия после принятой даты создания текста Войнича. Таким образом, предлагаемые решения, такие как использование методов шифрования шестнадцатого века, хотя и не являются невозможными, вряд ли могут объяснить присутствие закона Ципфа в тексте Войнича.

Поскольку закон Ципфа играет важную роль в их аргументах, стоит отметить, что, согласно краткому определению NIST , закон Ципфа таков:

Вероятность появления слов или других элементов вначале высока, а затем снижается. Таким образом, некоторые из них встречаются очень часто, а многие другие встречаются редко.

Таким образом, значительная часть аргументов авторов о том, что в книге, вероятно, есть подлинное сообщение, связана с тем фактом, что «слова» ведут себя таким образом, который было бы трудно реализовать с помощью стохастического процесса, если вы уже не знали об этом. закона Ципфа. Кроме того, авторы также отмечают в других частях статьи, что:

  • Распределение слов в рукописи соответствует информационным символам.
  • Плотность информации (в битах на слово) постоянна для других человеческих языков.
  • Существует сходство между словами в рукописи и разделом, в котором они появляются.

Что также влияет на их вывод о том, что есть «поддержка наличия подлинного сообщения внутри книги». Таким образом, похоже, что рукопись Войнича нуждается в дополнительных исследованиях, поскольку нет окончательных доказательств того, что это зашифрованный документ, и что есть математические доказательства того, что это не розыгрыш.

Утверждение автора о Войничезе основано на их утверждении, что случайные тексты не следуют закону Ципфа (/Ципфа-Мандельброта) , это утверждение я нахожу очень удивительным и (как говорится в их статье) противоречит большинству других исследований в этой области. У меня еще не было времени изучить их математику, чтобы увидеть, что они делают по-другому.
Чтобы быть ясным, я не думаю, что ведутся споры о том, следует ли Войничезе закону Ципфа, но дискуссия заключается в том, означает ли это на самом деле что-нибудь о Войничезе, или же закон Ципфа применим к простому случайному тексту (как я впервые прочитал в Li, 1992 и до сих пор ). см. заявленное как общеизвестное в недавней работе).
Я думаю, мне также следует уточнить, где бы я ни говорил «(не) следовать закону Ципфа», я имею в виду «(не) следовать закону Ципфа», потому что, ну, статистика.

Есть это? Ну да и нет , как объяснено в ответе rjzii. Что касается последней строки вопроса, хотя:

Какой анализ был проведен, чтобы «доказать», что рукопись является законным шифровальным письмом, и как такой анализ может отличить настоящий шифр от тщательно созданной «тарабарщины»?

были проведены и другие, менее известные, статистические тесты мисс Войнич, кроме соответствия закону Ципфа; о которых Рене Зандберген дает довольно полный отчет на своем сайте .

Из списка Рене позвольте мне лишь упомянуть тест последовательной корреляции букв (LSC), который был применен к госпоже Войнич Марком Перахом еще до того, как доктор Рагг опубликовал свою собственную статью. Тест окончательно различает вид псевдо-Войничеса, который мог произвести метод Ругга, и реальную вещь (точнее, транскрипцию в машиночитаемую форму, сохраненную д'Империо).

Я считаю, что LSC заслуживает особого упоминания, потому что, если я правильно его понимаю, некоторые виды тарабарщины попадут в ту же корзину, что и осмысленный текст: например, текст, в котором накапливались ошибки переписчика из последовательных копий.

Итак, вернемся к исходному вопросу: математический анализ не может сказать, имеет ли данная строка текста значение на каком-то естественном языке; однако он может опровергнуть тот факт, что данная строка была выведена одним из автоматических генераторов тарабарщины, доступных в докомпьютерную эпоху. По крайней мере, допросветительские: неясно, могла ли одна математика отличить настоящую литературу от той, что создавалась под покровительством XVIII в . летающие тарелки .