Я проясню контекст этого вопроса, чтобы потенциальные ответы могли быть эффективно направлены на то, что я ищу.
Информация (по крайней мере, в несемантическом, каноническом смысле слова) может быть определена с использованием либо статистического подхода Шеннона, либо вычислительного подхода Колмогорова. Первый устанавливает его как понятие средней длины кодового слова, выраженное в некотором произвольном алфавите — который намеренно выбран в качестве двоичного алфавита в любом учебнике, который я могу процитировать, — необходимом для установления биективного отображения на результаты случайного источника; Теорема исходного кодированиядоказывает, что это определение равно энтропии источника в статистическом пределе бесконечного числа исходов. Второй подход использует универсальные компьютеры в некоторой произвольной модели (почти всегда выбранной в качестве UTM), а затем определяет информацию, содержащуюся в источнике, как длину минимальной программы с саморазграничением на языке компьютера, который выводит результат. результаты источника; поскольку выбор эталонного UTM может только сделать длину минимальной программы постоянным членом, отличным от любого другого выбора , определение достаточно надежное.
Действительно, подход Колмогорова включает в себя определение Шеннона , потому что априорные значения распределения вероятностей, необходимые для кодирования источника и декодирования сообщений, эквивалентны машине Тьюринга, которая вычисляет схему энтропийного кодирования (например, кодирование Хаффмана или арифметическое кодирование).
Итак, по существу, современное определение «информации», в свою очередь, основано на чрезвычайно гибком и уникальном (т. е. абсолютном) определении вычисления, появившемся в результате универсальности результатов первой половины двадцатого века .
Тем не менее, я нахожу эту историю несколько неудовлетворительной. Использование вычислений в качестве основы для информации кажется переворачиванием мира с ног на голову, по крайней мере, при интуитивном понимании того, что обозначает этот термин, и вопреки каноническим определениям Шеннона и Колмогорова. Компьютеры — это процедуры (или объекты, следующие за процедурами, бессмысленное различие в свете универсальности Тьюринга и взаимного моделирования машин), и поэтому они представляют собой особый вид отношения — рекурсию — между входом и выходом . Несмотря на то, что этот вид отношения уникален и абсолютен, мне кажется, что он необходимо постфактум к понятию ввода и вывода; а эти двое и есть "вещи"что интуитивно соответствует термину «информация». Вы можете сказать, что вычисление существует, показав историю шагов (сложенный список входов-выходов), точно так же, как вы можете явно показать логический вывод в последовательной записи. Тогда тезис Черча-Тьюринга будет просто утверждать, что класс стеков входов и выходов, которые могут быть эффективно получены любыми средствами, исчерпывается машиной Тьюринга или любой другой эквивалентной моделью вычислений.
С другой стороны, «материал», из которого состоят входы и выходы (интуитивная информация), в принципе не обязательно нуждается во вспомогательной ссылке на вычисление, чтобы говорить о его существовании. Строка символов не обязательно должна быть связана с какой-либо другой; она может существовать изолированно, так что не требуется обязательной ссылки на процедуру (опять же, я оставляю формализацию этой интуиции в качестве упражнения читателю; я просто ожидаю, что говорю достаточно осмысленно, чтобы меня поняли).
Чтобы закончить этот раздел, я оставляю это резюме:
Предполагая, что информация является фундаментальным материалом, необходимым для того, чтобы концепция вычислений имела смысл, можно задаться вопросом, каков минимальный алфавит (то есть минимальное количество различных символов ), который необходим для выражения любой формы информации в том смысле, который я объяснил выше. Очевидным ответом может быть то, что ответом на этот вопрос является двоичный алфавит — в конце концов, бит используется как универсальная мера пропускной способности канала. Но оказывается, я не нашел ни в одном прочитанном учебнике раздела, посвященного тому, чтобы констатировать и формально доказать это, не говоря уже о том, чтобы сделать это изящно и лаконично! Опять же, это может показаться очевидным, но если основой науки являются информация и вычисления (тенденция, которая продолжается уже почти столетие), я серьезно думаю, чтоследует установить, что двоичная цифра является «наиболее простой и фундаментальной возможной единицей (обобщенной) материи» .
Теперь я правильно сформулирую свой вопрос:
И я оставляю этот мета-вопрос, исходя из слишком длинного вступления к основному вопросу:
И, наконец, конечно:
Информация различает несколько положений дел ; что указывает, по крайней мере, на предвзятость в отношении вероятности того, что реализуется некоторое положение дел, а в идеале указывает на то, что реализуется какое-то единственное положение дел, в то время как ряд альтернатив не реализовался.
Чтобы иметь единицу информации, вы должны иметь по крайней мере два возможных состояния дел. Условно мы могли бы описать это положение дел как истинностное значение логического предложения: у нас либо есть А , либо нет-А . Такое бинарное различение — самый грубый и самый элементарный способ различения положений дел в классической (и родственных формах булевой логики). Любая теория информации, вытекающая из такой логики, неизбежно будет склоняться к указанию бивалентного выбора — т . е . бита — в качестве единицы информации.
Мы можем рассмотреть проблемы с получением чего-то более минимального, в частности, унарного подхода, который включает однобуквенный алфавит (но где у нас есть слова различной длины), серьезно обдумав, какой комбинаторный механизм требуется, чтобы получить более одной возможности из унарный каркас. В комментариях вы предлагаете настройку, в которой есть сообщения, состоящие из одной буквы, возможно, дополненной одноразовым символом «конец файла». Позвольте мне обозначить эти две буквы как «1» и «Е».
В многобуквенной настройке мы по-прежнему хотим выразить больше, чем конечное число сигналов, несмотря на наличие алфавита конечного размера. (Попытки использовать бесконечные алфавиты приведут к проблемам с точностью, когда мы должны каким-то образом удостоверить различимость двух «букв». Это проблема начальной загрузки без очевидного решения. Поэтому мы ограничиваемся конечными алфавитами.) То, как мы справиться с этим состоит в том, чтобы связать различные положения дел с последовательностями символов с различными положениями дел. Игра «Двадцать вопросов» является хорошим примером этого (хотя и в интерактивной обстановке), где кто-то пытается сделать вывод об идентичности объекта с помощью последовательности вопросов «да/нет» фиксированной длины.
Таким образом, мы можем смоделировать алфавит T произвольного размера, просто используя достаточно большое количество символов из меньшего алфавита Σ . Но если вы не используете фиксированный код, в котором по первым n символам вы можете быть уверены, ожидаете ли вы n +1 st символ для завершения сообщения, вы должны использовать строки фиксированной длины.
Мы можем моделировать строки фиксированной длины n - кратным (декартовым) произведением алфавита на себя, Σ n . Проблема с унарным алфавитом Σ = {1} заключается в том, что Σ n имеет тот же размер, что и сам Σ , что противоречит цели.
Что мешает нам рассмотреть строки переменной длины? Если у нас есть многобуквенные алфавиты, то вообще ничего; но мы должны четко понимать, как мы описываем длину строки — которая, метаданные или нет, по-прежнему является информацией; он определяет, как мы должны интерпретировать сигнал. Например, на жестком диске символ конца файла E на самом деле не означает, что после диска нет никакой информации; только то, что любые данные, которые следуют, не имеют отношения к передаваемой информации (например, к конкретному файлу, на который делается ссылка).
Математически мы можем описать файлы длиной от 0 до n , используя один из символов E для обозначения «конца сообщения», что означает, что две строки, которые совпадают до этого символа, должны рассматриваться как эквивалентные. Например, используя алфавит Σ = {1,E}, мы бы сказали, что две строки
111E1111 и 111E1EE1
как эквивалентные, поскольку они согласуются до самого левого символа E. Мы бы сократили класс эквивалентности, к которому принадлежат обе эти строки, как 111. Однако нам нужен второй символ, чтобы определить, где заканчивается «информационное содержание» строки, и тем самым указать, какой класс эквивалентности строк мы подразумеваем сообщением. . Это также было бы верно в практическом контексте связи, где протоколы настроены для указания различным устройствам, когда они фактически больше не взаимодействуют с удаленным устройством (вместо того, чтобы интерпретировать случайный шум как данные).
Конечно, мы обычно не описываем строки различной длины в терминах классов эквивалентности строк любой конечной или бесконечной длины. Это, однако, удобство; в повседневной практике, в математике, как и в обычной прозе, у нас есть маркеры конца последовательности, хотя бы в виде пробелов и знаков препинания, которые сами по себе являются отличным сигналом от любой маркировки, такой как 0 или 1; когда я пишу 11 и 101, вы знаете, что это строки длины 2 и 3 соответственно, потому что одна заканчивается пробелом, а другая запятой. Вы не перепутаете их со строками « 11 и... » или « 101, вы знаете...", потому что соглашения нашего письменного языка устанавливают их как потенциальные маркеры конца последовательности для слов или строк символов в целом. То есть они передают эту информацию. Не интерпретируя их таким образом, вы бы не поняли, когда слово или предложение закончилось, и, таким образом, нет места, чтобы ограничить сложность сообщения, которое я посылаю вам.
Тот, кто настаивает (я бы сказал наивно), что может «интуитивно» различать унарные последовательности произвольной длины и, таким образом, передавать разные сообщения со строками 1, 11, 111, 1111, 11111 и т. д., я бы сказал, что это снова падает к той же проблеме, что и алфавит бесконечной длины; метаданные становятся критически важными для решения проблемы различения возможных сигналов, и поэтому, в конце концов, метаданные кодируют сообщение, т.е. метаданные — это сами данные. Я не думаю, что можно сразу уловить разницу между двумя сообщениями 111...1, которые продолжаются на 1000 символов, от одного из 1001 символов; само представление должно содержать подсказки о том, где сообщение начинается и заканчивается, хотя бы в виде пробела в виде покоящегося базового сигнала вместо явного сигнала. Различение того, закончилось сообщение или нет, становится решающим для определения того, где закончилось сообщение.
Разделение символов на «данные» и «метаданные» — это деление, которое мы делаем сами практически в отношении сообщений. Однако метаданные по-прежнему сообщают о состоянии дел, которое может оказаться важным для правильной интерпретации отправленного сообщения. Например, и символ конца файла указывает на состояние дел « больше нет символов, играющих роль в сообщении », в то время как каждый символ, который (в контексте или вне контекста) не указывает на конец файла для сообщений неопределенной длины указывает, что « для устранения неоднозначности необходимо больше символов »". Если роль информации в основном заключается в устранении неоднозначности положений дел, то наше собственное деление положений дел на "те, которые касаются самого сообщения" и "те, которые не касаются самого сообщения" является случайным, каким бы полезным оно ни было. Если сообщение имеет неопределенную длину, необходимо иметь средства для сообщения фактической длины сообщения, а это невозможно сделать с помощью однобуквенного алфавита, который — потому что передавать одно сообщение любой фиксированной длины — не может ни в каком количестве символов различить два состояния дел.
[Отредактировано для добавления замечаний по комбинаторике, унарным схемам]
Я думаю, вы правы в том, что вычисления не являются фундаментальными, но для меня смысл использования вычислений заключается в том, что универсальные вычисления позволяют вам вычислять что угодно, включая любую метрику информации, которая вам может понадобиться. Следовательно, измерение информации с точки зрения вычислений — это просто использование бесконечных выразительных возможностей. Это не утверждение, что вычисление является ключевым моментом здесь, просто вы можете делать с ним все, что хотите.
Кроме того, большое значение имеют постоянные факторы. Если я изобрету язык программирования, который содержит предыдущий абзац в виде символа ☆, тогда будет просто постоянная разница в длине программы для выражения вышеуказанного абзаца (примерно в 440 раз), и все же я совершенно не уловил интуитивную информацию об информации, которую Колмогоров предположительно стремился. Если вы не накладываете на себя ограничение на использование компактных вычислительных устройств общего назначения, информационные измерения Колмогорова возвращают бессмысленные результаты. Это также показывает, что вычисление не является фундаментальным для информации. Скорее, это инструмент (который нужно правильно использовать) для анализа.
Тем не менее, я не верю, что вы можете «доказать», что бит является основной единицей информации. Вы, безусловно, можете принять набор аксиом, который включает в себя что-то, что логически эквивалентно тому, что «бит является фундаментальной единицей информации». Большинство текстов по информации Шеннона делают именно это (поскольку они доказывают, что информация Шеннона -p log p
является правильной † , а наиболее тривиальное с точки зрения вычислений представление * имеет log
= log2
). Но если вы спросите на более глубоком уровне, я не думаю, что вы сможете показать, что бит имеет фундаментальное значение, а не потенциал действия (или синаптическое высвобождение) с биологической точки зрения; или чем стандартное отклонение(или доверительный интервал) с точки зрения аналоговой статистики. На каком-то уровне они все эквивалентны (но вам нужно довольно много копать, чтобы перейти от одного к другому), и то, что вы предпочитаете, будет зависеть от вашей точки зрения.
† По очень веской причине, как вам подтвердит любой вводный учебник.
* Не по какой-либо действительно веской причине, за исключением того, что два состояния — это минимально возможное число, и так уж получилось, что физика сговорилась сделать устройство с двумя состояниями проще, чем другие, и поэтому наши компьютеры бинарны.
H = -C * sum_i(- p_i log p_i)
изменение базы log
просто изменяет константу. Это «самый простой» в том смысле, что пространство состояний из двух является самым простым из возможных, и вы можете выбрать построение из него.{0}
. Ну, это скучно, не так ли? Попробуем еще раз: {0, 1}
. Эй, теперь у нас есть информация - какая из двух возможностей это? Это все, что я пытаюсь сказать. Это не очень глубоко, поэтому я не думаю, что есть сильный аргумент в пользу двоичного кода. Если бы тристабильность была действительно распространена, а бистабильность — нет, то мы бы использовали основание 3, а бистабильность была бы вырожденным случаем тристабильности.Я не думаю, что бит является основной единицей информации. Это с определенной точки зрения, но можно выбрать и другие.
Вкратце обоснование выглядит так:
а. Какие знания у нас есть, можно систематизировать математически
б. математику всегда можно закодировать числами
в. самое простое представление в системе счисления по основанию 2
шаг а) - это когда знание, в отличие от информации, обычно падает, на что вы указываете, признавая разницу между информацией и «семантикой». Долото — это просто хороший инженерный выбор — это не умаляет его важности. Когда говорят, что бит является фундаментальным , контекст должен быть сохранен, а это вычислительный и инженерный контекст.
Письмо — это форма информации, и если бы не было реального человека , который бы его понимал , это была бы просто последовательность геометрических форм, разделенных пробелами.
Вы правы, ошибочно принимая информацию (как в битах), которая в) за знание а) переворачивает мир с ног на голову. Но, конечно, биты сами по себе могут стать новым источником знаний. Так что ситуация более тонкая, чем я описал.
Ниэль де Бодрап
Мононуклеоз
Ниэль де Бодрап
Мононуклеоз