Должны ли слова быть представлены только конечными и линейно структурированными графемами?

Зная, что слова в письменном языке могут быть представлены комбинациями символов (например, букв алфавита), мне было бы интересно узнать, какие виды структурных ограничений существуют для отдельных слов. Конкретно у меня два вопроса:

1) В принципе может ли письменный язык содержать бесконечное количество слов?

2) В принципе, может ли язык содержать некоторые слова, которые представлены только нелинейной структурой букв? Например, можно ли считать «словом» следующий набор символов, если предположить, что математика — это язык?

\int_{a}^{b}{e^{x}}dx

Это выглядит интересно. amazon.com/…
Подробнее об этой книге. agnesscott.edu/lriddle/women/abstracts/karp_abstract.htm
См. китайский и иероглиф : не во всех языках используются буквы алфавита.
Об использовании бесконечной последовательности символов для представления слова в языке: как написать/произнести фразу, если первое слово никогда не закончится?
Ваш интеграл можно записать в разметке LaTeX как типичную последовательность символов (педантичное примечание: отредактируйте, чтобы удалить «линейные комбинации». Слова — это конечные последовательности символов из конечного алфавита, а не линейные комбинации, что совсем другое дело. Алфавит обычно называется \Sigma, а свободный моноид последовательностей пишется как \Sigma^*. Тогда язык L является подмножеством \Sigma^*, состоящим из wff's языка L.)
Я бы предположил, что вокальная интонация является частью любого языка. Если бы вы хотели действительно точно изобразить невнятное нытье во всех деталях, это могло бы потребовать бесконечно много украшений, и многие из них были бы диакритическими или графическими разработками и, следовательно, не были бы расположены линейно. Язык не пишется естественным образом , поэтому вопрос возникает из странного места. Конечно, при записи выражения в какой-то момент мы «округляем» реальные звуки до доступного расположения символов, но характер приближения не фиксирован.
Это во многом зависит от того, что вы называете языком. Возможно , Linguistics — лучший сайт для этого. Кстати, озвученный иврит нелинейный.
@Mauro ALLEGRRANZA, Периодические числа, такие как 89.898989(89), могут быть одним из примеров того, как писать/произносить слова с бесконечными последовательностями символов.
@Джон Форкош. Согласитесь, этот интеграл может быть преобразован в линейную структуру символов LaTeX с некоторыми дополнительными правилами о том, как он должен быть преобразован. И этот интеграл в формате LaTeX должен выглядеть так: \int_{a}^{b}e^{x}dx Однако мне кажется, что это произвольное решение, что символ 'a' в этом преобразовании должен предшествовать символ «б», а не наоборот.
В чем проблема "произвольного решения"? И вообще, вы не правы :) -- \int^b_a работает одинаково хорошо. И даже в более общем смысле, чем разметка LaTeX, вы можете использовать, например, «разметку» netPBM en.wikipedia.org/wiki/Netpbm_format#PBM_example для синтаксического представления любого изображения . Это может быть изображение, представляющее отсканированный текст, то есть слова. Или это может быть Мона Лиза или любое другое изображение. Таким образом, последовательности символов могут представлять практически все.
@John Forkosh Я хочу сказать, что любые два элемента в линейной структуре должны иметь отношение предшествующий/следующий. Например, в \int^b_a 'b' предшествует 'a', а в \int_a^b 'a' предшествует 'b'. Однако в интегральной формуле этой связи между «а» и «b» просто не существует.
Ну да, синтаксически один символ должен предшествовать или следовать за другим в последовательности. Но семантически обе вариации могут означать одно и то же, например, 2+3=3+2, а также \int_a^b=\int^b_a и т. д. и т. д. В денотативной семантике есть то, что называется «семантической функция", которая отображает синтаксис -> семантику. И именно свойства этого отображения вы хотите изучить.
Да, интегральная формула может быть не лучшим выбором для иллюстрации небережливой структуры. Наверное, для этой цели больше подойдет музыкальный аккорд.
Да, нотная запись кажется лучшим примером. Но пока мы говорим о LaTeX, напомню, что для этого есть даже разметка LaTeX, например, stackoverflow.com/questions/648429/typesetting-music-in-latex . в любом случае не бывает.
89,898989(89) не является бесконечной последовательностью символов: она явно конечна . А насчёт того, что "константа e на самом деле представлена ​​бесконечной последовательностью цифр: 2,71828 ....", то всё наоборот: число e (его имя явно представляет собой конечный набор символов) можно вычислить с помощью последовательности цифр, которые начинаются с 2,71828.
этот вопрос не требует никаких исследований и интересен только в том случае, если мы догадываемся о какой-то глубокой мотивации его постановки.
@MATHMETICIAN Пожалуйста, предложите мне любую литературу или ссылки, связанные с моим вопросом.

Ответы (6)

Недавно я наткнулся на термин Морфема

В лингвистике морфема — это наименьшая грамматическая единица языка. Другими словами, это наименьшая значимая единица языка. Область исследования, посвященная морфемам, называется морфологией. Морфема не идентична слову, и принципиальное различие между ними состоит в том, что морфема может стоять отдельно, а может и не стоять отдельно, тогда как слово по определению является самостоятельным. Когда он стоит сам по себе, он считается корнем, поскольку имеет собственное значение (например, морфема кошка), а когда он зависит от другой морфемы для выражения идеи, он является аффиксом, поскольку выполняет грамматическую функцию (например, -s в словах кошек, чтобы указать, что это множественное число).[1] Каждое слово состоит из одной или нескольких морфем.

Кроме того, что касается понятия слова, интересно отметить этот термин в контексте информатики , где учитывается размер слова.

В вычислительной технике слово является естественной единицей данных, используемой конкретной конструкцией процессора. Слово — это фрагмент данных фиксированного размера, обрабатываемый как единое целое набором инструкций или оборудованием процессора. Количество битов в слове (размер слова, ширина слова или длина слова) является важной характеристикой любой конкретной конструкции процессора или компьютерной архитектуры.

Спасибо, Рон. Думаю, это хорошее дополнение к этой теме.

В ответ на (2),

«Определенный интеграл от x = a до x = b числа Эйлера, умноженного на себя x — число раз» — это не предложение, а скорее предикат в сочетании со связкой. Здесь это может быть слово как пропозициональный термин, который является референтом вышеупомянутого предикатного термина.

Это слово в той мере, в какой сказуемое без связки может быть словом. Это предикат, потому что он относится к свойствам, которые находятся в расширении этой математической функции. Приравнять функцию к чему-либо — значит создать предложение, в котором «равно» является связкой сказуемого. Например, «Определенный интеграл от x=a до x=b числа Эйлера, умноженного на самого себя x-количество раз, равен числу Z» в логике первого порядка имеет следующую форму (где P — предикат термин «равно числу Z» и где Q является предикатным термином «равен определенному интегралу от x=a до x=b числа Эйлера, умноженному на себя x-количество раз»:

∃y:Py∧Qy.

Совершенно другой вопрос, истинно ли категорическое суждение. Возможно, что ∃y:Py∧Qy ложно, так что ∄y:Py∧Qy возможно истинно.

Я согласен, что этот интеграл не является предложением. Мой вопрос: «Можем ли мы рассматривать этот интеграл как слово на математическом языке?» И из вашего ответа я делаю вывод, что "это может быть слово как пропозициональный термин..."
Я сделал правку. Пожалуйста, дайте мне знать, если я могу быть более ясным.
(+1) Спасибо за разъяснение.

1) В принципе может ли письменный язык содержать бесконечное количество слов?

Большинство языков могут генерировать выражения, содержащие бесконечное количество слов. Решающим аргументом в пользу этого для меня стал пост Аллана С. Векслера .

(2) if and only if there exist utterances of infinite length.
This inference is false. A simple counterexample: Although there are
only a finite number of digits (= language elements) and although no
decimal numeral (= utterance) is of infinite length, there are
undoutedly an infinite number of decimal numerals.

Наши врожденные грамматики допускают существование таких фраз. Также рассмотрите этот список самых длинных слов в разных языках , где многие языки допускают произвольное составление слов. Самый длинный пример — слово из 431 буквы на санскрите, написанное где-то в Средние века. Или рассмотрим английский пример научного имени Титин, состоящего из 189 819 букв. Правила физики и химии могут помешать нам создавать бесконечно большие молекулы, но правила номенклатуры ИЮПАК не мешают нам создавать имена для бесконечно длинных молекул. Используем ли мы санскритские правила сандхи или номенклатуру ИЮПАК, грамматика не мешает нам образовывать бесконечно длинные слова.

В принципе, может ли язык содержать некоторые слова, представленные только нелинейной структурой букв?

Большинство индийских шрифтов не такие линейные, как латинские. В деванагари есть составные и конъюнкты , в которых одни буквы изменяют другие буквы слева, справа, сверху, снизу или внутри. Но почему это актуально? Индийские языки также могут быть записаны в линейной форме, обычно с помощью IAST или ITRANS . То же самое касается математических выражений. Ваш двумерный пример часто написан линейным способом в LaTeX или Mathematica.

Если вы действительно не любите кандзи и вообще логорамы, иероглифы и идеограммы , я понятия не имею, почему.

Я полагаю, вы могли бы возразить, что идеогармы — это буквы, но я почти уверен, что эти символы — не алфавит .

Письменные знаки в других системах письма лучше всего называть силлабограммами (обозначающими слог) или логограммами (обозначающими слово или фразу).


Произносимые слова состоят из звуковых единиц, называемых фонемами, а письменные слова — из символов, называемых графемами, таких как буквы английского алфавита.

Ясно, что символы являются графемами:

В письме используются дополнительные графические компоненты, такие как знаки препинания, математические символы, разделители слов, такие как пробел, и другие типографские символы.


Что касается ваших вопросов:

  1. Все языки суть конструкции, и любое бесконечно длинное слово было бы невозможно написать, и этот язык не мог бы быть написан. Если только вы не допустите графему, которая говорит, например, что предшествующие буквы должны были быть произнесены бесконечное число раз. Это был бы запланированный язык

  2. Я могу только догадываться, что вы подразумеваете под «нелинейной структурой букв», но, например, в китайском языке есть 214 радикалов в словаре Канси, и

Радикалы могут появляться в любом месте персонажа. Например, радикал 女 появляется слева в символах 姐, 媽, 她, 好 и 姓, но появляется внизу в 妾.

Мне было бы интересно увидеть язык, помимо математики, в котором аналогичным образом используется алфавит.

Это кажется очень странным вопросом с точки зрения языков, как они есть на самом деле .

В принципе, может ли язык содержать некоторые слова, которые могут быть представлены только бесконечными последовательностями букв

Нет. В конце концов, наука смотрит на доказательства; и уместным доказательством здесь являются естественные языки; нет языков с «бесконечными последовательностями букв»; и это легко вывести из принципа - у кого будет время выписывать такую ​​последовательность?

Грамматики представлены автоматами с конечным числом состояний; существует Хомская иерархия формальных грамматик типов 0-3.

Тип грамматики, который подходит для такого языка, как вы предлагаете, - это тип 0; но это потому, что он позволяет все, они эквивалентны машине Тьюринга, так что больше похожи на компьютер, чем на настоящую живую грамматику; хотя я не должен, что даже настоящие компьютеры имеют конечные ресурсы, поэтому не существует такой вещи, как настоящая машина Тьюринга с бесконечной лентой.

Спасибо за ваш ответ. В своем ответе вы заявили, что «нет языков с «бесконечными последовательностями букв»» . Как насчет языка математики? В этом языке математическая константа e на самом деле представлена ​​бесконечной последовательностью цифр: 2,71828 ...., и каждая цифра — не что иное, как буква в числовом алфавите. Я согласен с вами, что язык математики не является формальным языком в иерархии Хомского, и его утверждения не могут быть обработаны машиной Тьюринга; но, это кажется допустимым языком для меня.
@Noviff: ты понял это наоборот. бесконечная последовательность 2,71828... представлена ​​символом e, а не наоборот. множество слов естественного языка «представляют» бесконечности, но сами по себе не являются бесконечными. например, "Бог", "любовь", "бесконечность".
@mobileink, хорошая мысль. Однако я думаю, что символы и буквы — это разные вещи. Назначение числового алфавита состоит в том, чтобы представлять любые числа (в том числе трансцендентные) цифрами, и этот алфавит не содержит цифры e . По этой причине символ e не имеет смысла, если он не имеет цифровой интерпретации.
Re e , pi и т. д. — это вычислимые действительные числа , поэтому существуют относительно короткие компьютерные программы, которые выводят их цифра за цифрой (конечно, их выполнение занимает много времени:). Таким образом , e может быть представлено последовательностью символов, содержащей любую такую ​​соответствующую программу. Однако также существуют невычислимые действительные числа , которые составляют подавляющее большинство действительных чисел (действительно, вычислимые действительные числа имеют нулевую меру). И для полного представления любого из них потребовалась бы «бесконечная последовательность символов». Но в смысле эпсилон-дельта конечная последовательность может обозначать их с любой точностью.
@noviff: как говорит мужчина, у тебя все наоборот; это буква е , которая представляет число. Численное представление, на которое вы ссылаетесь, всегда является приблизительным , поскольку вы никогда не сможете записать бесконечное расширение; тогда как буква e , которая его представляет, всегда точна.
Все грамматики в иерархии Хомского допускают потенциально бесконечные последовательности, на уровне 0 есть грамматика со словами: a, aa, aaa, aaaa, aaaaa,... и т. д.
@Мозибур Улла. Я понимаю вашу точку зрения и согласен с вами в том, что любые бесконечные последовательности должны быть представлены конечными комбинациями букв. Согласно вашему примечанию, я делаю исправление по пункту № 1 моего исходного вопроса.

Линейные структуры слов, предложений, абзацев и даже книг на естественных языках можно объяснить свойством человеческого мозга обрабатывать символы последовательно, по одному за раз. Интересно, но звуки и образы мы обрабатываем по-разному, и поэтому мы можем слышать сразу все музыкальные инструменты в оркестре и можем сразу видеть зрительные объекты. По этой причине музыкальные аккорды — это не просто последовательности нот, а изобразительные элементы на рисунках не располагаются линейно.

Другое дело — языки программирования. Используемые для взаимодействия человека с компьютером, эти языки предназначены для представления одной и той же информации в двух разных формах: в виде исходных кодов для людей и в виде машинных кодов для компьютеров. В то время как исходные коды представляют собой линейные структуры - они выглядят почти как тексты на естественных языках; машинные коды не являются линейными структурами — компьютеры не обрабатывают машинные коды последовательно, в заранее определенном порядке.

Кроме того, язык математики, вероятно, самый сложный случай. Например, несомненно, что математическая формула, представляющая закон всемирного тяготения, содержит некоторую информацию; однако я не уверен, кто/что является создателями и первичными потребителями этой информации: это сами физические объекты, гравитационное поле вокруг этих объектов, или это только мое воображение предлагает этот закон? Более того, даже неясно, сколько информации содержит эта формула: мало ли байтов данных, которых как раз достаточно для написания этой формулы, или бесконечное количество информации, определяющей все возможные гравитационные траектории в нашей Вселенной.