Что удалить из общего чумаша, чтобы получить только буквы, как в свитке Торы?

Я пишу программу для выполнения различных вычислений с Торой. Для этого мне нужно удалить все знаки препинания, пробелы и другие обозначения.

Я удалил разрывы (פ) и все нееврейские буквы (включая никодот) из сефариа хумаш, используя регулярное выражение: "\\(.\\)|\\[.*?\\]|[^\u05D0-\u05EA]"(т. е. любая отдельная буква в скобках, любая нееврейская буква, любые еврейские буквы со знаками препинания или любой узор в скобках - на счет кириса) . Однако у меня, кажется, все еще есть 45 лишних букв.

См. http://www.filedropper.com/biblestats_2 для вывода программы. Каждая строка имеет версию текста до и после. В конце каждой книги я распечатываю статистику. В конце всего файла я печатаю статы всей Торы.

Я осознаю:

Total: Verses: 5846, Letters: 304850
Total Frequencies:
א: 27060
ב: 16345
ג: 2109
ד: 7032
ה: 28055
ו: 30533
ז: 2198
ח: 7189
ט: 1804
י: 31556
ך: 3358
כ: 8610
ל: 21570
ם: 10624
מ: 14466
ן: 4259
נ: 9867
ס: 1833
ע: 11250
ף: 830
פ: 3975
ץ: 1035
צ: 2927
ק: 4695
ר: 18125
ש: 15595
ת: 17950

Однако согласно http://www.aishdas.org/toratemet/en_pamphlet9.html и другим источникам должно быть всего 304 805 букв. Откуда берутся лишние 45 букв?

Вы случайно исключили буквы с точками (например, לנו ולבנינו)? Вы случайно не включили перевернутых монахинь?
Где находится этот стих? К счастью, перевернутая монахиня не входит в диапазон символов Юникода \u05D0-\u05EA.
Пунктирные буквы, например. Дев 29 28 и монахини в конце Бамидбара 10
Раньше: Второзаконие (29, 28): окно לַיהוָ֖ה אֱלֹהֵ֑ינוּ וְהַנִּגְלֹ֞ת לָ֤ׄנׄוּׄ וּׄלְׄבָׄנֵׄ֙יׄנׄוּׄ֙ עַד־עוֹלָ֔ם לַעֲשׂ֕וֹת אֶת־כָּל־דִּבְרֵ֖וְ לָ֤ׄנׄוּׄ וּׄלְׄבָׄנֵׄ֙יׄנׄוּׄ֙ עַד־עוֹלָ֔ם לַעֲשׂ֕וֹת אֶת־כָּל־דִּבְרֵ֖י ъем ַתּוּׄ וּׄלְׄבָׄנֵׄ֙יׄנׄוּׄ֙ עַד־עוֹלָ֔ם לַעֲשׂ֕וֹת אֶת־כָּל־דִּבְרֵ֖י ъем onַתּ Предедо.
Кри UKsivs тебя достанет.
В Девариме есть Кри Ухсив 28:30
@DoubleAA, Шалом: Приближение [.*?] соответствует всем кисивам в текстах сефарии.
У них есть символ, обозначающий разрывы паршат хашавуа? Или сефер ломается?
Не похоже: sefaria.org/… , sefaria.org/…
Вы сравнивали свои частоты букв с частотами в конкордансе?
@NBZ, в моей версии есть по несколько дополнительных.
Просто дикость, прошу не обижаться: Парши или сеферы есть?
@NBZ, ты не сказал ничего оскорбительного; DoubleAA уже упоминал об этом несколькими комментариями выше.
Нет, он упомянул специальные буквы, обозначающие разрывы, я имел в виду настоящие имена.
...похоже на различия между "полным" и "неправильным" написанием слов между редакциями Текста. Интересно, какое издание использовал Дроснин...

Ответы (1)

Я думаю, что в Сефер Торе 304 805 букв, но 304 850 или 304 848 букв в тексте, найденном в известной рукописи, «Ленинградском кодексе», который используют многие ученые. Сефария основана на ленинградском кодексе от tanach.us. Я не видел списка различий, но пример — האלילם/האלילים в Левите 19:4.

Это вполне правдоподобно (приведенный вами пример точен). Вы уверены, что сумма 304850?
Нет, я ни в чем не уверен. На нескольких веб-сайтах указано 304848, а на некоторых — 304850.
Я думаю, что я должен искать другие источники. Можете подсказать более точную?
Возможно, mechon-mamre.org?
@AniYodea Sefaria, вероятно, является очень точным представлением Ленинградского кодекса. Есть ли другой конкретный текст Торы, который вы ищете?
@doubleaa Я понял этот факт, прочитав его страницу в Википедии. Какой кодекс лучше всего подходит для библейских кодов и почему моя ссылка выше не использовала Ленинград для подсчета суммы?
@AniYodea «лучше всего подходит для библейских кодов» Зависит от того, что вы ищете :) В вашей ссылке, вероятно, использовался какой-то другой текст (вероятно, Минчат Шай), чтобы сделать его счет.
@JeremyR, можете ли вы предоставить свои источники? Не могу найти в гугле: google.com/…
@DoubleAA для вычисления и проверки известных кодов ELS.
@AniYodea Вы должны использовать любой текст, который был использован «первооткрывателем» этого «кода» ELS. Другие тексты не обязательно будут работать. Это основная причина, по которой коды ELS глупы. Если вы не делаете это как упражнение по программированию, я бы посоветовал вам найти что-нибудь полезное, чем можно занять свое время.
@DoubleAA, я хотел бы услышать больше ваших мыслей о кодах ELS. Почему ты думаешь, что это глупо. Разве некоторые мефаршимы не используют его с пропуском 7, например, в Шаббат кидуш, паршат берейшет и тому подобное?
@AniYodea Это глупо, потому что Талмуд уже говорит нам, что мы не знаем, сколько букв в Торе, потому что мы не знаем всех матрес лекций. (Даже одна лишняя буква может все испортить!) Если у вас есть Mesorah до этого времени о соответствующем коде ELS, прекрасно. В противном случае займитесь чем-нибудь продуктивным.
Не могли бы вы просто пропустить проблемные области или допустить небольшую погрешность? Не то чтобы в каждой главе были такие несоответствия...
@AniYodea Ты хоть представляешь, где они? Я не. Может быть, в каждой колонке есть один. Или два. Или три. Как вы допускаете небольшой запас или ошибку? Даже одна пропущенная буква портит всю ELS.
@DoubleAA, не могли бы вы использовать тот же аргумент против использования гематрии?
@DoubleAA, в каком месте Талмуда упоминается, что мы не знаем, сколько там букв?
@AniYodea Кидушин 30а.