Я пишу программу для выполнения различных вычислений с Торой. Для этого мне нужно удалить все знаки препинания, пробелы и другие обозначения.
Я удалил разрывы (פ) и все нееврейские буквы (включая никодот) из сефариа хумаш, используя регулярное выражение: "\\(.\\)|\\[.*?\\]|[^\u05D0-\u05EA]"
(т. е. любая отдельная буква в скобках, любая нееврейская буква, любые еврейские буквы со знаками препинания или любой узор в скобках - на счет кириса) . Однако у меня, кажется, все еще есть 45 лишних букв.
См. http://www.filedropper.com/biblestats_2 для вывода программы. Каждая строка имеет версию текста до и после. В конце каждой книги я распечатываю статистику. В конце всего файла я печатаю статы всей Торы.
Я осознаю:
Total: Verses: 5846, Letters: 304850
Total Frequencies:
א: 27060
ב: 16345
ג: 2109
ד: 7032
ה: 28055
ו: 30533
ז: 2198
ח: 7189
ט: 1804
י: 31556
ך: 3358
כ: 8610
ל: 21570
ם: 10624
מ: 14466
ן: 4259
נ: 9867
ס: 1833
ע: 11250
ף: 830
פ: 3975
ץ: 1035
צ: 2927
ק: 4695
ר: 18125
ש: 15595
ת: 17950
Однако согласно http://www.aishdas.org/toratemet/en_pamphlet9.html и другим источникам должно быть всего 304 805 букв. Откуда берутся лишние 45 букв?
Я думаю, что в Сефер Торе 304 805 букв, но 304 850 или 304 848 букв в тексте, найденном в известной рукописи, «Ленинградском кодексе», который используют многие ученые. Сефария основана на ленинградском кодексе от tanach.us. Я не видел списка различий, но пример — האלילם/האלילים в Левите 19:4.
Двойной АА
Ани Йодеа
Двойной АА
Ани Йодеа
Шалом
Двойной АА
Ани Йодеа
Двойной АА
Ани Йодеа
Адам
Ани Йодеа
Адам
Ани Йодеа
Адам
Гэри