Я преобразовал некоторые PDF-документы, содержащие JPEG, в текст ASCII.
К сожалению, в середине предложений есть много разрывов
строк , в результате чего в некоторых строках остается всего несколько слов, а текст в целом трудно читать.
Есть ли какой-нибудь
инструмент, который переформатирует
текст с учетом предложений и
абзацев
, которые могут быть разбиты таким образом
. Он должен
распознавать структуру английских предложений - они обычно
заканчиваются
точкой,
знаком вопроса
и т. д.
Вы можете сделать это в большинстве программ для редактирования (текстовые процессоры/текстовые редакторы), которые позволяют вам искать/заменять знаки абзаца или разрывы строк. Вот пример стратегии, описанной в синтаксисе Word, где ^p
есть разрыв абзаца, при условии отсутствия различий между символами новой строки и разрывами страниц (как в случае с текстовыми файлами), и в которой я буду использовать _ для символов пробела.
Сначала вставьте лишние знаки абзаца после знаков препинания в предложениях:
.
на.^p
?
на?^p
!
на!^p
Удалите начальные и конечные пробелы, продолжайте повторять, пока больше не будет найдено:
_^p
на^p
^p_
на^p
Сократите количество последовательных разрывов абзаца максимум до двух. Продолжайте повторять, пока больше не будет найдено:
^p^p^p
на^p^p
Дополнительные шаги, если вы хотите объединить предложения в один абзац:
^p^p
на $$##$$
(или любую строку, которой нет в вашем документе)^p
на_
$$##$$
на^p
Дополнительные замечания:
Том
Мог говорит восстановить Монику