Физический текст в цифровой текст

Позвольте мне сначала добавить к этому вопросу префикс: я понятия не имею, какой сайт StackExchange будет наиболее подходящим для этого вопроса, но я подумал, что LifeHacks может сработать...

В 1998 году со стороны моей мамы было большое семейное воссоединение (у моей прабабушки было десять детей, так что это было действительно большое собрание). Один из моих дальних дядей написал что-то вроде книги по истории нашей семьи к этому воссоединению, и моя мама дала мне книгу прочитать. Я не мог поверить, насколько она велика и сколько исследований было вложено в книгу. Я хотел бы придумать способ разместить всю книгу на веб-сайте, который я собираюсь создать, где я смогу поделиться ею со всеми членами нашей семьи и, в конечном счете, сохранить историю дольше, чем это может сделать эта хлипкая книга.

В надежде, что мне не придется печатать слово в слово всю эту 300-страничную книгу, есть ли способ, с помощью которого я могу просто отсканировать страницы и получить их в цифровом виде? Очевидно, я мог бы просто сфотографировать и сделать веб-сайт, используя изображения, но я чувствую, что было бы более выгодно иметь его в виде фактического текста, потому что тогда он мог бы лучше отображаться в поиске Google, когда кто-то ищет имя члена семьи или что-то в этом роде. Кроме того, если кто-то из членов семьи когда-нибудь займется исследовательским проектом о нашей семье, он сможет скопировать часть текста и сделать на него ссылку.

Итак, кто-нибудь знает, как лучше всего преобразовать эту старую семейную книгу в цифровой текст?

Первая страница книги

Книга с указанием толщины

Ответы (5)

Используйте телефон Android и функцию Google Lens , недавно добавленную в приложение для фотографий, и scrwwn для просмотра фотографий с камеры.

OCR через Google Lens довольно удивительное и точное по сравнению с любым программным обеспечением OCR, которое я когда-либо использовал.

Ниже приведены несколько скриншотов, описывающих процедуру с использованием дешевого (100 долларов США) Nokia 3, лучшего телефона, которым я имел удовольствие пользоваться с тех пор, как мой любимый Nexus 4 испустил дух.

Я подробно опишу образец OCR-сканирования книги по греческим этимологиям, напечатанной в 1976 году, которую я не осмеливаюсь разорвать для сканирования, и которая, похоже, имеет аналогичную плотность символов и шрифт.

Я сделал этот исходный снимок в далеко не идеальных условиях освещения, используя все автоматические настройки на средненькой камере телефона, никаких специальных фототехник или приспособлений для улучшения результата не использовалось, можно сказать, что это просто любительская телефонная фотография страница книги . (Просто убедитесь, что текст сфокусирован, OCR не расшифрует размытый текст не в фокусе)

введите описание изображения здесь

Нажмите на значок объектива Google, доступный в предварительном просмотре после съемки или на самой фотографии с помощью приложения Google Photos.

введите описание изображения здесь

Вот -Skynet- ^M^M^M^M^M^MЯ имею в виду, что Google Lens выполняет свое волшебное сканирование (точки немного жуткие, но они должны были что-то сделать, чтобы вы знали, что ИИ Google делает свое дело, я думаю)

введите описание изображения здесь

После того, как изображение будет отсканировано, вы обнаружите, что текстовые области, которые Google Lens нашел на изображении, четко очерчены, а их текст уже извлечен в нижнюю половину экрана. если вам нужны только некоторые области, а не другие, просто коснитесь своего выбора, чтобы активировать/деактивировать их.

Если вы прикоснетесь к извлеченному тексту, он будет помещен в ваш буфер обмена для копирования/вставки в любом месте вашего телефона.

введите описание изображения здесь

После этого просто вставьте текст в документ Google docs . Там вы можете: - исправить любые ошибки прямо здесь или на своем ПК, - поделиться документом в свое удовольствие, - опубликовать его как веб-страницу с оперативным обновлением ваших правок, или - экспортировать в - обычный текст, - документ Word , - открытый офисный документ, - электронная книга epub , совместимая с Kindle, с переформатированным текстом, или - старый добрый PDF без DRMd

Можно возразить, что это, вероятно, кратчайший путь к публикации с максимально широким выбором выходных данных.

Вы можете сделать все это с одного устройства (телефон Android с установленными соответствующими приложениями) и сделать это в кратчайшие сроки с высокой точностью, в основном бесплатно.

Вот вставленный фрагмент документов Google
введите описание изображения здесь

Вот общий URL-адрес документов Google, не стесняйтесь комментировать. Вы также можете попросить кого-нибудь помочь вам редактировать документ удаленно и одновременно.

https://docs.google.com/document/d/1aizUDOHerSraU3fIw6lHLabmLSNsQ7PMXOl1IHHE0RU/edit?usp=drivesdk

Наконец, вот веб-сайт Google Sites, опубликованный с использованием вышеупомянутого документа в качестве связанного источника.

https://sites.google.com/h-lo.me/ocrsample

Это https, настольные и мобильные устройства, и в зависимости от вкуса, как правило, не раздражает глаза. Неплохо для 15 минут общей работы и никакого кодирования.


Осталось одно уточнение: создать правильные абзацы в документе Google, поскольку Google Lens вставляет жесткий возврат после каждой строки извлеченного текста, что делает каждую строку отдельным абзацем, и это станет проблемой, если вы захотите использовать Функции Google Docs, такие как оглавление , или когда вы экспортируете свой документ в электронную книгу, совместимую с Kindle (искажает перекомпоновку текста)

Вы можете просто присоединяться к каждой строке, где это необходимо, нажимая клавишу возврата в начале каждой строки, или это можно автоматизировать с помощью сценария.

Итак, я пишу надстройку для сценариев приложений, которую вскоре опубликую, чтобы автоматизировать этот процесс. Я дам вам знать здесь, когда это будет сделано.

Отличная детализация. Мне нравится это бесплатное решение. Спасибо!
Не за что! Возможно, у вас уже есть все, что вам нужно! :)
Для толстой книги это действительно трудозатратный подход: приходится вручную перелистывать каждую страницу, а потом фотографировать.

Вы можете сделать это поэтапно. Начните с размещения всего в сети в виде сканирования страниц и обновления по мере возможности. Пластиковое крепление гребня cerlox™ позволяет легко разобрать его и снова вставить в крепление.

Поскольку печать выглядит как обычный шрифт с засечками того же размера, отсканированные изображения можно оцифровать с помощью программного обеспечения для оптического распознавания символов. OCR может предоставить вам черновик текстового файла, который вы можете откорректировать и опубликовать на веб-сайте в окончательном виде.

В то же время вы можете привести в порядок фотографии и другой изобразительный материал.

Вы можете сделать это, когда у вас появится время/ресурсы для проекта.

Аналогично предыдущему ответу, но не так подробно.
@TrajanEspelien Какой предыдущий ответ? Проверьте отметку времени. Ответ был первым, за два дня до представления hiecuanda. :)
Да, но в нем не так много деталей, как в другом ответе, поэтому я принял другой ответ. Это не первый сервер ... это лучший ответ.
@KyleBridenstine Без шуток! Я тоже проголосовал за Иекуанду. Это был отличный ответ. Кстати, что, если у вас нет телефона Android или вы не можете получить доступ к Glass? Я дал общий ответ на вопрос. :)
Правда, если бы вы дали конкретную ссылку на бесплатное программное обеспечение для распознавания текста, это, вероятно, продало бы мне ваш ответ. Это серая зона. Я собирался принять ваш ответ, но хотел подождать, чтобы люди все еще были склонны публиковать свои решения. Но когда я увидел ответ hlecuanda, он был настолько подробным, что решил его принять. У вас все еще есть хороший ответ, и я определенно проголосовал за него сам.
@KyleBridenstine Спасибо за добрые слова. Мы согласны. Думаю, ты правильно сделал, что подождал. Первый ответ НЕ лучший (если только это не так по какой-то причине. В конце концов, есть крайние сроки.) Я отправил ссылку на ваш вопрос и отличный ответ Иекуанды коллеге, который должен сделать то же самое с огромной кучей школьных записей из Бразилия!
Основная причина не использовать более подробный ответ заключается в том, что он использует постраничный процесс OCR. После сканирования всех страниц вы можете выполнить пакетное распознавание всех страниц одновременно с помощью Tesseract (или чего-то, что использует механизм Tesseract) для автоматического создания полного PDF-файла.

Несколько хороших ответов здесь, чтобы подойти к этому самостоятельно.

Я хотел бы добавить свой опыт оплаты кого-то еще, чтобы сделать это для вас.

Я использовал Digitize My Books в Соединенном Королевстве (сам живу в Великобритании).

Я был очень доволен результатами: каждая книга возвращается в виде PDF-файла с доступным для поиска (и копируемым) текстом. Используется стандартный метод PDF, при котором исходное изображение для каждой страницы сохраняется, но с наложением текста, так что вы можете выделить исходный текст на странице. Очень хорошее соотношение цены и качества. Если вы находитесь за границей из Великобритании, вы все равно можете отправить им книги.

Они также предлагают вариант для книги в редактируемом формате документа Word за дополнительную, но очень разумную плату.

Если вы не требуете возврата оригинала, то самым дешевым вариантом будет выбрать деструктивное сканирование. Здесь страницы берутся из книги по отдельности и сканируются. По умолчанию оригинальная книга не возвращается, хотя я считаю, что вы можете запросить ее, возможно, за дополнительную плату (например, за почтовые расходы), но страницы будут удалены для сканирования по отдельности. Деструктивное сканирование — это вариант, который я выбрал для всех своих книг, и я не требовал возврата оригиналов.

Они также предлагают неразрушающее копирование, если вам нужен оригинал, но стоимость выше. Они также принимают ваши собственные цифровые сканы, если вы уже отсканировали книгу самостоятельно — они могут превратить это в доступный для поиска, копируемый документ PDF или Word.

Посмотрите вокруг их веб-сайт. Я действительно считаю, что это лучший вариант: тратить деньги, чтобы сэкономить время, а не тратить время, чтобы сэкономить деньги.

Я не работаю на Digitize My Books и не имею к ним никакого финансового интереса (акционера или иного лица).

Первоначально я начал «сканировать» книги сам, фотографируя с помощью цифровой зеркальной камеры (фотографирование быстрее, чем сканирование с планшета), при этом каждая страница удерживалась открытой с помощью зажима для буфера обмена и Blu-Tak. Но мне показалось, что это довольно трудоемко.

Если вы все еще заинтересованы в том, чтобы делать это самостоятельно, ScanTailor — это приложение Windows с открытым исходным кодом, которое будет форматировать, разделять двойные страницы/пары страниц после сканирования на отдельные страницы, выпрямлять и устранять их искажения. Таким образом, результирующие страницы выглядят плоскими и прямыми, как хотелось бы, однако это не делает OCR: результаты по-прежнему представляют собой растровые изображения. Но, по крайней мере, есть какой-то способ пакетной автоматизации исправления любых искажений страниц, особенно при неразрушающем копировании, когда трудно расположить страницы так, чтобы они были полностью плоскими для больших книг.

Обновлено

Добавлена ​​дополнительная информация о параметрах сканирования, предлагаемых службой. ScanTailor дополнительная информация. Грамматические исправления.

Самый быстрый способ сделать это — связаться с вашим родственником и узнать, сохранились ли у него исходные файлы, которые они использовали для создания этой книги. Судя по фотографии на первой полосе, я бы сказал, что она сделана на компьютере. Преобразуйте из {вставьте здесь действительно старый пакет текстового процессора} в текущий формат, и все готово.

Второй самый быстрый способ превратить стопку печатных материалов в цифровой документ:

  1. Снимите привязку.
  2. Отрежьте левый край страниц, чтобы избавиться от отверстий. Отверстия мешают податчику документов.
  3. Просмотрите книгу и разгладьте все складки и другие повреждения, которые мешают работе устройства подачи документов.
  4. Найдите любой достаточно современный дуплексный принтер с устройством подачи документов и функцией сканирования. Сканировать в PDF.

Затем используйте любой пакет OCR, чтобы превратить отсканированные страницы в файл Word. Для этой цели я использую функции OCR в полной версии Adobe Acrobat, но существует множество механизмов OCR.

Возможно, вы захотите попробовать очень недорогой сервис: save-your-memories.info. Когда я делаю это сам, я использую свой сканер для сканирования в OmniPage, программу OCR, а затем сохраняю в виде файла PDF, который полностью доступен для поиска. Поскольку ваша публикация имеет пластиковый переплет, ее легко разобрать, чтобы отсканировать отдельные страницы, а затем переплести. Съемка изображений, как указано в приведенных выше предложениях, также очень осуществима — хороший среди многих подходов.