Позвольте мне сначала добавить к этому вопросу префикс: я понятия не имею, какой сайт StackExchange будет наиболее подходящим для этого вопроса, но я подумал, что LifeHacks может сработать...
В 1998 году со стороны моей мамы было большое семейное воссоединение (у моей прабабушки было десять детей, так что это было действительно большое собрание). Один из моих дальних дядей написал что-то вроде книги по истории нашей семьи к этому воссоединению, и моя мама дала мне книгу прочитать. Я не мог поверить, насколько она велика и сколько исследований было вложено в книгу. Я хотел бы придумать способ разместить всю книгу на веб-сайте, который я собираюсь создать, где я смогу поделиться ею со всеми членами нашей семьи и, в конечном счете, сохранить историю дольше, чем это может сделать эта хлипкая книга.
В надежде, что мне не придется печатать слово в слово всю эту 300-страничную книгу, есть ли способ, с помощью которого я могу просто отсканировать страницы и получить их в цифровом виде? Очевидно, я мог бы просто сфотографировать и сделать веб-сайт, используя изображения, но я чувствую, что было бы более выгодно иметь его в виде фактического текста, потому что тогда он мог бы лучше отображаться в поиске Google, когда кто-то ищет имя члена семьи или что-то в этом роде. Кроме того, если кто-то из членов семьи когда-нибудь займется исследовательским проектом о нашей семье, он сможет скопировать часть текста и сделать на него ссылку.
Итак, кто-нибудь знает, как лучше всего преобразовать эту старую семейную книгу в цифровой текст?
Используйте телефон Android и функцию Google Lens , недавно добавленную в приложение для фотографий, и scrwwn для просмотра фотографий с камеры.
OCR через Google Lens довольно удивительное и точное по сравнению с любым программным обеспечением OCR, которое я когда-либо использовал.
Ниже приведены несколько скриншотов, описывающих процедуру с использованием дешевого (100 долларов США) Nokia 3, лучшего телефона, которым я имел удовольствие пользоваться с тех пор, как мой любимый Nexus 4 испустил дух.
Я подробно опишу образец OCR-сканирования книги по греческим этимологиям, напечатанной в 1976 году, которую я не осмеливаюсь разорвать для сканирования, и которая, похоже, имеет аналогичную плотность символов и шрифт.
Я сделал этот исходный снимок в далеко не идеальных условиях освещения, используя все автоматические настройки на средненькой камере телефона, никаких специальных фототехник или приспособлений для улучшения результата не использовалось, можно сказать, что это просто любительская телефонная фотография страница книги . (Просто убедитесь, что текст сфокусирован, OCR не расшифрует размытый текст не в фокусе)
Нажмите на значок объектива Google, доступный в предварительном просмотре после съемки или на самой фотографии с помощью приложения Google Photos.
Вот -Skynet- ^M^M^M^M^M^M
Я имею в виду, что Google Lens выполняет свое волшебное сканирование (точки немного жуткие, но они должны были что-то сделать, чтобы вы знали, что ИИ Google делает свое дело, я думаю)
После того, как изображение будет отсканировано, вы обнаружите, что текстовые области, которые Google Lens нашел на изображении, четко очерчены, а их текст уже извлечен в нижнюю половину экрана. если вам нужны только некоторые области, а не другие, просто коснитесь своего выбора, чтобы активировать/деактивировать их.
Если вы прикоснетесь к извлеченному тексту, он будет помещен в ваш буфер обмена для копирования/вставки в любом месте вашего телефона.
После этого просто вставьте текст в документ Google docs . Там вы можете: - исправить любые ошибки прямо здесь или на своем ПК, - поделиться документом в свое удовольствие, - опубликовать его как веб-страницу с оперативным обновлением ваших правок, или - экспортировать в - обычный текст, - документ Word , - открытый офисный документ, - электронная книга epub , совместимая с Kindle, с переформатированным текстом, или - старый добрый PDF без DRMd
Можно возразить, что это, вероятно, кратчайший путь к публикации с максимально широким выбором выходных данных.
Вы можете сделать все это с одного устройства (телефон Android с установленными соответствующими приложениями) и сделать это в кратчайшие сроки с высокой точностью, в основном бесплатно.
Вот вставленный фрагмент документов Google
Вот общий URL-адрес документов Google, не стесняйтесь комментировать. Вы также можете попросить кого-нибудь помочь вам редактировать документ удаленно и одновременно.
https://docs.google.com/document/d/1aizUDOHerSraU3fIw6lHLabmLSNsQ7PMXOl1IHHE0RU/edit?usp=drivesdk
Наконец, вот веб-сайт Google Sites, опубликованный с использованием вышеупомянутого документа в качестве связанного источника.
https://sites.google.com/h-lo.me/ocrsample
Это https, настольные и мобильные устройства, и в зависимости от вкуса, как правило, не раздражает глаза. Неплохо для 15 минут общей работы и никакого кодирования.
Осталось одно уточнение: создать правильные абзацы в документе Google, поскольку Google Lens вставляет жесткий возврат после каждой строки извлеченного текста, что делает каждую строку отдельным абзацем, и это станет проблемой, если вы захотите использовать Функции Google Docs, такие как оглавление , или когда вы экспортируете свой документ в электронную книгу, совместимую с Kindle (искажает перекомпоновку текста)
Вы можете просто присоединяться к каждой строке, где это необходимо, нажимая клавишу возврата в начале каждой строки, или это можно автоматизировать с помощью сценария.
Итак, я пишу надстройку для сценариев приложений, которую вскоре опубликую, чтобы автоматизировать этот процесс. Я дам вам знать здесь, когда это будет сделано.
Вы можете сделать это поэтапно. Начните с размещения всего в сети в виде сканирования страниц и обновления по мере возможности. Пластиковое крепление гребня cerlox™ позволяет легко разобрать его и снова вставить в крепление.
Поскольку печать выглядит как обычный шрифт с засечками того же размера, отсканированные изображения можно оцифровать с помощью программного обеспечения для оптического распознавания символов. OCR может предоставить вам черновик текстового файла, который вы можете откорректировать и опубликовать на веб-сайте в окончательном виде.
В то же время вы можете привести в порядок фотографии и другой изобразительный материал.
Вы можете сделать это, когда у вас появится время/ресурсы для проекта.
Несколько хороших ответов здесь, чтобы подойти к этому самостоятельно.
Я хотел бы добавить свой опыт оплаты кого-то еще, чтобы сделать это для вас.
Я использовал Digitize My Books в Соединенном Королевстве (сам живу в Великобритании).
Я был очень доволен результатами: каждая книга возвращается в виде PDF-файла с доступным для поиска (и копируемым) текстом. Используется стандартный метод PDF, при котором исходное изображение для каждой страницы сохраняется, но с наложением текста, так что вы можете выделить исходный текст на странице. Очень хорошее соотношение цены и качества. Если вы находитесь за границей из Великобритании, вы все равно можете отправить им книги.
Они также предлагают вариант для книги в редактируемом формате документа Word за дополнительную, но очень разумную плату.
Если вы не требуете возврата оригинала, то самым дешевым вариантом будет выбрать деструктивное сканирование. Здесь страницы берутся из книги по отдельности и сканируются. По умолчанию оригинальная книга не возвращается, хотя я считаю, что вы можете запросить ее, возможно, за дополнительную плату (например, за почтовые расходы), но страницы будут удалены для сканирования по отдельности. Деструктивное сканирование — это вариант, который я выбрал для всех своих книг, и я не требовал возврата оригиналов.
Они также предлагают неразрушающее копирование, если вам нужен оригинал, но стоимость выше. Они также принимают ваши собственные цифровые сканы, если вы уже отсканировали книгу самостоятельно — они могут превратить это в доступный для поиска, копируемый документ PDF или Word.
Посмотрите вокруг их веб-сайт. Я действительно считаю, что это лучший вариант: тратить деньги, чтобы сэкономить время, а не тратить время, чтобы сэкономить деньги.
Я не работаю на Digitize My Books и не имею к ним никакого финансового интереса (акционера или иного лица).
Первоначально я начал «сканировать» книги сам, фотографируя с помощью цифровой зеркальной камеры (фотографирование быстрее, чем сканирование с планшета), при этом каждая страница удерживалась открытой с помощью зажима для буфера обмена и Blu-Tak. Но мне показалось, что это довольно трудоемко.
Если вы все еще заинтересованы в том, чтобы делать это самостоятельно, ScanTailor — это приложение Windows с открытым исходным кодом, которое будет форматировать, разделять двойные страницы/пары страниц после сканирования на отдельные страницы, выпрямлять и устранять их искажения. Таким образом, результирующие страницы выглядят плоскими и прямыми, как хотелось бы, однако это не делает OCR: результаты по-прежнему представляют собой растровые изображения. Но, по крайней мере, есть какой-то способ пакетной автоматизации исправления любых искажений страниц, особенно при неразрушающем копировании, когда трудно расположить страницы так, чтобы они были полностью плоскими для больших книг.
Обновлено
Добавлена дополнительная информация о параметрах сканирования, предлагаемых службой. ScanTailor дополнительная информация. Грамматические исправления.
Самый быстрый способ сделать это — связаться с вашим родственником и узнать, сохранились ли у него исходные файлы, которые они использовали для создания этой книги. Судя по фотографии на первой полосе, я бы сказал, что она сделана на компьютере. Преобразуйте из {вставьте здесь действительно старый пакет текстового процессора} в текущий формат, и все готово.
Второй самый быстрый способ превратить стопку печатных материалов в цифровой документ:
Затем используйте любой пакет OCR, чтобы превратить отсканированные страницы в файл Word. Для этой цели я использую функции OCR в полной версии Adobe Acrobat, но существует множество механизмов OCR.
Возможно, вы захотите попробовать очень недорогой сервис: save-your-memories.info. Когда я делаю это сам, я использую свой сканер для сканирования в OmniPage, программу OCR, а затем сохраняю в виде файла PDF, который полностью доступен для поиска. Поскольку ваша публикация имеет пластиковый переплет, ее легко разобрать, чтобы отсканировать отдельные страницы, а затем переплести. Съемка изображений, как указано в приведенных выше предложениях, также очень осуществима — хороший среди многих подходов.
Кайл Бриденстайн
глекуанда
Гоббс