OCR в PDF-файлах в OS X с помощью бесплатных инструментов с открытым исходным кодом

Question

OCR в PDF-файлах в OS X с помощью бесплатных инструментов с открытым исходным кодом

Джош

После прочтения этих сообщений в блоге:

и просмотрев приведенный ниже фрагмент (из этой сути) для Linux, я думаю, что нашел метод для распознавания многостраничного PDF-файла и получения PDF-файла на выходе, который также может работать в OS X. Большинство зависимостей доступны в доморощенном ( brew install tesseractи brew install imagemagick), кроме одного, hocr2pdf.

Мне не удалось найти его порт для OS X. Есть ли он в наличии? Если нет, то как можно выполнить распознавание многостраничного PDF-файла и снова получить результаты в многостраничном PDF-файле в OS X, используя бесплатные инструменты с открытым исходным кодом?

#!/bin/bash

# This is a script to transform a PDF containing a scanned book into a searchable PDF.
# Based on previous script and many good tips by Konrad Voelkel:
# http://blog.konradvoelkel.de/2010/01/linux-ocr-and-pdf-problem-solved/
# http://blog.konradvoelkel.de/2013/03/scan-to-pdfa/
# Depends on convert (ImageMagick), pdftk and hocr2pdf (ExactImage).
# $ sudo apt-get install imagemagick pdftk exactimage
# You also need at least one OCR software which can be either tesseract or cuneiform.
# $ sudo apt-get install tesseract-ocr
# $ sudo apt-get install cuneiform
# To install languages into tesseract do (e.g. for Portuguese):
# $ sudo apt-get install tesseract-ocr-por

echo "usage: ./pdfocr.sh document.pdf ocr-sfw split lang author title"
# where ocr-sfw is either tesseract or cuneiform
# split is either 0 (already single-paged) or 1 (2 book-pages per pdf-page)
# lang is a language as in "tesseract --list-langs" or "cuneiform -l".
# and author, title are used for the PDF metadata.
#
# usage example:
# ./pdfocr.sh SomeFile.pdf tesseract 1 por "Some Author" "Some Title"
pdftk "$1" burst dont_ask
for f in pg_*.pdf
do
if [ "1" == "$3" ]; then
convert -normalize -density 300 -depth 8 -crop 50%x100% +repage $f "$f.png"
else
convert -normalize -density 300 -depth 8 $f "$f.png"
fi
done
rm pg_*.pdf

for f in pg_*.png
do
if [ "tesseract" == "$2" ]; then
tesseract -l $4 -psm 1 $f $f hocr
elif [ "cuneiform" == "$2" ]; then
cuneiform -l $4 -f hocr -o "$f.html" $f
else
echo "$2 is not a valid OCR software."
fi
hocr2pdf -i $f -r 300 -s -o "$f.pdf" < "$f.html"
done

pdftk pg_*.pdf cat output merged.pdf

pdftk merged.pdf update_info_utf8 doc_data.txt output merged+data.pdf
echo "InfoBegin" > in.info
echo "InfoKey: Author" >> in.info
echo "InfoValue: $5" >> in.info
echo "InfoBegin" >> in.info
echo "InfoKey: Title" >> in.info
echo "InfoValue: $6" >> in.info
echo "InfoBegin" >> in.info
echo "InfoKey: Creator" >> in.info
echo "InfoValue: PDF OCR scan script" >> in.info
in_filename="${1%.*}"
pdftk merged+data.pdf update_info_utf8 in.info output "$in_filename-ocr.pdf"

rm -r doc_data.txt in.info merged* pg_*

Ответы (2)

OCR в PDF-файлах в OS X с помощью бесплатных инструментов с открытым исходным кодом

Кортни Паттисон · Answer 1

Tesseract 3.03+ имеет встроенную поддержку вывода PDF. Что требует установки leptonica. Вы можете использовать: brew install tesseract --HEADчтобы получить последнюю версию tesseract. Вам также понадобится установленный ghostscript, но нет необходимости в hocr2pdf.

Следующий скрипт использует ghostscript для разделения PDF на JPEG, тессеракт для оптического распознавания символов JPEG и вывода отдельных страниц PDF, и, наконец, ghostscript снова для объединения страниц в один PDF.

#!/bin/sh

y="`pwd`/$1"
echo Will create a searchable PDF for $y

x=`basename "$y"`
name=${x%.*}

mkdir "$name"
cd "$name"

# splitting to individual pages
gs -dSAFER -dBATCH -dNOPAUSE -sDEVICE=jpeg -r300 -dTextAlphaBits=4 -o out_%04d.jpg -f "$y"

# process each page
for f in $( ls *.jpg ); do
  # extract text
  tesseract -l eng -psm 3 $f ${f%.*} pdf
  rm $f
done

# combine all pages back to a single file
gs -dCompatibilityLevel=1.4 -dNOPAUSE -dQUIET -dBATCH -dNOPAUSE -q -sDEVICE=pdfwrite -sOutputFile="../${name}_searchable.pdf" *.pdf

cd ..
rm -rf "${name}"

# Adapted from: http://www.morethantechnical.com/2013/11/21/creating-a-searchable-pdf-with-opensource-tools-ghostscript-hocr2pdf-and-tesseract-ocr/
# from http://www.ehow.com/how_6874571_merge-pdf-files-ghostscript.html
# bash tut: http://linuxconfig.org/bash-scripting-tutorial
# Linux PDF,OCR: http://blog.konradvoelkel.de/2013/03/scan-to-pdfa/

В Tesseract 4 это должно быть tesseract $f ${f%.*} -l eng --psm 3 pdf.
Если исходный PDF-файл состоит из одного изображения на странице (например, вывод программы сканирования, не поддерживающей OCR), использование pdfimagesвместо Ghostscript для извлечения изображений позволяет избежать повторного сжатия. Например:pdfimages -all file.pdf out

Туан Ань Тран · Answer 2

Туан Ань Тран

Я тоже использую tesseractна os x. Писал про его автоматизацию кратко здесь .

задница

Хотя эта ссылка может ответить на вопрос, лучше включить сюда основные части ответа и предоставить ссылку для справки. Ответы, содержащие только ссылку, могут стать недействительными, если связанная страница изменится. Пожалуйста, посмотрите и здесь: apple.stackexchange.com/help/deleted-answers

OCR в PDF-файлах в OS X с помощью бесплатных инструментов с открытым исходным кодом

Джош

Ответы (2)

Кортни Паттисон

Робин Динс

Отто Джи

Туан Ань Тран

задница

OS X: есть ли конвертер формата PDF в Kindle для чтения технических материалов на Amazon Kindle?

Ищете программное обеспечение для сканирования или преобразования в PDF с возможностью поиска и подписи

Как отключить редактирование PDF в приложении Preview?

Могу ли я удалить разрывы страниц (или переформатировать документы PostScript) в файлах PDF?

macOS Catalina Homebrew Проблемы с установкой mariadb

Установка gnuplot (или аналогичного) на Lion

Приложение для управления библиотекой pdf-документов

Инструмент для удаления пустых страниц для PDF?

Использование терминала gnuplot в OSX

Конвертер PDF в Mobi