Существует ли бесплатное программное обеспечение для преобразования PDF в HTML?

Я работаю над проектом, в котором мне нужно работать как с файлами HTML, так и с PDF. И это требует большого количества преобразований HTML в PDF и PDF в HTML.

Требования:

  1. Он должен быть бесплатным и желательно с открытым исходным кодом.
  2. Он должен быть полностью оффлайн
  3. Он должен быть стабильным, надежным и иметь хорошую репутацию

Есть ли такой софт, и если да, то порекомендуйте его.

Какая операционная система? Один файл за раз, или вам нужен пакетный режим? Чем больше информации вы нам предоставите, тем больше мы сможем вам помочь.
Посмотрите на самый популярный менеджер электронных книг ICALE-ebook.com , он конвертирует в обе стороны, но использует что-то, называемое HTMLZ, который представляет собой сжатый (заархивированный) HTML с некоторой дополнительной информацией. См. mobileread.com/forums/showthread.php?t=128076 и htmlz.topdf.com и goodreads.com/topic/show/734946-convert-to-html . Я не публикую ответ, так как это потребует некоторой работы над ваша часть, но ее не должно быть много, и я верю, что это сделает то, что вы хотите. Дайте нам знать, как это происходит.
Также см.: Пакетный конвертер HTML в PDF (или библиотека), который поддерживает CSS @font-face? Ключевые слова: Prince (HTML -> PDF; очень хорошее качество, сам пользуюсь), Pandoc. Также проверьте эти вопросы . И программное обеспечение для извлечения содержимого PDF (ключевое слово: Poppler, работает в обе стороны).
Попробуйте бесплатную версию Print2Flash . Он может конвертировать не только документы PDF, но и файлы Office/текст/изображения и так далее.

Ответы (7)

Посмотрите на новейшую версию mudraw. Это инструмент командной строки из семейства инструментов MuPDF .

mudraw -o out.html -F html in.pdf

Используйте самую новую версию, если это возможно. Он получил довольно много новых и дополнительных функций (он может делать больше, чем просто преобразование PDF-> HTML):

$ mudraw
   Usage: mudraw [options] file [pages]
   -p -  password

   -o -  output file name (%d for page number)
   -F -  output format (default inferred from output file name)
         raster: png, tga, pnm, pam, pbm, pwg, pcl
         vector: svg, pdf, trace
         text: txt, html, stext

   -s -  show extra information:
         m - show memory use
         t - show timings
         f - show page features
         5 - show md5 checksum of rendered image

   -R -  rotate clockwise (default: 0 degrees)
   -r -  resolution in dpi (default: 72)
   -w -  width (in pixels) (maximum width if -r is specified)
   -h -  height (in pixels) (maximum height if -r is specified)
   -f -  fit width and/or height exactly; ignore original aspect ratio
   -B -  maximum bandheight (pgm, ppm, pam, png output only)

   -W -  page width for EPUB layout
   -H -  page height for EPUB layout
   -S -  font size for EPUB layout

   -c -  colorspace (mono, gray, grayalpha, rgb, rgba, cmyk, cmykalpha)
   -G -  apply gamma correction
   -I    invert colors

   -A -  number of bits of antialiasing (0 to 8)
   -D    disable use of display list
   -i    ignore errors

   pages comma separated list of page numbers and ranges

Обновление (апрель 2016 г.)

Соглашение о вызовах инструмента было изменено. Он по-прежнему является частью семейства MuPDF, но теперь вы запускаете его так:

mutool draw

pdf2htmlEX точно конвертирует PDF-файлы в HTML и сохраняет форматирование. Однако сгенерированный HTML-код трудно читать и программно анализировать. Он бесплатный, с открытым исходным кодом и работает в автономном режиме на различных платформах.

https://github.com/coolwanglu/pdf2htmlEX

https://github.com/coolwanglu/pdf2htmlEX/wiki/Загрузить

Some PDF to HTML Converter — единственный бесплатный автономный конвертер PDF в HTML, который мне удалось найти. Надеюсь, что это работает для вас!

Программное обеспечение «Бесплатный конвертер PDF в HTML» (вы можете найти его здесь: http://www.free-pdf-to-word.org/tutorials/freepdftohtmlconverter01_how_to_convert_pdf_to_html.html ) довольно хорошее. Я использовал его для преобразования нескольких PDF-файлов в HTML-файлы и пока вполне доволен результатом. Он довольно хорошо поддерживает макет PDF, и вы можете выбрать, хотите ли вы хранить изображения из PDF в отдельной папке или нет.

PS Ссылка для скачивания находится где-то справа, где написано «Необходимые ресурсы».

Calibre — бесплатная программа с открытым исходным кодом для Windows/Mac/Linux, способная быстро конвертировать файлы PDF в архив HTMLZ. Архив HTMLZ содержит файл index.html, внутри которого находится преобразованный файл .html. Он также содержит файл style.css для форматирования и иногда может содержать папку с изображениями, в которой есть изображения.

Когда я попробовал, я был удивлен тем, насколько хорошо Calibre конвертирует PDF-книги в .html. Он сохранил форматирование текста и не сделал ошибок в сохранении концов строк. Когда я попробовал Caliber в журнале или в текстовом документе, который изначально был плохо отформатирован, результаты были неприемлемыми, если только файл PDF не был преобразован в обычный текст, а затем вручную отредактирован в текстовом процессоре и сохранен как файл .html. . Это дает отличные результаты, но занимает очень много времени. Calibre не может хорошо конвертировать каждый PDF-файл, но в большинстве случаев он хорошо справляется со своей задачей, поэтому стоит попробовать.

Документацию по ebook-convertкоманде см. в руководстве manual.calibre-ebook.com/generated/en/ebook-convert.html .

Я знаю, что вы сказали автономный, но если вы можете работать с узлом, это лучший модуль узла, который я нашел:

https://github.com/peterdemartini/html5-to-pdf

Чтобы упростить задачу - вот проект node/webpack, который я создал для создания своего резюме с использованием HTML.

https://github.com/dwjohnston/cv

Вы пробовали pdf2htmlв линуксе? И бесплатный, и бесплатный, работает в автономном режиме, давно упакован многими дистрибутивами.

https://linux.die.net/man/1/pdftohtml