Я работаю над проектом, в котором мне нужно работать как с файлами HTML, так и с PDF. И это требует большого количества преобразований HTML в PDF и PDF в HTML.
Требования:
Есть ли такой софт, и если да, то порекомендуйте его.
Посмотрите на новейшую версию mudraw
. Это инструмент командной строки из семейства инструментов MuPDF .
mudraw -o out.html -F html in.pdf
Используйте самую новую версию, если это возможно. Он получил довольно много новых и дополнительных функций (он может делать больше, чем просто преобразование PDF-> HTML):
$ mudraw
Usage: mudraw [options] file [pages]
-p - password
-o - output file name (%d for page number)
-F - output format (default inferred from output file name)
raster: png, tga, pnm, pam, pbm, pwg, pcl
vector: svg, pdf, trace
text: txt, html, stext
-s - show extra information:
m - show memory use
t - show timings
f - show page features
5 - show md5 checksum of rendered image
-R - rotate clockwise (default: 0 degrees)
-r - resolution in dpi (default: 72)
-w - width (in pixels) (maximum width if -r is specified)
-h - height (in pixels) (maximum height if -r is specified)
-f - fit width and/or height exactly; ignore original aspect ratio
-B - maximum bandheight (pgm, ppm, pam, png output only)
-W - page width for EPUB layout
-H - page height for EPUB layout
-S - font size for EPUB layout
-c - colorspace (mono, gray, grayalpha, rgb, rgba, cmyk, cmykalpha)
-G - apply gamma correction
-I invert colors
-A - number of bits of antialiasing (0 to 8)
-D disable use of display list
-i ignore errors
pages comma separated list of page numbers and ranges
Соглашение о вызовах инструмента было изменено. Он по-прежнему является частью семейства MuPDF, но теперь вы запускаете его так:
mutool draw
pdf2htmlEX точно конвертирует PDF-файлы в HTML и сохраняет форматирование. Однако сгенерированный HTML-код трудно читать и программно анализировать. Он бесплатный, с открытым исходным кодом и работает в автономном режиме на различных платформах.
Some PDF to HTML Converter — единственный бесплатный автономный конвертер PDF в HTML, который мне удалось найти. Надеюсь, что это работает для вас!
Программное обеспечение «Бесплатный конвертер PDF в HTML» (вы можете найти его здесь: http://www.free-pdf-to-word.org/tutorials/freepdftohtmlconverter01_how_to_convert_pdf_to_html.html ) довольно хорошее. Я использовал его для преобразования нескольких PDF-файлов в HTML-файлы и пока вполне доволен результатом. Он довольно хорошо поддерживает макет PDF, и вы можете выбрать, хотите ли вы хранить изображения из PDF в отдельной папке или нет.
PS Ссылка для скачивания находится где-то справа, где написано «Необходимые ресурсы».
Calibre — бесплатная программа с открытым исходным кодом для Windows/Mac/Linux, способная быстро конвертировать файлы PDF в архив HTMLZ. Архив HTMLZ содержит файл index.html, внутри которого находится преобразованный файл .html. Он также содержит файл style.css для форматирования и иногда может содержать папку с изображениями, в которой есть изображения.
Когда я попробовал, я был удивлен тем, насколько хорошо Calibre конвертирует PDF-книги в .html. Он сохранил форматирование текста и не сделал ошибок в сохранении концов строк. Когда я попробовал Caliber в журнале или в текстовом документе, который изначально был плохо отформатирован, результаты были неприемлемыми, если только файл PDF не был преобразован в обычный текст, а затем вручную отредактирован в текстовом процессоре и сохранен как файл .html. . Это дает отличные результаты, но занимает очень много времени. Calibre не может хорошо конвертировать каждый PDF-файл, но в большинстве случаев он хорошо справляется со своей задачей, поэтому стоит попробовать.
ebook-convert
команде см. в руководстве manual.calibre-ebook.com/generated/en/ebook-convert.html .Я знаю, что вы сказали автономный, но если вы можете работать с узлом, это лучший модуль узла, который я нашел:
https://github.com/peterdemartini/html5-to-pdf
Чтобы упростить задачу - вот проект node/webpack, который я создал для создания своего резюме с использованием HTML.
Вы пробовали pdf2html
в линуксе? И бесплатный, и бесплатный, работает в автономном режиме, давно упакован многими дистрибутивами.
Мог говорит восстановить Монику
Мог говорит восстановить Монику
Иззи
Джерри