Автоматическое преобразование последовательности веб-страниц в pdf [дубликат]

Часто бывает, что я хочу отправить последовательность HTML-страниц с веб-сайта, все вместе в уникальном файле, чтобы я мог прочитать его в своей электронной книге.

Например, этот онлайн-ресурс можно преобразовать в последовательность pdf- файлов.

У меня нет никаких ограничений в ОС (Linux или Windows), и мне подходят как платные, так и бесплатные решения. Интернет-решение (веб-сайт, который преобразует любые URL-адреса, которые вы передаете) является лучшим.

Калибр делает что-то подобное, используя концепцию под названием «Рецепты». Нет необходимости в LaTeX с этим. Хотя я использую Caliber для своих электронных книг (EPUB/MOBI), я никогда не использовал его для объединения веб-сайта в формате PDF, поэтому не могу сказать, насколько хорошо он работает (отсюда комментарий, а не ответ).
Мой вопрос в том, как они сделали PDF-файл, который я поместил в качестве образца внутри вопроса? Что мне в нем нравится, так это то, что когда вы нажимаете на ссылку, она переходит к соответствующей части в формате PDF и не открывает браузер.
Любой хороший конвертер должен это делать. Я не могу рассказать вам о том, "как" (это было бы слишком далеко для этого сайта, так как это скорее вопрос разработки).
Является ли часть «как» чем-то похожим на этот пример , написанный на питоне? Он проверяет html-код начальной страницы, загружает его, находит ссылку на следующую страницу и выполняет предыдущий шаг, пока не сможет больше загрузить страницу.

Ответы (1)

Pandoc может взять одну или несколько веб-страниц и преобразовать их в несколько форматов, включая EPUB и pdf, но для pdf вам также понадобится латексный процессор, такой как MiKTeX .

Примеры:

1: Загрузите руководство по созданию и конвертируйте его в pdf:

pandoc -s -r html http://www.gnu.org/software/make/ -o make_manual.pdf

2: Загрузите руководства по make и awk и объедините их в epub:

pandoc -s -r html http://www.gnu.org/software/make/ http://www.gnu.org/software/gawk/manual/gawk.html -o make_awk_man.epub

пандок это:

  • Бесплатно, бесплатно и с открытым исходным кодом
  • Кроссплатформенный Linux, OS-X и Windows
  • Способен читать из любого доступного источника, в том числе онлайн :
    • commonmark, docbook, docx, epub, пикша, html, собственный json, латекс,
    • уценка, markdown_github, markdown_mmd, markdown_phpextra,
    • markdown_strict, mediawiki, родной, odt, opml, org, rst, t2t,
    • текстиль, твики
  • Умеет писать:
    • asciidoc, beamer, commonmark, context, docbook, docx, dokuwiki,
    • dzslides, epub, epub3, fb2, пикша, html, html5, icml, json,
    • латекс, мужчина, уценка, markdown_github, markdown_mmd,
    • markdown_phpextra, markdown_strict, mediawiki, нативный, odt,
    • opendocument, opml, org, pdf с обработчиком латекса , обычная, покажите js, rst, rtf, s5,
    • скользкий, скользкий, texinfo, текстиль
  • Не требует установки Word для создания docx и т. д.

Вы обнаружите, что иногда выходной дисплей и макет не совсем соответствуют оригиналу, особенно если в оригинале используются необычные шрифты, которые не установлены в вашей системе и отображаются только в вашем браузере.

ОПАСНОСТЬ Как только вы начнете использовать pandoc, будет трудно остановиться.

Спасибо, Стив, pandoc выглядит интересной программой. Можно ли предоставить pandoc последовательность html-страниц (скажем, текстовый файл, содержащий список html-страниц) и преобразовать их все в уникальный pdf? или, может быть, мне следует конвертировать каждый PDF-файл отдельно и объединить их все в конце? Другой вопрос: что мне нравится в pdf, который я отправил в своем вопросе, так это то, что все гиперссылки преобразуются в гиперссылки, работающие внутри pdf, так что, если вы нажмете на ссылку, она перейдет к соответствующей части в pdf. Пандок может это сделать?
Да, вы можете дать ему последовательность html-файлов, и он может упаковать все файлы в один pdf или epub, а внутренние и внешние ссылки сохраняются, хотя я не пробовал с несколькими входами - вы можете передать файл со списком источников но я не думаю, что вы можете читать из файла списка ввода по умолчанию. Обратите внимание, что он не может конвертировать прочитанные PDF-файлы, поэтому, если вы хотите собрать его позже, вам нужно будет использовать уценку или что-то еще, а не pdf, как в промежуточном формате.