У меня есть куча взаимосвязанных веб-страниц HTML, которые я хочу преобразовать в формат EPUB.
Например, индексная страница находится по адресу
http://example.com/documentation/index/index.html
В то время как главы, связанные со страницами указателя, находятся в
http://example.com/documentation/chapters/*
Также некоторые изображения и файлы форматирования находятся в
http://example.com/css/*
http://example.com/img/*
Есть ли инструмент для загрузки и рекурсивного преобразования документации с учетом этих конкретных ограничений в формат epub?
Я могу загрузить страницы с помощью httrack следующим образом:
httrack http://example.com/documentation/index/index.html +http://example.com/documentation/index/* +http://example.com/documentation/chapters/* +http://example.com/css/* +http://example.com/img/*
… и преобразовать HTML-страницы в XHTML с помощью tidy-html5
tidy -asxhtml -numeric < index.html > index.xhml
но я до сих пор не нашел инструмента для конвертации всего дерева в EPUB сразу.
Кроме того, однажды попробовал Caliber, но пользовательский интерфейс недружелюбен, поэтому я действительно не пытался понять этот инструмент. Если мне нужно изучить пользовательский интерфейс Caliber, я предпочитаю писать сценарий bash для выполнения этой работы.
Хотя это не всегда дает идеальные результаты, вы можете использовать pandoc для загрузки html из Интернета и создания epub за один раз - вам может потребоваться указать pandoc порядок страниц/глав и/или какие страницы, но любые ссылки на css/изображения должны также загружаться и внедряться автоматически.
Иззи
ebook-convert
CLI . И да, в моем случае обычно эту работу выполняет сценарий Bash: я использую скелет с «заполнителями» (переменными) для деталей источника :)