Инструмент для сохранения веб-страниц в формате XML

Question

Инструмент для сохранения веб-страниц в формате XML

XML
HTML
не в сети
Софт
конвертер документов

лягушка

Я хочу создать автономное приложение для отображения информации о наркотиках. Информация, которую мне нужно использовать, уже доступна в Википедии . Но на этой странице нужно сохранить так много подстраниц (более 1000), что, на мой взгляд, выполнить эту задачу вручную невозможно.

Также обратите внимание, что я должен сохранять каждое лекарство в отформатированном элементе в формате XML (с определенной схемой). Сейчас ищу средство для облегчения этой задачи. Существует ли вообще такой инструмент или нет?

Мои требования

Получает HTML-страницы и создает XML-документ
Желательно бесплатно
на базе Windows или Linux

ненор

(a) Значит, инструменту не нужно загружать/выбирать все статьи Википедии о наркотиках, верно? (b) Какую схему XML следует использовать или следует использовать элементы HTML с пространством имен HTML? (c) Должен ли инструмент работать со списком URL-адресов, только с одним URL-адресом, с локальным файлом и полнотекстовым вводом?

лягушка

@unor (a) Если так, то лучше (b) Простая схема XSD, я думаю, это не имеет значения (c) Работа со списком URL-адресов лучше, но поддержка файлов и других документов также приемлема (d) Спасибо за ваше отклик

Ответы (2)

Инструмент для сохранения веб-страниц в формате XML

(a) Значит, инструменту не нужно загружать/выбирать все статьи Википедии о наркотиках, верно? (b) Какую схему XML следует использовать или следует использовать элементы HTML с пространством имен HTML? (c) Должен ли инструмент работать со списком URL-адресов, только с одним URL-адресом, с локальным файлом и полнотекстовым вводом?
@unor (a) Если так, то лучше (b) Простая схема XSD, я думаю, это не имеет значения (c) Работа со списком URL-адресов лучше, но поддержка файлов и других документов также приемлема (d) Спасибо за ваше отклик

Док Браун · Answer 1

Сомневаюсь, что вы найдете готовый инструмент для этой цели, это ИМХО слишком специфичное требование. Но существует множество фреймворков для каждого основного языка программирования, которые помогут вам самостоятельно реализовать веб-«скребок» или «краулер».

Например, при поиске в Google «веб-сканер python» сразу же обнаружился http://scrapy.org/ , поиск «веб-сканера java» дал ссылку на crawler4j . Используя такую инфраструктуру, для кого-то с > 4K баллов в stackoverflow реализация того, что вы ищете, займет не более нескольких дней.

Спасибо, дорогой Док Браун и @unor, ваши ответы действительно полезны и ценны, но я, к сожалению, не могу принять их оба. На мой взгляд, опыт программирования для этой задачи может быть более приятным! поэтому я принял этот ответ, однако я очень ценю ответ unor
@abforce: возможно, вы можете объединить два предложения - написать сканер (используя одну из предложенных платформ), который использует функцию Special:Export.

ненор · Answer 2

Не универсальный инструмент для этой работы, а решение, которое преобразует статьи Википедии в XML-документы:

Перейдите на страницу http://en.wikipedia.org/wiki/Special:Export .
Введите название статьи
Нажмите «Экспорт»

(Введя название категории в поле «Добавить страницы из категории», вы можете автоматически экспортировать все страницы, принадлежащие к этой категории.)

На странице http://www.mediawiki.org/wiki/Manual:Parameters_to_Special:Export вы можете прочитать о дополнительных функциях функции экспорта, которыми можно управлять, манипулируя URL-адресом.

Фактическое содержание статьи (включенное в элемент XML text) экспортируется в синтаксисе MediaWiki. На http://www.mediawiki.org/wiki/Alternative_parsers вы можете найти различные инструменты, которые преобразуют эту разметку во что-то другое, например XML.

Например, Pandoc может импортировать синтаксис MediaWiki и экспортировать в XHTML (то есть XML).

Инструмент для сохранения веб-страниц в формате XML

лягушка

ненор

лягушка

Ответы (2)

Док Браун

лягушка

Док Браун

ненор

Существует ли бесплатное программное обеспечение для преобразования PDF в HTML?

Сделать веб-сайт с гиперссылкой из файла EPUB

Инструмент для преобразования между различными форматами обычного текста

Инструмент для конвертации HTML4 в HTML5+CSS

Есть ли приложение/инструмент для преобразования graphML в Dia или наоборот?

Эквивалент MkDocs, написанный на Perl, для преобразования деревьев Markdown или POD в HTML с индексом в каждом файле.

Программное обеспечение для академических биографических данных с выводом PDF и HTML

Программное обеспечение для преобразования файлов MHT (MHTML) в независимый от браузера и платформы однофайловый формат файла

Инструмент для преобразования онлайн-документации HTML в EPUB из командной строки.

Конвертер веб-страницы в PDF