Я хочу создать автономное приложение для отображения информации о наркотиках. Информация, которую мне нужно использовать, уже доступна в Википедии . Но на этой странице нужно сохранить так много подстраниц (более 1000), что, на мой взгляд, выполнить эту задачу вручную невозможно.
Также обратите внимание, что я должен сохранять каждое лекарство в отформатированном элементе в формате XML (с определенной схемой). Сейчас ищу средство для облегчения этой задачи. Существует ли вообще такой инструмент или нет?
Мои требования
Сомневаюсь, что вы найдете готовый инструмент для этой цели, это ИМХО слишком специфичное требование. Но существует множество фреймворков для каждого основного языка программирования, которые помогут вам самостоятельно реализовать веб-«скребок» или «краулер».
Например, при поиске в Google «веб-сканер python» сразу же обнаружился http://scrapy.org/ , поиск «веб-сканера java» дал ссылку на crawler4j . Используя такую инфраструктуру, для кого-то с > 4K баллов в stackoverflow реализация того, что вы ищете, займет не более нескольких дней.
Не универсальный инструмент для этой работы, а решение, которое преобразует статьи Википедии в XML-документы:
(Введя название категории в поле «Добавить страницы из категории», вы можете автоматически экспортировать все страницы, принадлежащие к этой категории.)
На странице http://www.mediawiki.org/wiki/Manual:Parameters_to_Special:Export вы можете прочитать о дополнительных функциях функции экспорта, которыми можно управлять, манипулируя URL-адресом.
Фактическое содержание статьи (включенное в элемент XML text
) экспортируется в синтаксисе MediaWiki. На http://www.mediawiki.org/wiki/Alternative_parsers вы можете найти различные инструменты, которые преобразуют эту разметку во что-то другое, например XML.
Например, Pandoc может импортировать синтаксис MediaWiki и экспортировать в XHTML (то есть XML).
ненор
лягушка