Можете ли вы получить статистические данные о представленных научных статьях и публикациях?

Для классного проекта по машинному обучению я рассматриваю возможность создания набора предикторов, в котором набор функций включает информацию о теме, ключевых словах в заголовке, авторах, дате и т. д., а выходными данными являются вероятность публикации, ожидаемая цитируемость и др.

Я хотел бы выбрать один журнал, например, Nature . Можно ли будет собрать необходимые данные для этого? У кого-нибудь есть советы о том, где я могу найти статистические данные о конкретных научных журналах?

Будет ли достаточно тренироваться на принятых документах, не включая представленные документы?

Ответы (2)

ИМХО, это вряд ли полетит. Некоторые журналы могут предоставить вам статистику по количеству поданных и принятых публикаций. Но представление в журнал, как правило, является конфиденциальным, и как автор я был бы очень расстроен, если бы Nature раскрыла эту информацию кому-то еще.

Где вы можете провести аналогичный анализ, так это на таком сайте, как arXiv.org. Он широко используется в физике в других областях в качестве службы препринтов, и обычно есть примечания, где и когда статья принимается в журнал. Ключевые слова также включены. Разница в том, что не все, отправляющиеся на Phys Rev, обязательно используют arXiv.org.

Если вы можете работать только с метаданными (т. е. без записи о публикации), arXiv — это прекрасные данные для начала. У них есть AIP, но вы хотите использовать API Open Archive Initiative, см. мой пост (и ответ): Получение дампа метаданных arXiv . В частности, вы получаете данные о публикациях (журнал, DOI).

Для еще более актуального набора данных Американское физическое общество (Physical Review) имеет установленный маршрут для обмена данными: http://journals.aps.org/datasets :

[...] Запросы будут быстро рассмотрены, и, в случае одобрения, данные будут доступны для загрузки после принятия приведенных ниже условий. [...] Корпус Physical Review Letters, Physical Review и Reviews of Modern Physics состоит из более чем 450 000 статей и датируется 1893 годом. [...]

1) Пары цитирующих статей. Этот набор данных состоит из пар статей APS, которые цитируют друг друга. Например, если статья A цитирует статью B, в наборе данных будет запись, состоящая из пары DOI для A и B. Этот набор данных будет отформатирован как файл с разделителями-запятыми (CSV), состоящий из DOI пар, по одной паре в строке.

2) Метаданные статей. Этот набор данных состоит из основных метаданных всех журнальных статей APS. Предоставленные метаданные включают следующие поля: DOI, журнал, том, выпуск, первая и последняя страницы ИЛИ идентификатор статьи и количество страниц, название, авторы, принадлежность, история публикации, коды PACS, заголовок оглавления, тип статьи и информация об авторских правах.

Я не знаю, считается ли классный проект, но, возможно, стоит попробовать.