Метаанализ с использованием Google Scholar — все ли годы одинаково полны?

Как и многие другие, я извлекаю данные из Google Scholar в рамках своего процесса обзора, чтобы иметь структурированный набор данных для метаанализа литературы.

Я заметил, что по паре многих тем, представляющих интерес, количество статей в год вроде бы увеличивается до 2017 года, а затем резко падает.

Интересно, действительно ли можно предположить, что в 2018 году было опубликовано меньше статей?

Возможно ли, что это означает, что данные за 2017 год являются относительно «полными», тогда как журналы и авторы за 2018 год все еще находятся в процессе добавления в индекс Google, поэтому общее количество занижено?

Кто-нибудь сталкивался с этим?

возможно, вы могли бы проверить и сравнить это наблюдение с другими поисковыми индексами, такими как scopus и сеть знаний ISI. Также на arxiv.org есть раздел статистики для проверки этого academia.stackexchange.com/a/126982/41661 .
@user847982 user847982 Мне нравится эта идея, хотя я думаю, что для них нужно писать отдельный парсер данных. Мне также было интересно, могу ли я попробовать использовать один и тот же парсер с Google Scholar и разными темами, чтобы увидеть, вижу ли я, что это происходит по всем направлениям в Google Scholar.

Ответы (2)

У Google Scholar есть свои сильные стороны (например, индексирование «серой» литературы, которой нет ни в одной обычной научной базе данных), но качество данных не входит в их число. Конечно, это не потому, что у Google нет возможности создать базу данных высокого качества; это скорее потому, что издатели отказываются предоставить ему разрешение на создание высококачественной базы данных, которую он распространяет бесплатно. Индекс Google основан на веб-пауке Google Scholar, полнота которого зависит от того, что доступно на общедоступных веб-сайтах (Google строго соблюдает разрешения веб-сайтов; он не пытается индексировать что-либо, если веб-сайты просят не делать этого с записью robots.txt). Я не удивлюсь, если некоторые издатели ограничат разрешение Google индексировать детали некоторых из своих последних публикаций.

С этой точки зрения, тогда для любой данной темы, если будет резкий спад в течение или после 2017 года (неясно, в каком случае это так, как вы сформулировали вопрос), я бы не считал это свидетельством чего-либо. То есть это не обязательно свидетельство того, что люди вдруг перестали публиковаться на эту тему; это только свидетельство того, что индекс Google больше не содержит эту тему по какой-либо причине. Я знаю, что видел довольно много статей с такими диаграммами и подобными заявлениями, но я не считаю такие утверждения надежными. (И когда я рецензирую статьи с такими утверждениями, я говорю об этом авторам.)

Чтобы сделать какое-либо конкретное, серьезное заявление об изменении моделей публикации тем, вам потребуется более строгий и систематический источник базы данных (такой как Web of Knowledge, Scopus и т. д.) и по крайней мере двухлетний лаг, чтобы убедиться, что все данные полные.

Большое спасибо (+1). Я согласен с вами по поводу 2-летнего отставания и во многом из того, что вы сказали. Вы уверены, что Google Scholar создает свой индекс создания так же, как и обычный поиск Google? Было бы неплохо иметь ссылку на что-то, что обсуждает это. У меня сложилось впечатление, что они объединили результаты, о которых сообщают сами журналы и авторы, с некоторыми специальными/другими парсерами/коннекторами данных, созданными для сайтов журналов. Хотя это было только мое восприятие, так что я вполне могу ошибаться. В любом случае, лаг в 2 года — это хорошая идея. Откуда мы знаем, что WoK или Scopus лучше?
@ Hack-R, как метааналитик, я бы посоветовал быть осторожным с Google Scholar, особенно в отношении его ограничений (без подстановочных знаков, ограничений на количество символов в поиске). По моему опыту, у WoK гораздо больше возможностей. Вам следует проверить опубликованный метаанализ в вашей области и отметить, где они проводили систематический поиск.
@Emilie Спасибо и вам; это полезно. Основываясь на вашей рекомендации и той, что в этом ответе, сегодня я напишу для нее парсер данных.
@Hack-R, насчет того, что WoK или Scopus лучше, мне нечего вам цитировать, но у меня есть коллеги, которые занимаются библиометрией, и для них это даже не вопрос. Несмотря на то, что команды Clarivate (WoK) и Elsevier (Scopus) уже сделали большую очистку от того, что им дают журналы, библиометристам все еще предстоит многое сделать самостоятельно. Напротив, Google Scholar безнадежно непригоден для точных наукометрических целей, перефразируя одного из моих коллег-библиометристов. Это отлично подходит для общего поиска, но не очень полезно для научной библиометрии.
@ Hack-R, нет, я почти уверен, что Google Scholar использует специальные пауки, отличные от тех, что используются в обычном веб-поиске Google; однако это все технологии Google. (Обратите внимание, что я сказал «пауки», а не «скребки».) Я редактирую свой ответ, чтобы сделать его более явным.

Вам может быть полезен этот ресурс с открытым доступом: Какие академические поисковые системы подходят для систематических обзоров или метаанализов? Оценка поисковых качеств Google Scholar, PubMed и 26 других ресурсов ( http://dx.doi.org/10.1002/jrsm.1378 )