Как Google Search узнает, какую статью вы процитировали?

Например, выберите случайную газету, используя поиск Google.

введите описание изображения здесь

Нажмите на ссылку «Процитировано», и вы увидите:

  1. список работ, начиная от диссертации, доклада конференции, доклада arXiv и т. д. и т. д.

  2. опубликовано на различных платформах, таких как academia.edu, arXiv, semanticscholar.org, ieee, nowpublishers...

  3. использование различных стилей цитирования

Мне кажется, что если бы это был автоматизированный процесс, то Google должен был бы отслеживать каждую новую статью, которая была опубликована, и находить список разделов цитирования в каждой статье, находить конкретную статью, которая была процитирована, обновлять страницу цитирования для этой конкретной статьи и повторите для всех ссылок на эту статью.

Но тогда он должен был бы получить доступ к этим документам в первую очередь, а некоторые из них имеют подписку, например, IEEE. Он должен был бы игнорировать стили цитирования, но отслеживать правильную версию той статьи, которая была процитирована (препринт и т. д.).

Действительно ли так Google отслеживает цитирование в ссылке «Цитируется по»? Может ли кто-нибудь, у кого есть инсайдерские знания для публикации, просветить меня относительно того, как Google Search, кажется, может узнавать цитаты между статьями?

Да, это, конечно, автоматизированный процесс. У меня нет информации из первых рук, но мне сказали, что издатели предоставляют Google доступ к библиографическим данным (и трудно понять, как в противном случае Scholar могла получить эту информацию). Большинство издателей размещают ссылки на своих сайтах в дополнение к библиографии в формате PDF, поэтому Google может извлечь их с веб-сайта издателя или из файла PDF.
Учитывая количество денег, которые есть у Google, я думаю, что подписка IEEE — наименьшая из их проблем.
Трудно понять, как в противном случае Scholar мог бы получить эту информацию — они могли бы анализировать ее из библиографий других статей, как это делают люди.
@FedericoPoloni Да, дело в том, есть ли более простой способ выполнить этот процесс. Например, IEEE загружает документы непосредственно в базу данных, принадлежащую Google.

Ответы (1)

Мне кажется, что если бы это был автоматизированный процесс, то Google должен был бы отслеживать каждую новую опубликованную статью.

Да, это именно то, как это делает Google. Они все равно просматривают Интернет и, если находят что-то похожее на научную статью, добавляют ее в свой специальный индекс Google Scholar. Извлекать цитаты из PDF-файлов технически непросто, но это не является большим препятствием, если у вас есть рабочая сила и многолетний опыт поиска информации, как у Google.

Что касается того, как они получают доступ к IEEE и т. д., то это, насколько мне известно, не разглашается. Может быть, они просто платят за институциональный доступ, как и все остальные, может быть, они получают бесплатный доступ от поставщиков контента, чтобы создать свой индекс.