Например, выберите случайную газету, используя поиск Google.
Нажмите на ссылку «Процитировано», и вы увидите:
список работ, начиная от диссертации, доклада конференции, доклада arXiv и т. д. и т. д.
опубликовано на различных платформах, таких как academia.edu, arXiv, semanticscholar.org, ieee, nowpublishers...
использование различных стилей цитирования
Мне кажется, что если бы это был автоматизированный процесс, то Google должен был бы отслеживать каждую новую статью, которая была опубликована, и находить список разделов цитирования в каждой статье, находить конкретную статью, которая была процитирована, обновлять страницу цитирования для этой конкретной статьи и повторите для всех ссылок на эту статью.
Но тогда он должен был бы получить доступ к этим документам в первую очередь, а некоторые из них имеют подписку, например, IEEE. Он должен был бы игнорировать стили цитирования, но отслеживать правильную версию той статьи, которая была процитирована (препринт и т. д.).
Действительно ли так Google отслеживает цитирование в ссылке «Цитируется по»? Может ли кто-нибудь, у кого есть инсайдерские знания для публикации, просветить меня относительно того, как Google Search, кажется, может узнавать цитаты между статьями?
Мне кажется, что если бы это был автоматизированный процесс, то Google должен был бы отслеживать каждую новую опубликованную статью.
Да, это именно то, как это делает Google. Они все равно просматривают Интернет и, если находят что-то похожее на научную статью, добавляют ее в свой специальный индекс Google Scholar. Извлекать цитаты из PDF-файлов технически непросто, но это не является большим препятствием, если у вас есть рабочая сила и многолетний опыт поиска информации, как у Google.
Что касается того, как они получают доступ к IEEE и т. д., то это, насколько мне известно, не разглашается. Может быть, они просто платят за институциональный доступ, как и все остальные, может быть, они получают бесплатный доступ от поставщиков контента, чтобы создать свой индекс.
Дэвид Кетчесон
Федерико Полони
ДжеффЭ
Фраиссе