Как Google Scholar находит документы на личных веб-сайтах?

Недавно я добавил новую статью на свой личный веб-сайт, и через пару дней она появилась в Google Scholar. На своем веб-сайте все, что я сделал, это написал название статьи вместе с авторами и названием конференции, а затем предоставил ссылку на PDF-файл. Одна только эта информация каким-то образом сообщила Google Scholar, что текст, который я добавил, на самом деле является новой статьей. В Интернете нет другой информации об этой статье, поэтому я знаю, что Google использовал мой веб-сайт только для обновления Google Scholar.

Итак, мне интересно, как Google узнает, что такое бумага, а что просто произвольный текст на моем сайте? Например, если бы я написал только название статьи, без авторов и конференции и без PDF-файла, было бы это все еще обнаружено?

На моем веб-сайте статья указана на веб-странице под названием «Публикации» в списке с множеством других статей, но это довольно специфично для дизайна моего собственного веб-сайта. Мне интересно, имеет ли это какое-то отношение к PDF, на который я дал ссылку. Возможно, он просмотрел PDF-файл и решил, что это документ, и если бы я не добавил PDF-файл, он не определил бы его как документ. Но опять же, форматирование HTML не обязательно указывает, с каким текстом на самом деле связан PDF-файл, даже если это очевидно для человека при просмотре веб-страницы. Или, возможно, Google Scholar просто имеет какой-то ручной поиск, который ищет экземпляры HTML, где есть название известной конференции, известные авторы и PDF-файл поблизости.

У них есть огромный подвал, полный маленьких эльфов, слоняющихся по сети как сумасшедшие.
Предположительно, у конференции есть страница, и Google знает, что конференция (или журнал) публикует статьи. Если это совпадает с авторами, о которых он знает, может быть, этого достаточно.
См. справочную страницу Google Scholar по включению . PS это не имеет ничего общего с наличием его в "известной конференции" - GS также индексирует неопубликованные материалы. В основном он ищет PDF-файлы с заголовком, списком авторов и разделом ссылок. Например, он продолжает пытаться проиндексировать мои (учебные) слайды, размещенные на моем веб-сайте, потому что в конце у них есть название, автор и список литературы.
Я думаю, это просто отражение того, насколько удивительным (и пугающим) является Google — он случайно просканировал ваш сайт за последние несколько дней и нашел его с помощью того вуду (или эльфов), которое они используют в эти дни.
@ff524: Несколько лет назад (3 или 4) я случайно заметил, что если я погуглил свое имя в Google Scholar, то получил большое количество (более 20) моих учебных материалов (и тестов и коротких тестов), которые я были заархивированы в сообщениях Math Forum, когда вы могли это сделать (похоже, они устранили это около года назад). Я не гуглил это некоторое время, но только сейчас я вижу только два таких элемента («Примеры экзотических групп» и это , а также несколько других, о которых я не знаю (например, «МАТЕМАТИКА. УНИВЕРСАЛЬНЫЙ»).

Ответы (1)

(Предупреждение — грядут грубые упрощения — если кто-то, занимающийся поиском информации, хочет добавить технические детали, будьте моим гостем!)

По сути, Google находит все ресурсы (HTML-страницы, изображения, а также документы) в сети одним и тем же способом: периодически пересматривая каждый ресурс, о котором он знает, (повторно) индексируя его, а для HTML-контента отслеживая все ссылки на другие ресурсы (промыть и повторить). Ваша веб-страница, вероятно, связана с веб-сайтом вашего отдела, о котором Google определенно знает, поэтому ваша веб-страница также находится в базе данных Google. Ваша веб-страница ссылается на вашу статью, поэтому Google также узнает о вашей статье в следующий раз, когда сканер проверит вашу страницу. Сколько времени это займет, не определено, но у Google много поисковых роботов, и он довольно хорошо знает, когда перепроверять определенные типы страниц, поэтому обычно это не занимает много времени.

Теперь у Google есть специальные эвристики, позволяющие по-разному обрабатывать разные типы ресурсов. Например, если HTML-страница будет добавлена ​​в базу данных, будут извлечены ключевые слова, будут переходить по ссылкам и т. д., а изображение приведет к совершенно другим действиям. Научные статьи в этом смысле ничем не отличаются — как только Google найдет файл PDF или Word, который «выглядит» как научная статья для автоматизированного процесса, Google сгенерирует метаданные статьи (название, авторы, место проведения, ключевые слова и т. д.). анализируя текст PDF как можно лучше и добавляя его в свою специальную базу данных Google Scholar, и именно тогда документ появляется в вашем профиле.

На собственном веб-сайте Google довольно подробно описан этот процесс. В нем также есть инструкции для авторов, желающих проиндексировать свои статьи в Scholar.

Я предполагаю, что Google не просто извлекает метаданные PDF, но и анализирует фактическое содержимое PDF.
@Ric Да, я довольно плохо выразился.