Недавно я добавил новую статью на свой личный веб-сайт, и через пару дней она появилась в Google Scholar. На своем веб-сайте все, что я сделал, это написал название статьи вместе с авторами и названием конференции, а затем предоставил ссылку на PDF-файл. Одна только эта информация каким-то образом сообщила Google Scholar, что текст, который я добавил, на самом деле является новой статьей. В Интернете нет другой информации об этой статье, поэтому я знаю, что Google использовал мой веб-сайт только для обновления Google Scholar.
Итак, мне интересно, как Google узнает, что такое бумага, а что просто произвольный текст на моем сайте? Например, если бы я написал только название статьи, без авторов и конференции и без PDF-файла, было бы это все еще обнаружено?
На моем веб-сайте статья указана на веб-странице под названием «Публикации» в списке с множеством других статей, но это довольно специфично для дизайна моего собственного веб-сайта. Мне интересно, имеет ли это какое-то отношение к PDF, на который я дал ссылку. Возможно, он просмотрел PDF-файл и решил, что это документ, и если бы я не добавил PDF-файл, он не определил бы его как документ. Но опять же, форматирование HTML не обязательно указывает, с каким текстом на самом деле связан PDF-файл, даже если это очевидно для человека при просмотре веб-страницы. Или, возможно, Google Scholar просто имеет какой-то ручной поиск, который ищет экземпляры HTML, где есть название известной конференции, известные авторы и PDF-файл поблизости.
(Предупреждение — грядут грубые упрощения — если кто-то, занимающийся поиском информации, хочет добавить технические детали, будьте моим гостем!)
По сути, Google находит все ресурсы (HTML-страницы, изображения, а также документы) в сети одним и тем же способом: периодически пересматривая каждый ресурс, о котором он знает, (повторно) индексируя его, а для HTML-контента отслеживая все ссылки на другие ресурсы (промыть и повторить). Ваша веб-страница, вероятно, связана с веб-сайтом вашего отдела, о котором Google определенно знает, поэтому ваша веб-страница также находится в базе данных Google. Ваша веб-страница ссылается на вашу статью, поэтому Google также узнает о вашей статье в следующий раз, когда сканер проверит вашу страницу. Сколько времени это займет, не определено, но у Google много поисковых роботов, и он довольно хорошо знает, когда перепроверять определенные типы страниц, поэтому обычно это не занимает много времени.
Теперь у Google есть специальные эвристики, позволяющие по-разному обрабатывать разные типы ресурсов. Например, если HTML-страница будет добавлена в базу данных, будут извлечены ключевые слова, будут переходить по ссылкам и т. д., а изображение приведет к совершенно другим действиям. Научные статьи в этом смысле ничем не отличаются — как только Google найдет файл PDF или Word, который «выглядит» как научная статья для автоматизированного процесса, Google сгенерирует метаданные статьи (название, авторы, место проведения, ключевые слова и т. д.). анализируя текст PDF как можно лучше и добавляя его в свою специальную базу данных Google Scholar, и именно тогда документ появляется в вашем профиле.
На собственном веб-сайте Google довольно подробно описан этот процесс. В нем также есть инструкции для авторов, желающих проиндексировать свои статьи в Scholar.
Матемаг
Крис Х
ff524
Джон Кастер
Дэйв Л. Ренфро