Каков эффект лигатур в Интернете с точки зрения SEO

Все дизайнеры любят лигатуры, но ванильная веб-типографика просто отстой. Я слышал о smartypants , которые решают многие из этих проблем, принося сексуальные цитаты, великолепные амперсанды и все такое. Это просто идеально, визуально.

Но я беспокоюсь о SEO. Скажем, на веб-странице слово finallyстановится finally. Способны ли поисковые системы индексировать это слово и возвращать страницу при поиске finally(без лигатуры)?

Ответы (2)

Резюме

Если ваш сервер выдает страницы с лигатурами (как это делает smartypants), поисковые системы непоследовательны. В настоящее время Bing неправильно индексирует лигатуры. Я бы сказал, в целом, это напрашивается на неприятности. Поскольку поисковые системы меняются, ниже описан метод, который можно использовать для проверки интересующих вас поисковых систем к индексным лигатурам .

Если ваш сервер выдает страницы с обычным текстом, то Javascript превращает их в лигатуры, это нормально . Поисковые системы не применяют изменения содержимого Javascript перед индексацией страниц (хотя утверждается, что есть несколько исключений, таких как загрузка комментариев Facebook ). Поскольку существует стандартный отраслевой метод предоставления динамического содержания поисковым системам, и этот метод одобрен Google , было бы большим сюрпризом, если бы это изменилось в будущем. Google рекомендует просматривать ваш сайт с помощью обычного текстового браузера (например, они предлагают Lynx ), чтобы увидеть ваш контент так, как его видит поисковая система.


Подробнее о первом случае (страницы с лигатурами в коде)...


Теоретически

... это не должно иметь никакого значения для хорошо настроенной поисковой системы.

Во-первых, это помогает понять разницу между глифами и символами . Лигатура — это один глиф, обозначающий два символа f i. То, как программное обеспечение обрабатывает его, зависит от этого программного обеспечения и зависит от контекста и поставленной задачи - вы увидите из примеров в этом связанном вопросе, что когда вы копируете и вставляете глифы, то, что вставляется, будет меняться: иногда глиф вставляется, иногда глиф рассматривается как связанные с ним символы и fвставляется i.

Любой хорошо сделанный автоматический текстовый процессор, который интересуется семантикой текста (поисковые системы, проверка орфографии, программы чтения с экрана...) , должен рассматривать глиф как идентичный символам, которые он обозначает, и должен рассматривать finallyкак идентичный finally, потому что это текстовое значение. значение глифа.

На практике

Не все сделано качественно...

Вот простой способ протестировать поисковые системы. Вот строка текста из этого другого вопроса:

Copy the ligature fi from Illustrator to this input box

Если мы возьмем версию этого предложения без лигатур и найдем ее в двойных кавычках:

(поиск на "Copy the ligature fi from Illustrator to this input box"):

  1. ... если поисковая система рассматривает лигатурные глифы как совпадения с символами, которые они представляют, она найдет эту страницу (и, когда она будет проиндексирована, эту)
  2. ... если поисковая система рассматривает глифы лигатуры как отличные от символов, которые они представляют, она ничего не найдет, пока эта страница не будет проиндексирована, затем она найдет только эту страницу, а поиск с версией лигатуры найдет эту страницу.
  3. ...если поисковик офигеет при виде глифов типа лигатур совсем, то ничего не найдет, даже этой страницы, и поиск с версией лигатуры тоже ничего не найдет

Некоторые быстрые результаты для 5 лучших поисковых систем мира (ссылки на результаты поиска):

  • Google: Хорошо (тип 1) . (несмотря на комментарий ниже, он отлично справляется как с форматированием объектов Unicode, так и с HTML)
  • Bing: Ошибка ( тип 2 ).
  • Yahoo: Fail ( тип 2 ) (оказывается, что Yahoo работает на Bing)
  • Яндекс (русский): Хорошо (тип 1)
  • Baidu (китайский): эээ, кажется, страницы graphicdesign.stackexchange.com вообще не появляются в результатах поиска Baidu... может быть, нас там забанили...?!
Нет, я только что отредактировал свой ответ, посмотрите исходный код по этой ссылке. Это все юникод, например ff который алгоритм Google игнорирует.
На самом деле Google соответствует им: посмотрите, что он выделяет здесь (лигатуры) и здесь (обычный текст) - оба соответствуют обоим. Но я согласен с вашим советом...
... (эти URL-адреса были огромными, нужно 2 комментария), похоже, это вызывает проблемы. Если bing не соответствует лигатурам, другие важные сервисы тоже не будут.
Посмотрите на URL-адрес первой ссылки и исходный код, которому он соответствует: вы увидите, что у Google нет (в настоящее время...) проблем с форматированием юникода, и он индексирует лигатуры юникода, лигатуры сущностей HTML и обычные отдельные пары символов. вроде f iкак равноценно без проблем. Google , кажется, справляется нормально, но несоответствие между разными поисковыми системами (по крайней мере, в моей книге) нарушает условия сделки.

Основываясь на одном живом примере, который я видел, я был бы крайне обеспокоен широким использованием этого, потому что это повлияет на SEO. Специальные символы анализируются как Unicode, поэтому алгоритм Google не будет их читать. Это должно быть хорошо для щадящего использования, но я бы не стал сходить с ума по этому поводу или использовать его для чего-то важного, например, для заголовка.

Вот ссылка на живой пример, на который я смотрел: http://pages.cs.wisc.edu/~wolfson/ligatures.html

Я не думаю, что это будут те буквы в исходном коде. Похоже, что smartypants — это серверная вещь, которая анализирует ввод и сохраняет глифы в тексте, хранящемся в базе данных, и, следовательно, также в исходном коде. Тем не менее, я думаю, что это будет хорошо для SEO в любом случае.
На самом деле я проверял элемент, но не просматривал исходный код. Я отредактирую свой ответ.
Я определенно согласен с «крайне обеспокоен», поддержка Unicode, как известно, непоследовательна. Но для записи Google может (в настоящее время...) индексировать юникод и (в настоящее время...) сопоставляет эти лигатуры юникода на этой странице с поиском и l i f iт . д. (посмотрите, как он выделяет их жирным шрифтом в предварительном просмотре). Но я определенно не хотел бы когда-либо полагаться на это...
Что, если бы лигатуры были размещены через javascript? Это не изменит HTML-документ и, следовательно, будет полностью невидимым для поисковых систем? Было бы это решением?
Да, это должно быть хорошо — поисковые системы обычно индексируют исходный документ без применения javascript. Вы, вероятно, захотите проверить, не замедляет ли это значительно время загрузки страницы и не вызывает резкого толчка для зрителя, когда ванильные символы заменяются лигатурами во время загрузки страницы.