Блог про интернет-маркетинг для бизнеса

SEO

Раскрытие механизмов Panda: что на самом деле запатентовал Google

39
12
0
24
В нашей непостоянной рубрике SEO-среда мы поговорим о том, как Google Panda ищет страницы с низкокачественным контентом. Тема особенно актуальная, учитывая свежий апдейт. Для раскрытия различных шаблонов алгоритма Билл Славский (Bill Slawski) из Go Fish Digital провел исследование соответствующего патента Google. Публикуем вольный перевод его статьи.

Раскрытие механизмов Panda: что на самом деле запатентовал Google.

Давайте посмотрим, что на самом деле запатентовал Google и какие механизмы использует Panda для выявления низкокачественного контента. Оригинальный патент на Панду назывался «Алгоритм обработки веб-страниц в зависимости от качества контента». В описании патента указано, что алгоритм (в патенте его называют «алгоритмом 260») считает низкокачественными страницы на сайтах с припаркованными доменами, страницы контентных и ссылочных ферм.

Алгоритм 260 создан для определения качества контента запрашиваемой веб-страницы: находится ли запрашиваемая веб-страница на сайте с «припаркованным» доменом, является ли она страницей «контентных ферм» или «ссылочных ферм». В алгоритме предусмотрена возможность отображения строки предупреждения (или другого графического компонента), если качество контента запрашиваемой веб-страницы ниже определенного порога. Алгоритм 260 включает варианты блокировки перехода на запрашиваемую веб-страницу или переход к одному или нескольким альтернативным сайтам, имеющим отношение к запросу пользователя. Алгоритм 260 дополнительно отслеживает взаимодействий пользователя с графическим компонентом и может учитывать переходы к запрашиваемой странице или альтернативному сайту.

Google собирался предупреждать пользователей интернета о некачественном контенте, перед тем как направить их на искомый сайт. Ничего не напоминает? Да, да! В июле Google анонсировал, что будет предоставлять такие графические предупреждения для мобильных версий сайтов, если обнаружит низкокачественный контент. Можно себе представить, как владелец сайта будет разочарован, увидев такое предупреждение. А оно может появиться, даже если произошел простой конфликт приложений. В качестве примера можно вспомнить мобильные устройства Apple, которые плохо взаимодействуют с Flash. Вопрос в другом: зачем изначально ранжировать в топе выдачи страницы на сайтах с припаркованными доменами, а также контентные или ссылочные фермы? У многих бизнес может рухнуть только из-за того, что сайт висит в топе вместе с предупреждением о его «низкокачественном контенте». У многих бизнес может рухнуть только из-за того, что сайт висит в топе вместе с предупреждением о его «низкокачественном контенте».  Иллюстрация Девина Холмса (@DevinGoFish) Если бы такие предупреждения были внедрены в обычном вебе, у многих пользователей появился бы хороший повод написать иск на Google. Хорошо, что разработчики Panda не воспользовались этой частью запатентованной технологии.

Кое-что о высококачественных механизмах алгоритма Google

В одной из статей, посвященной работе Google Panda, Амит Сингал из Google выделил 23 требования к качеству контента. Говорят, если их соблюдать, можно обрести счастье. Авторы патента подробно останавливаются на примерах низкокачественных веб-страниц, таких как:

  • страницы на сайтах с припаркованными доменами;
  • контент-фермы;
  • линк-фермы;
  • шаблонные страницы;
  • страницы, которые не содержат полезного контента либо содержат большое количество рекламы и т. д.

Согласно патенту, уровень качества контента рассчитывается отдельно для каждой страницы на сайте, исходя из шаблонов известных низкокачественных страниц. Для каждого из элементов, обнаруженных на странице, уровень качества контента может быть уменьшен на основании присутствия этого конкретного элемента в шаблоне, а каждый из шаблонов может иметь разный вес. Представим некоторые простые шаблоны, которые могут быть применены для выявления низкокачественных страниц. Последние могут иметь один или несколько симптомов:

  • ссылки на известную рекламную сеть;
  • страницы на сайтах с припаркованными доменами;
  • контент от провайдера.

Один из этих симптомов может быть представлен в форме IP адреса, к которому относится целевой хост, сервера доменных имен, на который ссылается целевой домен, атрибута href тега <а> или атрибута src тега <іmg> на целевой странице. Может применяться довольно простой шаблон: веб-страница на том же IP, на котором располагаются только паркованные страницы одного и того же регистратора доменных имен, может с высокой вероятностью считаться паркованной. Если веб-страница ассоциируется с DNS-сервером, который был скомпрометирован связью с веб-страницами с малым количеством контента (по сравнению с объемом рекламы) или без него, то есть большая вероятность, что эта страница также будет содержать гораздо меньшее количество контента, чем рекламы. Так что это тоже может быть очень эффективным методом. Некоторые перечисленные в патенте методы не кажутся столь же полезными и информативными. Например, разработчики Панды считают, что веб-страница, содержащая опечатку в названии добросовестного доменного имени, скорее всего, является низкокачественной. Точно так же низкокачественной будет признана страница с минимальным количеством текста (или вовсе без него). Кое-что о высококачественных механизмах алгоритма Google. Иллюстрация Девина Холмса (@DevinGoFish) Правда, у Панды есть и простые, но эффективные шаблоны:

…страница с 99% ссылок и 1% текста скореe является страницей плохого качества, чем страница у которой текста и ссылок 50/50…

Другой шаблон включает в себя критерии по функциональности и «отзывчивости» веб-страницы:

Определение полной работоспособности сайта может базироваться на HTTP коде ответа сервера, информации, передаваемой от сервера DNS (например, записи имен хостов), и/или отсутствии ответа по истечении времени. В качестве примера: кроме HTTP ответа сервера 200 (OK) любой другой ответ (например, «404 Not Found») будет свидетельствовать, что веб-сайт функционирует неполноценно. DNS-сервер, который не возвращает правильные записи имен хоста, означает, что этот сайт функционирует некорректно. Аналогично, отсутствие ответа в течение определенного времени от IP-адреса означает, что веб-сайт не является полноценно функционирующим.

Что касается пользовательских данных, то иногда они также могут сыграть свою роль. Процитируем патент:

Рассмотренная страница может быть предложена на предмет оценки качества контента на основе времени, проведенного на этой странице. Например, пользователь попадает на страницу и покидает ее сразу же. Время посещения может определять значение качества этой страницы, которое будет пересмотрено и понижено.

Примеры некоторых шаблонов алгоритма для сайта Ecommerce

Захочет ли пользователь оставить данные своей кредитной карты на сайте Ecommerce? Ответ на этот вопрос — один из важных критериев качества сайта. Чтобы не оставалось сомнений в высоком качестве сайта, следует ответить на ряд сопутствующих вопросов:

  • Есть ли на страницах ссылка на вашу политику конфиденциальности?
  • Есть ли на странице ссылка на «Условия обслуживания»?
  • Существует ли страница или раздел «обслуживание клиентов» и ссылаются ли на неё другие страницы?
  • Корректно ли работают формы заказа на сайте? Выдают ли они 404 или 500 ошибки?
  • Если заказ сделан, отображается ли благодарственная или подтверждающая покупку страница?
  • Используются ли на сайте протокол HTTPS при отправке данных вообще или конфиденциальных данных (например, номер кредитной карты)?

Если внимательно изучить критерии качества сайта по статье Амита Сингала, то можно догадаться и о существовании других шаблонов. Найдете какие-нибудь — пишите в комментарии: у SEO-оптимизаторов глаз-то точно более наметанный, чем у инженеров Google.


Благодарим за помощь в подготовке поста SEO-специалистов Netpeak Алексея Данилина и Михаила Карбоинова. О том, как команда Netpeak успешно справилась с выведением сайта из-под фильтра Google Panda, читайте в нашем кейсе.

Комментарии (4)

  1. 0
    2 года назад

    У моего сайта коммерческой тематики резко обвалился трафик с Google с 22 сентября, то есть как раз с выходом новой Панды. Несколько дней до этого сайт был часто недоступен из-за проблем на хостинге. Даже в WMT было предупреждение, что робот не смог получить доступ к некоторым страницам карты сайта. Сейчас проблем с хостингом нет, предупреждения давно исчезли, но трафик не возвращается. Позиции в региональной выдаче с ТОП 3-10 ушли очень далеко. Покупных ссылок на сайт нет.

    Можно ли считать, что это Панда по функциональности и «отзывчивости» веб-страницы? Если да, то когда можно ожидать ослабления фильтра, или до следующего апдейта?

    • 0
      Олег К.
      2 года назад

      Апдейты Панды происходят постоянно. Из них анонсируются только самые крупные. Потому ждать следующего апдейта точно не стоит - нужно выяснить причину падения и устранить её.

      Не совсем ясно, что значит "Панда по функциональности и «отзывчивости» веб-страницы". Если вы имеете ввиду, что не хватает какого-то функционала на странице и у неё проблемы с доступностью, то проблема может быть не в Панде.

      Для начала проверьте все технические моменты. Потом проверьте страницы на переспам, скрытый контент. Более точный совет дать сложно - слишком много вопросов возникает по вашему комментарию.

      • 0
        Alex Danilin
        2 года назад

        "по функциональности и «отзывчивости»" - это я взял из текста статьи, там где:

        "Определение полной работоспособности сайта может базироваться на HTTP коде ответа сервера, информации, передаваемой от сервера DNS (например, записи имен хостов), и/или отсутствии ответа по истечении времени. В качестве примера: кроме HTTP ответа сервера 200 (OK) любой другой ответ (например, «404 Not Found») будет свидетельствовать, что веб-сайт функционирует неполноценно."

        Думаю как раз в этом основная причина, так как сайт часами не работал, когда заходил бот Гугла. Сейчас все в порядке, но позиции не возвращаются. Скрытого контента и переспама нет. Правда есть страницы, где почти нет контента, только галерея фото (типа, портфолио). Хотя их не так много, но тоже как-то могло повлиять.

Чтобы оставить комментарий, необходимо авторизироваться

Подписаться

на самую полезную рассылку по интернет-маркетингу

Самое

обсуждаемое популярное читаемое