Блог про интернет-маркетинг для бизнеса

SEO

Теория вероятностей на страже чистоты SERP

17
16
0
1

"Случайности не случайны".

Мастер Шифу, "Кунг-фу Панда"

Одной из главных проблем современных поисковых систем является поисковый спам: как ссылочный, так и спам на основе контента. Разнообразные синонимайзеры, рандомизаторы и генераторы дорвеев постоянно осложняют жизнь поисковым системам. В этом непрекращающемся противостоянии последние прибегают к помощи науки, в частности, теории вероятностей, которая изучает закономерности случайных величин, их свойства и операции над ними.

Еще в 2006 году инженеры поисковой системы MSN Search (прошлое название Bing) опубликовали научную работу, в которой тестировали различные техники определения неестественности текста на основе статистических методов и с использованием тестовой выборки, состоящей из десятков тысяч документов. Описание их работы заслуживает отдельного поста, поэтому мы ограничимся общими тезисами и некоторыми выводами из этой статьи:

— Самые неспамные домены: edu, org, uk. Самые спамные - biz, us. — Языки, свободные от спама: китайский, японский. Язык, где спама обнаружено больше всего - французский. — Средняя длина естественной веб-страницы - от 300 до 1000 слов. — Средняя длина заголовка для естественной страницы - 5 слов. — Средняя длина слова - от 4 до 6 букв. — Средний коэффициент сжатия естественного текста составляет 2 - 2.5. Подобные метрики просто вычислить, однако несоответствие им еще не говорит стопроцентно о том, что та или иная страница является спамом. Но они дают повод поисковому алгоритму "задуматься". :) Например, на рисунке ниже можно видеть распределение тестовой выборки по степени сжимаемости текста и вероятность появления спама в зависимости от коэффициента сжатия:

Начиная с коэффициента 4.5. вероятность спама стремится к единице. В этом посте мы более подробно рассмотрим два более сложных метода определения поискового спама, которыми пользуются поисковые системы. Это средняя вероятность появления n-грамм в тексте и распределение биграмм в документе. Последний способ используется отечественной компанией Яндекс.

Итак, как это работает. n-грамой будем считать последовательность подряд идущих n слов. Для наглядности возьмём n=3 и будем называть n-граммы триграммами. Предположим также, что триграммы не пересекаются, это позволит проще посчитать вероятность. Соберём все триграммы из выборки и посчитаем вероятность каждой по простой формуле:

P(i) = кол-во появлений i-ой триграммы / общее число триграмм в документе

После подсчета этих вероятностей, для каждого документа можно вычислить индекс, который будет обозначать насколько часто в документе встречаются редкие триграммы или частые триграммы. Если вы еще не устали от формул, то вот очередная для расчёта подобного индекса. :)

(суммируем логарифмы вероятностей триграмм w(i+1)...w(i+n) по всем k триграммам в документе)

Подобная техника очень хорошо работает для тех страниц, которые сгенерированы с использованием словаря, выбор слов из которого делается в соответствии с их частотностью для языка. Метод будет работать еще лучше, если считать вероятности, исключив независимость.

Второй метод, представленный Яндексом, заключается в построении матрицы, в которой на пересечении строк и столбцов стоит частота встречаемости соответствующей биграммы в выборке из 41 тысячи заведомо естественных документов. После этого останется сравнивать частоты в проверяемом документе с эталонной матрицей и с помощью алгоритма машинного обучения получить метод определения спама, имеющий "хорошие" характеристики по ошибкам первого и второго типа. Более подробно об этом методе можно узнать по этой ссылке.

Надеюсь, что этот пост пролил немного света на принципы работы ранжирующих алгоритмов. Выявление спама - это "армреслинг" между поисковыми системами и владельцами сайтов. Очевидно, что анти-спам методы будут совершенствоваться с развитием спам-технологий, и задача инженеров поисковых систем состоит не в полной победе над спамом, а в нахождении таких способов его определения, которые сделали бы «эффективный» спам невыгодным в экономическом смысле.

Пост написан по мотивам моей научной работы на кафедре теории веростностей и мат. статистики Самарского Государственного Университета.

Обнаружили ошибку? Выделите ее и нажмите Ctrl + Enter.

Комментарии (3)

  1. 0
    5 лет назад

    Такая инфа была не только у Дмитрия. Ее уже ранее озвучивал Девака, Сливинский и многие другие.
    Только вот Дима докопался до этого еще не студенческой скамье. Молодец! Полезно, спасибо!

  2. 0
    5 лет назад

    Здорово. Только об этом обо всем уже рассказывал Миша Сливинский, в т.ч. и на мегаиндексе.

    • 0
      Роман
      5 лет назад

      Роман, ответ на ваше замечание кроется в последней строчке поста: "Пост написан по мотивам моей научной работы на кафедре теории веростностей и мат. статистики Самарского Государственного Университета.". И Михаил не первый, кто рассказывает по этой теме, вы же это прекрасно понимаете :)

Чтобы оставить комментарий, необходимо авторизироваться

Подписаться

на самую полезную рассылку по интернет-маркетингу

Самое

обсуждаемое популярное читаемое