Блог про интернет-маркетинг для бизнеса

SEO

Как поисковые системы индексируют сайт

37
0
0

Перед показом страницы в выдаче её основательно обрабатывают роботы поисковых систем. Вначале роботы сканируют страницу, затем вносят контент в индекс и предоставляют результаты в выдаче. Мы уже детально раскрыли процесс сканирования страниц, а сегодня поговорим об индексировании.

Индексирование — объединение и систематизация всей собранной на этапе сканирования информации о страницах с помощью создания специальной базы, индекса.

Не все просканированные страницы попадают в индекс. При сканировании робот вносит в свою базу все страницы, которые может обнаружить, но в индекс войдут только те, которые робот сочтет полезными для пользователя.

Также не стоит путать индексирование с ранжированием. На данном этапе ранг документу не присваивается, так как база постоянно пополняется новыми страницами и определить релевантность документа однозначно нельзя — через секунду может появится более релевантная страница. Поэтому ранг странице присваивается непосредственно в момент поиска.

Как формируется индекс?

Индекс содержит данные о словах на странице, о их местоположении, данные из основных тегов и атрибутов, например, тегов title и атрибутов alt. Построив индекс, роботы поисковых систем легко проводят поиск нужных документов.

Большинство роботов используют «инвертированный индекс» — для каждого термина создается список документов, которые содержат данный запрос.

Например:

Термин

Документ

Термин 1

Документ 1, Документ 3, Документ 5, Документ 7

Термин 1

Документ 3, Документ 5, Документ 4

Термин 1

Документ 3, Документ 6

Если посмотреть на создание инвертированного индекса глазами робота, то выглядит это примерно так:

  1. Конверсия в чистый текст — робот удаляет нетекстовые элементы (разметка, графика).
  2. Токенизация — робот создает выборку слов для выделения лексем (семантических единиц для обработки).
  3. Лингвистическая обработка лексем. Собранные лексемы всех слов со всех текстов упорядочиваются по алфавиту и для каждой из них добавляется номер вхождения и информация о номере страницы, откуда лексема была взята.
  4. Собственно составление индекса.

Сама запись в индексе выглядит примерно так, но для экономии места роботы могут усложнять ее структуру:

Лексема / номер страницы + номер вхождения / номер страницы + номер вхождения / номер страницы + номер вхождения /

Как управлять индексированием?

Как стимулировать роботов внести страницы в индекс:

1. Открыть закрытые для индексирования страницы.

2. Проследить, чтобы страницы просканировались, добавляя ссылки для сканирования в очередь с помощью вебмастера. Также можно использовать «ловцов ботов» — программы, основная задача которых предоставлять поисковым роботам ссылки на важные страницы сайта.

3. Размещать релевантный контент, метатеги, оптимизировать изображения, следить, чтобы рекламные блоки занимали максимум 30% первого экрана сайта.

Как ограничить доступ роботов к индексированию контента:

1. Добавить специальный метатег в верхней части HTML-страниц: <meta name="robots" content="noindex" />.

2. Добавить специальный HTTP-заголовок: X-Robots-Tag: noindex.

Как проверить, попала ли страница в индекс?

1. Вручную, через строку поиска.

1.2. С помощью оператора поиска site:domen.com проверить индексацию всего сайта:

проверить индексацию всего сайта

1.3. С помощью оператора site:domen.com/page1, где domen.com/page1 — url проверяемой страницы:

С помощью оператора

1.4. С помощью оператора поиска cache:domen.com/page1, где domen.com/page1 — url проверяемой страницы :

С помощью оператора поиска

2. С помощью вебмастера Google:

С помощью вебмастера Google

3. С помощью плагина RDS Bar:

С помощью плагина RDS Bar

Больше интересных фишек для проверки наличия страницы в индексе, включая специальную таблицу для массовой проверки url-адресов.

Почему страница выпадает из индекса?

1. Установлен запрет на сканирование в robots.txt, есть метатег <meta name="robots" content="noindex" />. Если страницы уже попали в индекс, при повторном сканировании робот увидит запрет и страницы выйдут из базы индексируемых.

2. На странице существует атрибут rel="canonical" для другой страницы сайта.

3. Ответ сервера содержит HTTP-статус 4XX или 5XX, это препятствует обработке страницы роботом.

4. Сайт находится под фильтрами поисковых систем (из-за неуникального контента, манипулирования ссылочными факторами и так далее).

5. На странице присутствуют дубли контента.

6. Страница перенаправляет робота — отображается 301 код ответа сервера.

Выводы

  1. Во время индексирования роботы поисковых систем систематизируют собранные в процессе сканирования данные о страницах сайта.
  2. SEO-специалист может влиять на индексирование контента сайта (но нет стопроцентной гарантии, что роботы поисковых систем к нему прислушаются).
  3. Сканирование страницы не является гарантией того, что контент будет проиндексирован, а индексация контента не означает, что он будет ранжироваться.

Остались вопросы? Пишите в комментариях, или ищите ответы в других выпусках рубрики «Азбука SEO».

Обнаружили ошибку? Выделите ее и нажмите Ctrl + Enter.

Комментарии (6)

  1. 0
    12 дней назад

    Дамы и господа!    Ищу подрядчика(ов) по комплексному SEO  для своих сайтов.

    Есть опыт работы с SEO цыганами.   

    Кому интересно долгое , выгодное сотрудничество , пишите  [email protected]

    Есть вообще девственный сайт. Все сайты строительной тематики.

  2. 0
    месяц назад
    А как узнать по каким страницам конкретно ходит бот? С какой периодичностью, в какое время? Какие боты заходят на сайт? Как узнать куда бот вообще не заходит? Было 2000 страниц в индексе гугла, стало 1966, какие страницы конкретно выпали?
    • 0
      Definitely Not
      месяц назад

      1. А как узнать по каким страницам конкретно ходит бот?
      Логи сервера.
      Выбираете user-agent нужной вам ПС (Googlebot, Yandex и т.д.) и смотрите на посещенные url.
      2. 
      С какой периодичностью, в какое время?
      Логи сервера.
      В логах сохраняется дата и время посещения.
      3. 
      Какие боты заходят на сайт?
      Логи сервера.
      Выгружаете всех user-agent и сопоставляете с списками известных user-agent ПС и сервисов, которые краулят сайты (пример: Ahrefs).
      4. 
      Как узнать куда бот вообще не заходит?
      Логи сервера.
      Фильтруете по user-agent + url. Выгружаете и сопоставляете со списком всех ваших url.
      5. 
      Было 2000 страниц в индексе гугла, стало 1966, какие страницы конкретно выпали?
      Инструменты мониторинга (например: https://topvisor.ru/support/audit/indexed/).

Чтобы оставить комментарий, необходимо авторизироваться

Подписаться

на самую полезную рассылку по интернет-маркетингу

Самое

обсуждаемое популярное читаемое