SEO

20 септември 2017

Какво е краулинг и как да управляваме ботовете

6283

Показването на резултатите за търсената фраза за части от секундата е само върхът на айсберга. В «черната кутия» на търсачките са сканирани и добавени в специална база данни милиарди страници, които се подбират за показване след отчитане на множество фактори.

Страницата с резултати от търсене се формира вследствие на извършване на три процеса:

сканиране;
индексиране;
показване на резултати (състои се от търсене в индекса и класиране на страниците).

Как работи сканирането (краулингът) на сайта?

Накратко, краулинг (сканиране, crawling) е процес на откриване и събиране на нови и обновени страници от бота на търсачката (краулера), които добавя в индекса на системите за търсене. Сканирането е началният етап, данните се събират само за бъдеща вътрешна обработка (създаване на индекс) и не се показват в резултатите от търсенето. Сканираната страница невинаги е индексирана.

Ботът на търсачката (той е crawler, краулер, паяк, бот) е програма за събиране на съдържание в интернет. Краулерът се състои от множество сървъри, обхождащи и избиращи страници значително по-бързо, отколкото потребител с помощта на неговия уеб-браузер. Фактически краулерът може да обходи хиляди различни страници едновременно.

Какво още прави ботът-краулер:

Постоянно проверява и сравнява списък с URL-адреси за сканиране с URL-адреси, които вече се намират в индекса на Google.
Премахва дубликатите от списъка, за да предотврати повторно изтегляне на една и съща страница.
Добавя за повторно индексиране променените страници, за получаване на актуални резултати.

При сканирането паяците преглеждат страниците и извършват преход по съдържащите се на тях препратки по същия начин, както и обикновените потребители. При това различният контент се изследва от ботовете с различна последователност. Това позволява едновременно да се обработват огромни масиви от данни.

Например, в Google съществуват ботове за обработка на различен тип контент:

Googlebot — основен бот на търсачката;
Googlebot News — бот за сканиране на новини;
Googlebot Images — бот за сканиране на изображения;
Googlebot Video — бот за сканиране на видео.

Именно с robots.txt започва процесът на сканиране на сайта — краулерът опитва да намери ограниченията за достъп до контента и връзките от картата на сайта (Sitemap). В картата на сайта трябва да се намират препратките към важните страници на сайта. В някои случаи ботът на търсачката може да игнорира този документ и страниците да попаднат в индекса, затова конфиденциалната информация трябва да се заключва с парола направо на сървъра.

Как краулерът вижда сайта

Ако искате да проверите как ботът-краулер вижда страницата на сайта, изключете обработката на JavaScript при включен дебъгер в браузера. Да вземем например Google Chrome:

Натискаме F12 — викаме прозореца на дебъгера, отиваме в настройки.

Изключваме JavaScript и презареждаме страницата.

Ако в самата страница се е съхранила основната информация, заедно с линковете към другите страници от сайта и изглежда приблизително по същия начин, както и с включен JavaScript, проблеми при сканирането не би трябвало да има.

Втори начин — използване на Google инструмента «Извличане като Google» в Search Console.

Ако краулерът вижда Вашата страница така както и Вие, проблем със сканирането няма.

Трети метод — специален софтуер. Например https://pr-cy.ru/simulator/ показва програмния код, който ботът вижда на страницата, а Netpeak Spider показва над 50 различни видове грешки, намерени при сканиране и ги подрежда по степен на важност.

Ако страницата не се показва така, както сте очаквали, е добре да проверите, достъпна ли е тя за сканиране: не е ли блокирана в robots.txt, във файла .htaccess.

Проблеми със сканирането могат да възникват, ако сайтът е създаден с помощта на технологии Javascript и Ajax, тъй като търсачките засега трудно сканират такъв контент.

Как да управляваме сканирането на страници

Стартиране и оптимизация на сканирането на сайта

Съществуват няколко метода да се покани паяка на сайта:

Разрешете сканирането на сайта, ако е бил заключен с парола на сървъра, и предайте информация за URL c помощта на HTTP-заглавие «referer» при преход към друг ресурс.
Поставете препратка към Вашия сайт на друг ресурс, например в социалните мрежи.
Регистрирайте го в панелите за уебмастери на Google и Яндекс.
Съобщете за сайта на търсачката направо през профила на уебмастера в търсачката:

Google;

Използвайте вътрешни препратки на страниците за подобряване на навигацията и сканирането на ресурса, например, “хлебни трохички”.
Създайте карта на сайта с нужния списък от страници и добавете линк към картата в robots.txt.

Забрана за сканиране на сайта

За да ограничите сканирането на контента, трябва да защитите папките на сървъра с парола. Това е лесен и ефективен начин за защита на конфиденциална информация от ботове.
Сложете ограничения в robots.txt.
Използвайте метатаг <meta name=”robots”/>. С помощта на директивата “nofollow” добре е да се забрани прехода чрез линкове на други страници.
Използвайте HTTP-заглавие X-Robots tag. Забраната за сканиране от страна на сървъра става с помощта на HTTP заглавие X-Robots-tag: nofollow. Директиви, които се прилагат за robots.txt, са подходящи за X-Robots tag.

Повече информация за използване на http-заглавия има в справочника за разработчици.

Управляване на честотата на сканиране на сайта

Googlebot използва алгоритмичен процес за да определи какви сайтове да сканира, колко често и колко страници да извлича. Уебмастерът може да даде спомагателна информация на краулера с помощта на файла sitemap, тоест с помощта на атрибути:

<lastmod> — дата на последната промяна на файла;
<changefreq> — вероятна честота на промяна на страниците;
<priority> — приоритетност.

За съжаление, стойностите на тези атрибути се разглеждат от ботовете като подсказване, а не като команда, затова в Google Search Console съществува инструмент за ръчно изпращане на заявка за сканиране.

Изводи

Различният контент се обработва от ботовете с различна последователност. Това позволява едновременно да се обработват огромни масиви от данни.
За подобряване на процеса на сканиране, трябва да се създават карти на сайтове и да се прави вътрешно линкване — за да може ботът да намери всички важни страници.
Заключването на информация срещу индексиране е най-добре да се прави с помощта на метатага <meta name="robots" content="nofollow"/> или http-заглавие X-Robot tag, тъй като файлът robots.txt съдържа само препоръки за сканиране, а не директни команди за действие.

Четете още за инструментите за парсинг на сайта, необходими на SEO-специалиста във всекидневната работа.

Yulia Trots

Други статии на автора

(5 от 5 въз основа на 6 оценки)

Открихте грешка? Маркирайте я и натиснете Ctrl + Enter.

Препоръчани нови статии

Как един транзакционен имейл донесе средно 8% допълнителни приходи: case study за Revita.bg

Как да подготвите уебсайта си за бъдещето на AI: въведение в llm.txt и AI meta таговете

5 стъпки за създаване на впечатляващи банери с помощта на Canva и ChatGPT