LogАlerts бе създаден, за да анализираме специфични проблеми при обхождането на клиентски уеб сайтове от ботовете на търсачките. В последствие забелязахме потенциала и ползите, които може да донесе и за други проекти, като решихме да го направим общодостъпен и безплатен. Ползва се за специфични цели и e предназначен към потребители с над средно ниво на експертиза в SEO оптимизацията.
Линк към инструмента: https://logalerts.com/
Ключови възможности и функционалности:
- анализ на log файлове (raw access log) с цел извличане на полезна информация за потребителите;
- ползва се за установяване на начина на обхождане на сайтовете от търсещи машини;
- може да бъде много полезен за анализ на пренасочен домейн, като ясно показва генерираните редиректи;
- може да се даде представа за посещенията за сайт, който няма Google Analytics проследяващ код;
- помага за оптимизация на crawling бюджет.
В детайли за инструмента
Основна концепция
Самият log файл представлява списък с всички заявки на отделни файлове и страници, които са генерирани на даден сайт от потребители и ботове. Често тези данни са необработени и за тяхната агрегация е нужен външен софтуер.
Чрез анализ на лог файловете (Raw Access Logs), които сървърът пази за нас, може да извлечем много полезна информация, която в голямата си част няма как да бъде проверена по друг начин.
LogAlerts визуализира данните по лесен за разчитане начин. Така може да се направят специфични анализи, които да разрешат трудни за откриване с друг метод проблеми.
Начин на употреба
Как се сваля log файл от cPanel
cPanel е надеждно работещ и лесен за ползване контролен панел и много от водещите хостинг компании го предпочитат. Разработен е, така че дори и потребители без технически познания да могат лесно да го ползват и да управляват своите уеб проекти.
За да свалите log файл за вашия сайт, чийто хостинг има cPanel, е нужно да преминете през следните стъпки:
Стъпка 1: Намирате бутон Raw Access
Стъпка 2: Избирате от списъка сайта, който желаете да анализирате.
Стъпка 3: Сваляте и разархивирате съдържанието на .gz архива.
Стъпка 4: Променяте разширението на файл на .log
Стъпка 5: Вече можете спокойно да тествате файла с LogAlerts.com.
За удобство на ползващите, предоставяме в тази статия примерен log файл, с който може да изпробвате инструмента, без да изпълнявате горните стъпки: демо файл
Формат на log файла
Форматът на самия файл пряко зависи от конфигурацията на хостинга. Един от най-често използваните формати е Combined формат.
Шаблонът е следния:
"%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-agent}i\""
Като с реални данни може да изглежда по подобен начин:
127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326 "http://www.example.com/start.html" "Mozilla/4.08 [en] (Win98; I ;Nav)"
Където:
127.0.0.1 (%h) - IP адресът, който е генерирал заявката към сървъра.
- (%l) - logname (От identd, ако е налично). В случая тирето означава, че информацията не е налична.
frank (%u) - Userid на човека, извършващ заявката. Определя се, чрез HTTP автентикация и оторизация.
[10/Oct/2000:13:55:36 -0700] (%t) - Дата и час, когато заявката е получена:
[day/month/year:hour:minute:second zone]
day = 2*digit
month = 3*letter
year = 4*digit
hour = 2*digit
minute = 2*digit
second = 2*digit
zone = (`+' | `-') 4*digit
"GET /apache_pb.gif HTTP/1.0" (\"%r\") - Тип на заявката, ползвания HTTP протокол и заявеният ресурс. От тук се взема много полезна информация, която LogAnalyzer обобщава.
200 (%>s) - Статус код или отговор на сървъра
2326 (%b) - Големина на отговора, който е върнат към клиента.
"http://www.example.com/start.html" (\"%{Referer}i\") - Referer HTTP request header
"Mozilla/4.08 [en] (Win98; I ;Nav)" (\"%{User-agent}i\") - User-agent, с който най-общо се дефинира browser, операционна система и тип на устройство.
Combined log на Apache сървърите е всъщност форматът по подразбиране за инструмента. Съществуват възможности за обработка и на други такива, но това става след предварителна заявка.
Както става ясно от примерите, всяко посещение на сайта е записано в определен формат, като ясно се разграничават следните данни:
- какъв тип заявка се изпълнява, например GET или POST;
- IP адрес на достъпващия;
- код на отговора на сървъра;
- User-Agent и дали заявката идва от бот.
LogAnalyzer.com агрегира тези данни и ги визуализира по лесен за прочит начин.
Тълкуване на отчетите
Когато качвате за анализ *.log файла, имате възможност да изберете отметката “Only crawlers”. По този начин, ще генерирате отчет със заявки само от ботове на търсещи машини, както и други подобни краулери. Това е полезно, ако искате да видите поведението само на роботи, без да включвате стандартните потребители.
След успешното качване на файла, ще имате възможност да свалите отчета локално в HTML формат или да го отворите директно в браузер. Може да споделите връзката към отчета и към трети лица, които да анализират данните и да разтълкуват информацията.
По този начин изглежда базовия екран на един отчет, като различните графики предоставят информация за отделни аспекти от извършените действия в сайта.
Важната информация, която веднага може да разчетем:
- Total Requests - общ брой заявки
- Valid Requests - количество на валидни заявки
- Failed Requests - провалени заявки
- Unique Visitors - уникален брой посетители
- Unique 404 - уникален брой страници 404
- Log Size - големина на log файла
Възможно е да видим отчет със заявените URL адреси. По този начин, може да прегледаме реално какви заявки са осъществени към нашия сайт и има ли разминавания с други източници на данни за трафика, като Google Analytics.
Отчетът с грешки 404 може да ни предостави данни за ненамерените страници, което да индикира за някакъв проблем или липса на настроени пренасочвания, например при миграции.
HTTP Status codes е мястото, където да проверим процентното съотношение на различните статус кодове. Преобладаването на пренасочвания (3xx) например, може да е индикатор за вътрешни проблеми в сайта. Този отчет е особено удачен, когато става въпрос за оптимизация на crawling бюджет.
От SEO гледна точка много интересен отчет е този с браузърите на потребителите - Browsers.
Там може да се видят посещенията на различните типове ботове, включително:
- Googlebot/2.1
- bingbot/2.0
- Googlebot-Image/1.0
- AhrefsBot/5.2
- Baiduspider/2.0
- Google-Site-Verification/1.0 и др.
Може да се види ясно колко често Google Bot посещава нашия сайт и колко страници всъщност е обходил. Отчетът изглежда по подобен начин:
Съществуват общо над 10 отчета, които се извличат само от един log файл. Правилното им тълкуване може да доведе до много ценни изводи за състоянието на сайта и за начина на обхождането му от търсещи машини и посещенията от хора.
Използвани технологии
За изграждането на LogAlerts.com е ползван уеб framework-a Django, който е базиран на Python.
Работата с агрегирането на самите отчети се извършва с библиотека на C, която позволява светкавичната обработка на големи количества информация.
Промо код
Инструментът има някои ограничения в броя и големината на файловете за анализ. За разширяване на възможностите и ползването на допълнителни ресурси, може да ползвате промо код: netpeak_log
Промо кодът дава допълнително:
- права да генерирате 30 репорта, вместо стандартните 5;
- повишава допустимата големина за анализ на log файл на 35MB, вместо стандартните 15MB.
Изводи
LogAlerts е безплатен софтуер, който ви помага в разчитането на информацията в access log файловете. Може да покаже много ценни данни за състоянието на вашия уебсайт и трафикаът от ботове на търсещите машини. Ползва се за специфични нужди и целевата му аудитория са SEO агенции и хора с над средното ниво на компетентност в оптимизацията за търсещи машини.
Работим активно и над други полезни SEO инструменти, като може да очаквате скоро:
- Инструмент за осъществяване на безпроблемни миграции към нов CMS или домейн.
- Синонимен речник с API и възможност за уникализация на текстове на български език.
- Инструмент за сваляне на сайтове от WebArchive.