Анализ на Log файлове с LogAlerts.com

LogАlerts бе създаден, за да анализираме специфични проблеми при обхождането на клиентски уеб сайтове от ботовете на търсачките. В последствие забелязахме потенциала и ползите, които може да донесе и за други проекти, като решихме да го направим общодостъпен и безплатен. Ползва се за специфични цели и e предназначен към потребители с над средно ниво на експертиза в SEO оптимизацията.

Линк към инструмента: https://logalerts.com/

Ключови възможности и функционалности:

  • анализ на log файлове (raw access log) с цел извличане на полезна информация за потребителите;
  • ползва се за установяване на начина на обхождане на сайтовете от търсещи машини;
  • може да бъде много полезен за анализ на пренасочен домейн, като ясно показва генерираните редиректи;
  • може да се даде представа за посещенията за сайт, който няма Google Analytics проследяващ код;
  • помага за оптимизация на crawling бюджет.

В детайли за инструмента

Основна концепция

Самият log файл представлява списък с всички заявки на отделни файлове и страници, които са генерирани на даден сайт от потребители и ботове. Често тези данни са необработени и за тяхната агрегация е нужен външен софтуер.

Чрез анализ на лог файловете (Raw Access Logs), които сървърът пази за нас, може да извлечем много полезна информация, която в голямата си част няма как да бъде проверена по друг начин.

LogAlerts визуализира данните по лесен за разчитане начин. Така може да се направят специфични анализи, които да разрешат трудни за откриване с друг метод проблеми.

Начин на употреба

Как се сваля log файл от cPanel

cPanel е надеждно работещ и лесен за ползване контролен панел и много от водещите хостинг компании го предпочитат. Разработен е, така че дори и потребители без технически познания да могат лесно да го ползват и да управляват своите уеб проекти.

За да свалите log файл за вашия сайт, чийто хостинг има cPanel, е нужно да преминете през следните стъпки:

Стъпка 1: Намирате бутон Raw Access

Стъпка 1: Намирате бутон Raw Access

Стъпка 2: Избирате от списъка сайта, който желаете да анализирате.

збирате от списъка сайта, който желаете да анализирате.

Стъпка 3: Сваляте и разархивирате съдържанието на .gz архива.

Сваляте и разархивирате съдържанието на .gz архива.

Стъпка 4: Променяте разширението на файл на .log

Променяте разширението на файл на .log

Стъпка 5: Вече можете спокойно да тествате файла с LogAlerts.com.

За удобство на ползващите, предоставяме в тази статия примерен log файл, с който може да изпробвате инструмента, без да изпълнявате горните стъпки: демо файл

Формат на log файла

Форматът на самия файл пряко зависи от конфигурацията на хостинга. Един от най-често използваните формати е Combined формат.

Шаблонът е следния:

"%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-agent}i\""

Като с реални данни може да изглежда по подобен начин:

127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326 "http://www.example.com/start.html" "Mozilla/4.08 [en] (Win98; I ;Nav)"

Където:

127.0.0.1 (%h) - IP адресът, който е генерирал заявката към сървъра.

- (%l) - logname (От identd, ако е налично). В случая тирето означава, че информацията не е налична.

frank (%u) - Userid на човека, извършващ заявката. Определя се, чрез HTTP автентикация и оторизация.

[10/Oct/2000:13:55:36 -0700] (%t) - Дата и час, когато заявката е получена:

[day/month/year:hour:minute:second zone]

day = 2*digit

month = 3*letter

year = 4*digit

hour = 2*digit

minute = 2*digit

second = 2*digit

zone = (`+' | `-') 4*digit

"GET /apache_pb.gif HTTP/1.0" (\"%r\") - Тип на заявката, ползвания HTTP протокол и заявеният ресурс. От тук се взема много полезна информация, която LogAnalyzer обобщава.

200 (%>s) - Статус код или отговор на сървъра

2326 (%b) - Големина на отговора, който е върнат към клиента.

"http://www.example.com/start.html" (\"%{Referer}i\") - Referer HTTP request header

"Mozilla/4.08 [en] (Win98; I ;Nav)" (\"%{User-agent}i\") - User-agent, с който най-общо се дефинира browser, операционна система и тип на устройство.

Combined log на Apache сървърите е всъщност форматът по подразбиране за инструмента. Съществуват възможности за обработка и на други такива, но това става след предварителна заявка.

Както става ясно от примерите, всяко посещение на сайта е записано в определен формат, като ясно се разграничават следните данни:

  • какъв тип заявка се изпълнява, например GET или POST;
  • IP адрес на достъпващия;
  • код на отговора на сървъра;
  • User-Agent и дали заявката идва от бот.

LogAnalyzer.com агрегира тези данни и ги визуализира по лесен за прочит начин.

Тълкуване на отчетите

Когато качвате за анализ *.log файла, имате възможност да изберете отметката “Only crawlers”. По този начин, ще генерирате отчет със заявки само от ботове на търсещи машини, както и други подобни краулери. Това е полезно, ако искате да видите поведението само на роботи, без да включвате стандартните потребители.

След успешното качване на файла, ще имате възможност да свалите отчета локално в HTML формат или да го отворите директно в браузер. Може да споделите връзката към отчета и към трети лица, които да анализират данните и да разтълкуват информацията.

По този начин изглежда базовия екран на един отчет, като различните графики предоставят информация за отделни аспекти от извършените действия в сайта.

базовия екран на един отчет

Важната информация, която веднага може да разчетем:

  • Total Requests - общ брой заявки
  • Valid Requests - количество на валидни заявки
  • Failed Requests - провалени заявки
  • Unique Visitors - уникален брой посетители
  • Unique 404 - уникален брой страници 404
  • Log Size - големина на log файла

Възможно е да видим отчет със заявените URL адреси. По този начин, може да прегледаме реално какви заявки са осъществени към нашия сайт и има ли разминавания с други източници на данни за трафика, като Google Analytics.

отчет със заявените URL адреси

Отчетът с грешки 404 може да ни предостави данни за ненамерените страници, което да индикира за някакъв проблем или липса на настроени пренасочвания, например при миграции.

Отчетът с грешки 404

HTTP Status codes е мястото, където да проверим процентното съотношение на различните статус кодове. Преобладаването на пренасочвания (3xx) например, може да е индикатор за вътрешни проблеми в сайта. Този отчет е особено удачен, когато става въпрос за оптимизация на crawling бюджет.

HTTP Status codes е мястото, където да проверим процентното съотношение на различните статус кодове

От SEO гледна точка много интересен отчет е този с браузърите на потребителите - Browsers.

Там може да се видят посещенията на различните типове ботове, включително:

  • Googlebot/2.1
  • bingbot/2.0
  • Googlebot-Image/1.0
  • AhrefsBot/5.2
  • Baiduspider/2.0
  • Google
  • Google-Site-Verification/1.0 и др.

Може да се види ясно колко често Google Bot посещава нашия сайт и колко страници всъщност е обходил. Отчетът изглежда по подобен начин:

Може да се види ясно колко често Google Bot посещава нашия сайт и колко страници всъщност е обходил

Съществуват общо над 10 отчета, които се извличат само от един log файл. Правилното им тълкуване може да доведе до много ценни изводи за състоянието на сайта и за начина на обхождането му от търсещи машини и посещенията от хора.

Използвани технологии

За изграждането на LogAlerts.com е ползван уеб framework-a Django, който е базиран на Python.

Работата с агрегирането на самите отчети се извършва с библиотека на C, която позволява светкавичната обработка на големи количества информация.

Промо код

Инструментът има някои ограничения в броя и големината на файловете за анализ. За разширяване на възможностите и ползването на допълнителни ресурси, може да ползвате промо код: netpeak_log

Промо кодът дава допълнително:

  • права да генерирате 30 репорта, вместо стандартните 5;
  • повишава допустимата големина за анализ на log файл на 35MB, вместо стандартните 15MB.

Изводи

LogAlerts е безплатен софтуер, който ви помага в разчитането на информацията в access log файловете. Може да покаже много ценни данни за състоянието на вашия уебсайт и трафикаът от ботове на търсещите машини. Ползва се за специфични нужди и целевата му аудитория са SEO агенции и хора с над средното ниво на компетентност в оптимизацията за търсещи машини.

Работим активно и над други полезни SEO инструменти, като може да очаквате скоро:

    1. Инструмент за осъществяване на безпроблемни миграции към нов CMS или домейн.
    2. Синонимен речник с API и възможност за уникализация на текстове на български език.
    3. Инструмент за сваляне на сайтове от WebArchive.
    5
    1
    0
    Открихте грешка? Маркирайте я и натиснете Ctrl + Enter.