Регулярни изрази в комбинация с Google Sheets, Analytics и Tag Manager

Всекидневно всеки SEO специалист се сблъсква с десетки, а дори и стотици хиляди URL адреси. Обработването на такъв обем от данни е невъзможно без помощта на регулярните изрази. 

Повече по темата за Силата на регулярните изрази: за начинаещи SEO специалисти разказахме в първата ни тематична статия. Съветваме ви да прочетете и нея, за да добиете цялостна представа за смисъла и причината да се възползваме регулярно от употребата на регулярните изрази.

Регулярни изрази и Google Sheets

1. Експорт на URL адреси от вътрешен софтуер в следния вид:

Експорт на URL адреси от вътрешен софтуер в следния вид

....и ни трябва само първият URL, но в таблицата имаме около 10 хиляди адреса. Тогава натискаме Ctrl+H и въвеждаме следния регулярен израз:

И ни трябва само първият URL, но в таблицата имаме около 10 хиляди адреса то тогава натискаме Ctrl+H и въвеждаме следния регулярен израз

Тук казваме на Google Sheets намери ни символа “; и замени всичко след него с празно пространство.
Също така отдолу маркираме Search using regular expressions.
След което даваме Replace All и получаваме изчистени URL адреси, готови за работа.

След което Replace All и получаваме изчистени URL адреси, готови за работа.

А сега си представете ако всичко това трябва да се направи ръчно :) 

2. Извличане на URL адреси с определена вложеност

Извличане на URL адреси с определена вложеност

Както виждаме на примера, имаме адреси с Второ, Трето и Четвърто ниво на вложеност. В нашия случай ще трябва да извлечем всички адреси от Трето ниво на вложеност. За целта ще използваме по-сложен регулярен израз + формули от Google Sheets.

Първото нещо, което трябва да направим, е да въведем регулярния израз в някоя клетка, без значение коя - в моя случай ще бъде C1. Без да се плашите, това ще бъде регулярният израз:

https://site.bg\/[^\/]+/[^\/]+/[^\/]+$ 

Извличане на URL адреси с определена вложеност

Следващата стъпка е да въведем формулата в колоната между URL адресите и регулярния израз. Формулата е следната

=REGEXEXTRACT(A1,C$1)

Формулата е следната =REGEXEXTRACT(A1,C$1)

С формулата =REGEXEXTRACT  казваме на Google Sheets да извлече информация от клетка A1, използвайки регулярен израз от клетката C1.

Може би ще се учудите какъв е този $ - това означава, че в тази формула ние заключваме клетката C1, и при изтегляне на клетката, за да я приложим на всички останали клетки в колоната, формулата ни няма да се счупи.

Като резултат получаваме само URL адреси от трето ниво на вложеност.

Като резултат получаваме само URL адреси от трето ниво на вложеност.

За клетките, които са #N/A, означава че не отговарят на условията на регулярният израз.

След като вече знаем как да използваме регулярните изрази в Google Sheets, можем лесно да заменим регулярния израз в клетка C1 с друг такъв.

3. Извличане на URL адреси, които съдържат кирилица

За URL адреси, които имат наличието на кирилица, използваме следния регулярен израз https?.*[А-я].*

Извличане на URL адреси, които съдържат кирилица

Ако искаме да извлечем URL адреси, които имат наличието на цифри, използваме htt.[0-9].

Ако искаме да извлечем URL адреси, които имат наличието на цифри, използваме htt.*[0-9].

Както виждате, възможностите на регулярните изрази в комбинация с Google Sheets са необятни, те могат да се използват в най-различни платформи и софтуери.

Регулярни изрази в комбинация с Google Analytics

1. Визуализация на Long-Tail ключови думи

Ключовите думи с дълга опашка предлагат допълнителни предимства: по-слаба конкуренция, добър трафик и по-високи продажби.

Използвайки регулярни изрази можем да създадем филтър за ключова дума с “дълга опашка” в Google Analytics. За създаването на подобни филтри използвайте следните изрази:

  • ^[^\.\s\-]+([\.\s\-]+[^\.\s\-]+){0}$ — Филтър за ключова фраза от една дума;
  • ^[^\.\s\-]+([\.\s\-]+[^\.\s\-]+){1}$ — Филтър по ключова фраза от две думи;
  • ^[^\.\s\-]+([\.\s\-]+[^\.\s\-]+){2}$ — Филтър по ключова фраза от три думи;
  • ^[^\.\s\-]+([\.\s\-]+[^\.\s\-]+){3}$ — Филтър по ключова фраза от четири думи;
  • ^[^\.\s\-]+([\.\s\-]+[^\.\s\-]+){4}$ — Филтър по ключова фраза от пет думи.

В примера видяхме как използваме регулярен израз за да филтрираме всички ключови фрази, които се състоят от 4 думи.

2. Изключване на трафик от определен диапазон IP адреси с помощта на филтър

Има много филтри, които изискват регулярни изрази. Големите компании обикновено притежават множество IP адреси. Следователно, за да изключите вътрешния трафик на компанията, трябва да посочите диапазон от IP адреси вместо да създавате филтър за всеки отделен IP адрес.

Изключване на трафик от определен диапазон IP адреси с помощта на филтър

За създаването на този регулярен израз може да използвате напълно безплатно този сайт IP Range Regular Expression Builder, стига да знаете обхвата на IP адресите във Вашата организация.

Регулярни изрази и Google Tag Manager

1. Използване на REGEX за персонализирана променлива на JavaScript

Например, при проследяване на търсене в сайт без параметър на заявка в Google Tag Manager.

Използване на REGEX за персонализирана променлива на JavaScript

2. Настройка на сложни “Triggers”

Ако е нужно да настроите Trigger, който да се активира само на българската версия на Ваш сайт, направете следното:

Ако е нужно да настроите Trigger, който да се активира само на българската версия на Ваш сайт:

Съвети при използване на регулярни изрази в Google Analytics и Google Tag Manager

  1. Използвайте знака “|” внимателно. Този знак “|” представлява условието ИЛИ  — не бива да се използва в началото или края на регулярния израз, в противен случай може да счупи набора от данни.
  2. За да сте сигурни, че сте избрали всички възможни комбинации в набора Ви от данни, използвайте израза «. *»
  3. Не използвайте интервали в регулярните изрази. Пространствата в регулярните изрази могат да объркат очакваните резултати. Преди да използвате интервали в Google Analytics или Google Tag Manager, най-добре е да използвате инструмент за валидация на съответния регулярен израз.
  4. Максимално позволената дължина за регулярен израз в Google Analytics е 256 символа. Ако Вашият регулярен израз е по-дълъг от 256 символа, той няма да работи.
  5. Ако използвате REGEX в персонализирани JavaScript-ове заедно с Google Tag Manager, винаги добавяйте коментар преди регулярните изрази.
  6. И на последно място, ако не се сещате за даден регулярен израз то винаги може да използвате помощта на Google търсачката! =)

Желаем ви успешно прилагане на гореописаните съвети. Споделете ни Вашите въпроси, мнение или препоръки в коментар. Успех!

134
16
64
Открихте грешка? Маркирайте я и натиснете Ctrl + Enter.