Google Analytics 4 і Google BigQuery. Чому слід працювати із сирими даними, і Як налаштувати їхній експорт
Одна з головних переваг Google Analytics 4 — можливість роботи з «сирими», тобто необробленими даними. Їх легко передати в Google BigQuery, провести глибший аналіз і використовувати результати для маркетингової стратегії.
У статті розповім, що таке «сирі» дані і чому робота з ними така важлива, як правильно пов’язати Google Analytics 4 з BigQuery і як ця інтеграція допоможе поліпшити аналітику.
Що таке сирі дані
Найчастіше маркетологи працюють з агрегованими даними, вже обробленими. Це суми, середні значення, відсотки від загального тощо.
Сирі дані (raw data) — ті, що надходять із сайту до опрацювання, записи про те, що користувачі роблять на сайті або в застосунку. Ці дані містять інформацію про кожну дію користувача: кліки, перегляди сторінок, покупки тощо.
Використовуючи сирі дані, ви самостійно:
- вибираєте, яку інформацію враховувати для розрахунку потрібних метрик, а яку ні;
- вирішуєте, які методи підсумовування або усереднення використовувати;
- обираєте параметри і метрики для розрахунку, зокрема ті, яких немає в інтерфейсі інструменту;
- формуєте звіти, зокрема даними з інших джерел, наприклад, рекламного кабінету Meta або власної CRM.
Сирі дані дають змогу глибше вивчити поведінку користувачів на сайті або в застосунку і будувати аналітичну звітність індивідуально під бізнес.
Чому важливо працювати із сирими даними
Попри зручність агрегованих даних, у них є недоліки. Ось найпоширеніші з них.
1. Семплування
Відбувається, коли потрібно занадто багато інформації для аналізу. Тоді система обирає тільки частину даних для обробки. Це наче ви спробували дізнатися, що люди люблять їсти на сніданок, опитавши тільки частину людей у світі. Через це є ризик упустити важливі деталі й отримати неточні результати.
За замовчуванням, користувацькі звіти в GA4 семплюються, якщо ви аналізуєте понад 10 мільйонів подій.
2. Data thresholds
У Google Analytics 4 «data thresholds» — обмеження, які захищають конфіденційність користувачів. Наприклад, GA4 приховує демографічні дані або інтереси, коли кількість користувачів для події занадто мала.
Ще один приклад. Якщо візьмете короткий діапазон дат, що включає менш як 50 користувачів, спрацюють порогові значення. Вони мінімізують появу у звіті інформації, яка може бути віднесена до конкретних користувачів і може їх ідентифікувати.
Якщо бачите зелену галочку, значить ваш звіт містить 100% доступних даних, без застосування вибірки і data thresholds.
3. API-ліміти
API (Application Programming Interface) — набір правил та інструментів, який дає змогу програмам взаємодіяти між собою.
У Google Analytics 4 API потрібен, щоб витягувати дані звітів і взаємодіяти з ними. API дає доступ до стандартних і користувацьких звітів. Але під час роботи з даними через API в GA4 виникають обмеження на кількість запитів за певний період часу.
Наприклад, кількість запитів за день на проєкт максимум 50 000 або 2000 запитів на проєкт за 100 секунд. Це обмеження призводить до затримок в отриманні даних або навіть до неможливості отримати повний обсяг інформації.
Така помилка в Looker Studio означає, що перевищено ліміт квоти даних.
GA4 має різні квоти для версій Standard і 360. Перевищення цих обмежень призводить до неможливості візуалізації даних у Looker Studio до закінчення встановленого квотою часу.
4. Відсутність ідентифікатора клієнта (Client ID)
Коли використовується API для отримання даних з Google Analytics 4 (GA4), інформація про ідентифікатор клієнта відсутня. Це ускладнює відстеження поведінки конкретних користувачів і аналіз їхньої взаємодії з продуктом або послугою.
5. Обмеження аналітичної системи
GA4 дає тільки готові звіти, дізнатися що-небудь крім них неможливо.
Навіть якщо і є інструменти для створення власних звітів, вони все одно будуть обмежені аналітичною системою. І ви не завжди зможете отримати всю інформацію або виконати конкретні запити.
6. Обмеження бізнес-процесів
У галузях, де угоди займають багато часу, як у нерухомості або промисловій техніці, без сирих даних складно зрозуміти, які рекламні канали приносять найбільшу вигоду і які з них окупаються.
Цикл угоди виходить за рамки онлайну і процес ухвалення рішення у покупців затягується. Вони можуть використовувати кілька різних каналів для дослідження товару або послуги, здійснювати безліч кроків до угоди, що ускладнює визначення, який канал залучив більше клієнтів.
Сирі дані забезпечують точніший і повніший аналіз, даючи змогу побачити приховані тренди та глибше зрозуміти поведінку користувачів.
Переваги роботи із сирими даними
- Гнучкість і глибина аналізу. Сирі дані дають змогу налаштовувати звіти та вебаналітику під потреби бізнесу.
- Кастомні звіти. Можете вибрати потрібні параметри, налаштувати фільтрацію, перетворити дані так, як потрібно, і створити кастомні звіти й метрики, наприклад, час сесії, час, проведений користувачем на певній сторінці. GA4 не завжди об’єднує метрики та параметри, які вас цікавлять, в одному звіті.
- Більш точні метрики. Сирі дані мінімізують втрату інформації під час агрегації.
Наприклад, якщо сторінку переглянуло мало користувачів, тому що канал привів мало трафіку, GA4 приховає цю інформацію, а в сирих даних вона буде. - Збереження історичних даних. Тривале зберігання даних дасть змогу аналізувати тривалі часові проміжки даних і порівнювати їх між собою.
У GA4 можливо створювати власні звіти тільки за останні 14 місяців. - Інтеграція з іншими джерелами. Вивантаження необроблених даних у сховище полегшує інтеграцію з іншими джерелами даних, такими як CRM-системи або зовнішні бази даних. Таким чином, дані будуть зібрані в одному місці, що спростить їх аналіз.
Важливість центрального сховища даних для бізнесу
Коли у компанії є доступ до централізованих даних про маркетинг у хмарі, вона може реалізувати такі проєкти:
- Reverse ETL. Переносить дані зі сховища назад в операційні системи, як-от CRM або системи управління замовленнями, щоб використовувати їх для персоналізованих комунікацій із клієнтами.
Наприклад, надіслати клієнтам повідомлення про знижку на продукт або запропонувати товари, що доповнюють їхні попередні покупки. - Сегментація. Створює групи клієнтів на основі різних характеристик і поведінкових патернів для більш цільового маркетингу та обслуговування.
- Прогнозування. Передбачає майбутні тенденції та результати на основі аналізу історичних даних, що допомагає оптимізувати стратегії продажів і маркетингу.
- Marketing Mix Modeling. Аналізує вплив різних маркетингових каналів на кінцеві результати продажів, допомагаючи оптимізувати бюджети маркетингових кампаній.
Недоліки роботи із сирими даними
Сирі дані вимагають більше досвіду і знань в аналізі, ніж стандартні звіти Google Analytics. Зокрема, атрибуцію треба будувати самостійно.
Атрибуція — процес визначення та привласнення цінності конкретній дії або результату, отриманим із різних каналів маркетингу.
Але якщо довірити роботу фахівцям, недолік стане перевагою. У вас буде унікальна модель аналітики, що визначає, які маркетингові канали роблять найбільший внесок у досягнення цілей.
Чому Google BigQuery
Google BigQuery — хмарне сховище даних, потужний інструмент для аналізу сирих даних. BigQuery миттєво обробляє величезні обсяги інформації в реальному часі. Це дає можливість швидко виявляти тренди, а також глибше досліджувати дії користувачів на сайті або в застосунку.
На відміну від подібних систем, де потрібно розбиратися з налаштуваннями та адмініструванням, у Google BigQuery використовується мова SQL для роботи з даними, що значно спрощує роботу.
Крім того, Google BigQuery легко інтегрується з різними BI інструментами, наприклад, Looker Studio, Power BI, Tableau. Це робить процес візуалізації та представлення даних більш ефективним і зручним.
Ціноутворення в Google BigQuery
Google Analytics 4 надає експорт даних у Google BigQuery безплатно для всіх користувачів. Оплата стягується тільки за фактичне зберігання даних і при перевищенні обмежень безплатного користування в Google Cloud.
Плата знімається з кредитної картки після досягнення межі в 1 ТБ запитів на місяць і 10 ГБ сховища (10 ГБ даних ≈ 6 млн подій GA).
Під час реєстрації користувач отримує $300 на оплату сервісу, які дійсні протягом 90 днів. Детальніше про умови в довідці Google.
Також Google пропонує використовувати BigQuery sandbox (тестове середовище BigQuery) без підв’язки кредитної картки, але в цьому разі термін зберігання таблиць даних становитиме 60 днів.
Наприклад, у GA4 надходить 3 млн подій на місяць, що приблизно дорівнює 5 ГБ даних. 10 ГБ даних надається безплатно, їх вистачить на два місяці безплатного користування. Перші витрати ви побачите через два місяці.
Далі вартість 1 ГБ — $0,02. Витрати проєкту складуть 5 ГБ*$0,02=$0,1. Також сюди буде додано оплату за історичні дані ($0,01 за ГБ).
У середньому невеликі проєкти витрачають на сервіс $1-5 на місяць. Є проєкти, де плата за BigQuery досягає $400–1500, але зростання витрат контрольоване. Що більший проєкт, більше подій у GA4 і складніша обробка даних, то вищі витрати.
Налаштування експорту даних з GA4 у BigQuery
Крок 1. Створення проєкту
Створіть проєкт у Google Cloud Platform (GCP). Якщо у вас уже є акаунт у GCP, створіть новий проєкт. Якщо ні, спочатку зареєструйтеся.
Важливо: Google Cloud і GA4 мають бути зареєстровані на один і той самий обліковий запис Google. Крім того, необхідно мати роль «Owner» для проєкту BigQuery і як мінімум роль «Editor» для ресурсу GA4.
- Натисніть на назву наявного проєкту. Якщо акаунт новий і проєктів ще не було, буде написано «Виберіть проєкт».
- Натисніть New project.
- Введіть назву проєкт і натисніть Create.
Крок 2. Активація BigQuery API
Увімкніть BigQuery API для вашого проєкту в консолі GCP. Це необхідно для взаємодії GA4 з BigQuery.
Для цього:
- Зліва в навігаційному меню виберіть пункт APIs & Services, а в ньому — Library.
- У вікні, що відкрилося, в пошуку введіть «bigquery api».
- Виберіть BigQuery API.
- Якщо не активували службу BigQuery API, виконайте це, використовуючи опцію Включити. Переконайтеся, що іконка стала зеленою з написом «API Enabled» (це підтверджує успішну активацію). Потім перейдіть до управління, натиснувши на кнопку Manage.
- Перейдіть у розділ Credentials. Потім натисніть +Create Credentials — Service account.
- Додайте в поле Service account name значення firebase-measurement@system.gserviceaccount.com і натисніть Create and Continue.
- Тисніть Done.
- У разі успішного додавання ваш обліковий запис служби з’явиться в списку Service Accounts.
Крок 3. Налаштування потоку даних у GA4
Перейдіть до свого акаунта GA4 і виконайте такі дії:
- Зайдіть у налаштування (Admin). У розділі Product links виберіть BigQuery links.
- Натисніть Link.
- У вікні, що відкрилося, необхідно налаштувати зв’язок із BigQuery. Для цього натисніть Choose a BigQuery project.
- Виберіть створений проєкт у BigQuery зі списку доступних. Натисніть Confirm.
- Виберіть регіон Google Cloud для розміщення даних. Після вибору змінити місце розташування буде неможливо. Налаштування за замовчуванням — США (us).
Вибір місця розташування даних впливає на фізичний розподіл і обробку інформації в інфраструктурі Google Cloud. Після вибору натисніть Next.
- Налаштуйте передачу даних, вибравши потрібні потоки для експорту в BigQuery.
Спочатку всі потоки обрані за замовчуванням. Якщо ваш ресурс у GA4 містить потоки даних сайту і мобільних застосунків, а ви хочете передавати в BigQuery дані тільки з сайту, змініть вибір за допомогою кнопки Configure data streams and events. Крім того, там можна виключити передачу певних подій.
Якщо є потік даних для мобільного застосунку на Android, встановіть прапорець навпроти Include advertising identifier for mobile app streams. Це дасть змогу зберігати рекламні ідентифікатори користувачів для подальшого аналізу.
Щоб виключити потоки та/або події:
- виберіть потоки даних, які будете експортувати (1);
- виключіть з експорту, якщо необхідно, події (2);
- застосуйте зміни (3).
- Далі виберіть частоту передавання даних:
- Daily — щодня — повний експорт даних за попередній день, який відбувається раз на добу;
- Streaming — потокове передавання — безперервний експорт даних у режимі реального часу, який відбувається протягом кількох секунд після вчиненої користувачем події.
Потокове передавання даних доступне тільки після додавання платіжного акаунта в Google Cloud Platform.
Можете вибрати як щоденне, так і потокове вивантаження даних одночасно.
Важливо! Обмеження BigQuery Export для стандартних ресурсів GA4 — 1 млн подій на день для щоденного (пакетного) експорту.
За використання потокового експорту стягується плата $0,05 за 1 ГБ даних (1 ГБ даних ≈ 600 000 подій GA).
Припустимо, щоденне вивантаження даних GA4 не вкладається в ліміт 1 млн подій на день. Тоді використовуйте потоковий експорт. Наприклад, якщо надішлете близько 2-2,5 млн подій на день, це коштуватиме приблизно $6 на місяць.
Або виключіть певні події з експорту. Але я б не рекомендувала цього робити: дані, які не потрібні для аналізу зараз, можуть знадобитися потім.
- Тепер увімкніть експорт користувацьких даних і натисніть Next.
- Далі Google запропонує перевірити дані ще раз. Якщо все правильно, натисніть Submit.
У результаті побачите свій зв’язок у списку BigQuery links.
Кнопка Link більше не буде доступна. Це пов’язано з обмеженням на створення тільки одного зв’язку для кожного ресурсу Google Analytics 4.
Крок 4. Перевірка та моніторинг
Після налаштування експорту, почекайте 24 години для завершення інтеграції. Важливо регулярно перевіряти, що дані передаються правильно, щоб оперативно виявити та виправити проблеми.
Дані в проєкт BigQuery будуть завантажуватися таким чином:
- Створюється датасет analytics_XXXXXXXXX, де ХХХХХХХХХ — ідентифікатор ресурсу Аналітики.
- У цьому датасеті для кожного дня створюється окрема таблиця:
- events_РРРРММДД — щоденна таблиця
- events_intraday_РРРРММДД — таблиця поточного дня.
Друга таблиця видаляється після того, як усі дані завантажились у таблицю events_РРРРММДД. Кожен рядок у таблиці відповідає події.
Зазвичай вивантаження даних відбувається вночі. Але може бути так, що один день буде пропущений. У такому разі дані довантажуються та переоновлюються протягом 72 годин.
Висновки
- Сирі дані (raw data) — дані, що надходять із сайту, до обробки. Вони містять інформацію про кожну подію, тобто дію користувача: кліки, перегляди сторінок, покупки тощо.
- У GA4 представлено агреговані дані, які дають менше інформації про відвідувачів сайту через умови конфіденційності, семплювання та API-ліміти.
- Робота з сирими даними дасть змогу:
- самостійно вибирати, які дані враховувати для розрахунку потрібних метрик, а які ні;
- вирішувати, які методи підсумовування або усереднення використовувати;
- розрахувати параметри і метрики, яких немає в інтерфейсі інструменту;
- доповнювати звіти даними з інших джерел.
- Google BigQuery — інструмент для обробки та аналізу сирих даних. Головними його перевагами є швидкість, доступність і простота використання.
- Інтеграція GA4 і Google BigQuery налаштовується за кілька кліків. У сервісі є обмеження для експорту стандартних ресурсів GA4 — 1 млн подій на день для щоденного (пакетного) експорту. Обмежень на кількість подій для потокового експорту немає.
Свіжі
Куди приводять тести в соцмережах
Розкажу, куди можуть завести безневинні опитувальники в інтернеті й де пройти 100% безпечний тест
25 найбільших телеграм-каналів в Україні
Ми проаналізували найпопулярніші серед українців телеграм-канали. У цьому тексті ви дізнаєтеся їхню тематику, мову ведення та чи можна замовити у них рекламу.
Як привести понад 2500 лідів через Telegram Ads — кейс Antischool Online
Розповідаємо, як просували телеграм-бот в освітній ніші та що з цього вийшло