Google Analytics 4 и Google BigQuery. Почему следует работать с сырыми данными, и Как настроить их экспорт
Одно из главных преимуществ Google Analytics 4 — возможность работы с «сырыми», то есть необработанными данными. Их легко передать в Google BigQuery, провести более глубокий анализ и использовать результаты для маркетинговой стратегии.
В статье расскажу, что такое «сырые» данные и почему работа с ними так важна, как правильно связать Google Analytics 4 с BigQuery и как эта интеграция поможет улучшить аналитику.
Что такое сырые данные
Чаще всего маркетологи работают с агрегированными данными, уже обработанными. Это суммы, средние значения, проценты от общего и так далее.
Сырые данные (raw data) — те, что поступают с сайта до обработки, записи о том, что пользователи делают на сайте или в приложении. Эти данные содержат информацию о каждом действии пользователя: кликах, просмотрах страниц, покупках и т. д.
Используя сырые данные, вы самостоятельно:
- выбираете, какую информацию учитывать для расчета нужных метрик, а какую нет;
- решаете, какие методы суммирования или усреднения использовать;
- выбираете параметры и метрики для расчета, в том числе те, которых нет в интерфейсе инструмента;
- формируете отчеты, в том числе данными из других источников, например, рекламного кабинета Meta или собственной CRM.
Сырые данные позволяют глубже изучить поведение пользователей на сайте или в приложении и строить аналитическую отчетность индивидуально под бизнес.
Почему важно работать с сырыми данными
Несмотря на удобство агрегированных данных, у них есть недостатки. Вот самые распространенные из них.
1. Сэмплирование
Происходит, когда требуется слишком много информации для анализа. Тогда система выбирает только часть данных для обработки. Это как если бы вы попробовали узнать, что люди любят есть на завтрак, опросив только часть людей в мире. Из-за этого есть риск упустить важные детали и получить неточные результаты.
По умолчанию, пользовательские отчеты в GA4 семплируются, если вы анализируете более 10 миллионов событий.
2. Data thresholds
В Google Analytics 4 «data thresholds» — ограничения, которые защищают конфиденциальность пользователей. Например, GA4 скрывает демографические данные или интересы, когда количество пользователей для события слишком мало.
Еще один пример. Если возьмете короткий диапазон дат, включающий менее 50 пользователей, сработают пороговые значения. Они минимизируют появления в отчете информации, которая может быть отнесена к конкретным пользователям и может их идентифицировать.
Если видите зеленую галочку, значит ваш отчет содержит 100% доступных данных, без применения выборки и data thresholds.
3. API-лимиты
API (Application Programming Interface) — набор правил и инструментов, который позволяет программам взаимодействовать между собой.
В Google Analytics 4 API нужен, чтобы извлекать данные отчетов и взаимодействовать с ними. API дает доступ к стандартным и пользовательским отчетам. Но при работе с данными через API в GA4 возникают ограничения на количество запросов за определенный период времени.
Например, количество запросов в день на проект максимум 50 000 или 2000 запросов на проект за 100 секунд. Это ограничение приводит к задержкам в получении данных или даже к невозможности получить полный объем информации.
Такая ошибка в Looker Studio означает, что превышен лимит квоты данных.
GA4 имеет разные квоты для версий Standard и 360. Превышение этих ограничений приводит к невозможности визуализации данных в Looker Studio до истечения установленного квотой времени.
4. Отсутствие идентификатора клиента (Client ID)
Когда используется API для получения данных из Google Analytics 4 (GA4), информация об идентификаторе клиента отсутствует. Это затрудняет отслеживание поведения конкретных пользователей и анализ их взаимодействия с продуктом или услугой.
5. Ограничения аналитической системы
GA4 дает только готовые отчеты, узнать что-либо помимо них невозможно.
Даже если и есть инструменты для создания собственных отчетов, они все равно будут ограничены аналитической системой. И вы не всегда сможете получить всю информацию или выполнить конкретные запросы.
6. Ограничения бизнес-процессов
В отраслях, где сделки занимают много времени, как в недвижимости или промышленной технике, без сырых данных сложно понять, какие рекламные каналы приносят наибольшую выгоду и какие из них окупаются.
Цикл сделки выходит за рамки онлайна и процесс принятия решения у покупателей затягивается. Они могут использовать несколько разных каналов для исследования товара или услуги, совершать множество шагов до сделки, что усложняет определение, какой канал привлек больше клиентов.
Сырые данные обеспечивают более точный и полный анализ, позволяя увидеть скрытые тренды и глубже понять поведение пользователей.
Преимущества работы с сырыми данными
- Гибкость и глубина анализа. Сырые данные позволяют настраивать отчеты и веб-аналитику под нужды бизнеса.
- Кастомные отчеты. Можете выбрать нужные параметры, настроить фильтрацию, преобразовать данные так как требуется и создать кастомные метрики (например, время сессии, время, проведенное пользователем на определенной странице) и отчеты.
GA4 не всегда объединяет интересующие вас метрики и параметры в одном отчете. - Более точные метрики. Сырые данные минимизируют потерю информации при агрегации.
Например, если страницу просмотрело мало пользователей, потому что канал привел мало трафика, GA4 скроет эту информацию, а в сырых данных она будет. - Сохранение исторических данных. Длительное хранение данных позволит анализировать продолжительные временные промежутки данных и сравнивать их между собой.
В GA4 возможно создавать собственные отчеты только за последние 14 месяцев. - Интеграция с другими источниками. Выгрузка необработанных данных в хранилище облегчает интеграцию с другими источниками данных, такими как CRM-системы или внешние базы данных. Таким образом, данные будут собраны в одном месте, что упростит их анализ.
Важность центрального хранилища данных для бизнеса
Когда у компании есть доступ к централизованным данным о маркетинге в облаке, она может реализовать следующие проекты:
- Reverse ETL. Переносит данные из хранилища обратно в операционные системы, такие как CRM или системы управления заказами, чтобы использовать их для персонализированных коммуникаций с клиентами.
Например, отправить клиентам уведомление о скидке на продукт или предложить товары, что дополняют их предыдущие покупки.
- Сегментация. Создает группы клиентов на основе различных характеристик и поведенческих паттернов для более целевого маркетинга и обслуживания.
- Прогнозирование. Предсказывает будущие тенденции и результаты на основе анализа исторических данных, что помогает оптимизировать стратегии продаж и маркетинга.
- Marketing Mix Modeling. Анализирует влияние различных маркетинговых каналов на конечные результаты продаж, помогая оптимизировать бюджеты маркетинговых кампаний.
Недостатки работы с сырыми данными
Сырые данные требуют больше опыта и знаний в анализе, чем стандартные отчеты Google Analytics. В частности, атрибуцию надо строить самостоятельно.
Атрибуция — процесс определения и присвоения ценности конкретному действию или результату, полученным из различных каналов маркетинга.
Но если доверить работу специалистам, недостаток станет преимуществом. У вас будет уникальная модель аналитики, определяющая, какие маркетинговые каналы вносят наибольший вклад в достижение целей.
Почему Google BigQuery
Google BigQuery — облачное хранилище данных, мощный инструмент для анализа сырых данных. BigQuery мгновенно обрабатывает огромные объемы информации в реальном времени. Это дает возможность быстро выявлять тренды, а также глубже исследовать действия пользователей на сайте или в приложении.
В отличие от подобных систем, где нужно разбираться с настройками и администрированием, в Google BigQuery используется язык SQL для работы с данными, что значительно упрощает работу.
Кроме того, Google BigQuery легко интегрируется с различными BI инструментами, например, Looker Studio, Power BI, Tableau. Это делает процесс визуализации и представления данных более эффективным и удобным.
Ценообразование в Google BigQuery
Google Analytics 4 предоставляет экспорт данных в Google BigQuery бесплатно для всех пользователей. Оплата взимается только за фактическое хранение данных и при превышении ограничений бесплатного пользования в Google Cloud.
Плата снимается с кредитной карты после достижения порога в 1 ТБ запросов в месяц и 10 ГБ хранилища (10 ГБ данных ≈ 6 млн событий GA).
При регистрации пользователь получает $300 на оплату сервиса, которые действительны в течение 90 дней. Детальнее об условиях в справке Google.
Также Google предлагает использовать BigQuery sandbox (тестовую среду BigQuery) без подвязки кредитной карты, но в этом случае срок хранения таблиц данных составит 60 дней.
Например, в GA4 поступает 3 млн событий в месяц, что приблизительно равно 5 ГБ данных. 10 ГБ данных предоставляется бесплатно, их хватит на два месяца бесплатного пользования. Первые затраты вы увидите через два месяца.
Далее стоимость 1 ГБ — $0,02. Расходы проекта составят 5 ГБ*$0,02=$0,1. Также сюда будет добавятся оплата за исторические данные ($0,01 за ГБ).
В среднем некрупные проекты тратят на сервис $1-5 в месяц. Есть проекты, где плата за BigQuery достигает $400-1500, но рост расходов контролируемый. Чем крупнее проект, больше событий в GA4 и сложнее обработка данных, тем выше траты.
Настройка экспорта данных из GA4 в BigQuery
Шаг 1. Создание проекта
Создайте проект в Google Cloud Platform (GCP). Если у вас уже есть аккаунт в GCP, создайте новый проект. Если нет, сначала зарегистрируйтесь.
Важно! Google Cloud и GA4 должны быть зарегистрированы на одну и ту же учетную запись Google. Кроме того, необходимо иметь роль «Owner» для проекта BigQuery и как минимум роль «Editor» для ресурса GA4.
- Нажмите на название существующего проекта. Если аккаунт новый и проектов еще не было, будет написано «Выберите проект».
- Нажмите New project.
- Введите название проекта и нажмите Create.
Шаг 2. Активация BigQuery API
Включите BigQuery API для вашего проекта в консоли GCP. Это необходимо для взаимодействия GA4 с BigQuery.
Для этого:
- Слева в навигационном меню выберите пункт APIs & Services, а в нем — Library.
- В открывшемся окне в поиске введите «bigquery api».
- Выберите BigQuery API.
- Если не активировали службу BigQuery API, выполните это, используя опцию Включить. Убедитесь, что иконка стала зеленой с надписью «API Enabled» (это подтверждает успешную активацию). Затем перейдите к управлению, нажав на кнопку Manage.
- Перейдите в раздел Credentials. Затем нажмите +Create Credentials — Service account.
- Добавьте в поле Service account name значение firebase-measurement@system.gserviceaccount.com и нажмите Create and Continue.
- Жмите Done.
- При успешном добавлении ваша учетная запись службы появится в списке Service Accounts.
Шаг 3. Настройка потока данных в GA4
Перейдите в свой аккаунт GA4 и выполните следующие действия:
- Зайдите в настройки (Admin). В разделе Product links выберите BigQuery links.
- Нажмите Link.
- В открывшемся окне необходимо настроить связь с BigQuery. Для этого нажмите Choose a BigQuery project.
- Выберите созданный проект в BigQuery из списка доступных. Нажмите Confirm.
- Выберите регион Google Cloud для размещения данных. После выбора изменить местоположение будет невозможно. Настройки по умолчанию — США (us).
Выбор местоположения данных влияет на физическое распределение и обработку информации в инфраструктуре Google Cloud. После выбора нажмите Next.
- Настройте передачу данных, выбрав нужные потоки для экспорта в BigQuery.
Изначально все потоки выбраны по умолчанию. Если ваш ресурс в GA4 содержит потоки данных веб-сайта и мобильных приложений, а вы хотите передавать в BigQuery данные только с сайта, измените выбор с помощью кнопки Configure data streams and events. Кроме того, там можно исключить передачу определенных событий.
Если есть поток данных для мобильного приложения на Android, установите флажок напротив Include advertising identifier for mobile app streams. Это позволит сохранять рекламные идентификаторы пользователей для дальнейшего анализа.
Чтобы исключить потоки и/или события:
- выберите потоки данных, которые будете экспортировать (1);
- исключите из экспорта, если необходимо, события (2);
- примените изменения (3).
- Далее выберите частоту передачи данных:
- Daily — ежедневно — полный экспорт данных за предыдущий день, который происходит раз в сутки;
- Streaming — потоковая передача — непрерывный экспорт данных в режиме реального времени, который происходит в течение нескольких секунд после совершенного пользователем события.
Потоковая передача данных доступна только после добавления платежного аккаунта в Google Cloud Platform.
Можете выбрать как ежедневную, так и потоковую выгрузку данных одновременно.
Важно! Ограничение BigQuery Export для стандартных ресурсов GA4 — 1 млн событий в день для ежедневного (пакетного) экспорта.
За использование потокового экспорта взимается плата $0,05 за 1 ГБ данных (1 ГБ данных ≈ 600 000 событий GA).
Допустим, ежедневная выгрузка данных GA4 не укладывается в лимит 1 млн событий в день. Тогда используйте потоковый экспорт. Например, если отправите около 2–2,5 млн событий в день, это будет стоить примерно $6 в месяц.
Либо исключите определенные события из экспорта. Но я бы не рекомендовала этого делать: данные, которые не нужны для анализа сейчас, могут понадобиться потом.
- Теперь включите экспорт пользовательских данных и нажмите Next.
- Далее Google предложит перепроверить данные. Если все верно, нажмите Submit.
В результате увидите свою связь в списке BigQuery links.
Кнопка Link больше не будет доступна. Это связано с ограничением на создание только одной связи для каждого ресурса Google Analytics 4.
Шаг 4. Проверка и мониторинг
После настройки экспорта, выждите 24 часа для завершения интеграции. Важно регулярно проверять, что данные передаются правильно, чтобы оперативно обнаружить и исправить проблемы.
Данные в проект BigQuery будут загружаться таким образом:
- После выгрузки создается датасет analytics_XXXXXXXXX, где ХХХХХХХХХ — это идентификатор ресурса Аналитики.
- В этом датасете для каждого дня создается отдельная таблица:
- events_ГГГГММДД — ежедневная таблица
- events_intraday_ГГГГММДД — таблица текущего дня.
Вторая таблица удаляется, после того как все данные загружаются в таблицу events_ГГГГММДД. Каждая строка в таблице соответствует событию.
Обычно выгрузка данных происходит ночью. Но может быть так, что один день пропустится. В таком случае данные догружаются и переобновляются в течение 72 часов.
Выводы
- Сырые данные (raw data) — данные, что поступают с сайта, до обработки. Они содержат информацию о каждом событии, то есть действии пользователя: кликах, просмотрах страниц, покупках и т. д.
- В GA4 представлены агрегированные данные, которые дают меньше информации о посетителях сайта из-за условий конфиденциальности, сэмплирования и API-лимитов.
- Работа с сырыми данными позволит:
- самостоятельно выбирать, какие данные учитывать для расчета нужных метрик, а какие нет;
- решать, какие методы суммирования или усреднения использовать;
- рассчитать параметры и метрики, которых нет в интерфейсе инструмента;
- дополнять отчеты данными из других источников.
- Google BigQuery — инструмент для обработки и анализа сырых данных. Главными его преимуществами является скорость, доступность и простота использования.
- Интеграция GA4 и Google BigQuery настраивается в пару кликов. В сервисе есть ограничение для экспорта стандартных ресурсов GA4 — 1 млн событий в день для ежедневного (пакетного) экспорта. Ограничений на количество событий для потокового экспорта нет.
Свежее
Как перенести сайт на новый домен и увеличить органический трафик на 460% — кейс АDAM.UA
Показываем все этапы переезда сайта на национальный домен
ТОП-5 идей использования ChatGPT в работе SEO-специалиста
Сравнение двух моделей, советы по использованию, расширения и аналоги
Как успешно коммуницировать через рассылки без must have инструмента — скидок. Кейс книжного интернет-магазина «Сенс»
Рассказываем, как тестировать различные подходы в ретеншн-маркетинге