Как быстро собрать данные из блока People also ask в Google
Всем привет, меня зовут Евгений, я SEO-специалист компании FINOTEC. Сегодня я расскажу, как автоматизировать сбор данных из блока People also ask (Пользователи также ищут). Это блок, который показывается в верхней части страницы результатов поиска. Он нужен, чтобы уточнить запрос пользователя. Отображение этого блока начали тестировать в поисковой системе Google в 2015 году.
People also ask
SEO-специалистам этот блок может быть интересен для решения двух задач:
- Улучшение структуры статей: охват большего количества подтем.
- Идеи для новых статей.
Чтобы собрать список запросов, по которым показывается этот блок, и спарсить информацию, я использовал инструменты: Serpstat, Notepad++, Screaming Frog SEO Spider и разделил работу на четыре этапа.
Как собрать запросы?
Пример запроса: what is cto
Вводим свой запрос и выбираем регион.
Переходим к списку всех запросов по кнопке «Показать все».
Фильтруем результаты: Фильтр — Наличие элементов в выдаче — Содержит — Связанные вопросы — Применить.
Экспортируем данные.
Список запросов, который мы получили:
Подготовка
Формируем список URL для парсинга по шаблону https://www.google.com/search?q=[ваш+запрос]&hl=[язык]&gl=[ЛОКАЛЬ]. Например. Сделать это в Notepad++ можно в три этапа.
- Найти знак пробела ( ) и заменить на плюс (+).
- Найти начало строки (^) и заменить на: https://www.google.com/search?q=.
Важно: Должны быть включены «Регулярные выражения».
- Найти конец строки ($) и заменить на &hl=[язык]&gl=[ЛОКАЛЬ] (в моем примере: &hl=en&gl=US).
Важно: Должны быть включены «Регулярные выражения».
Получили список:
- https://www.google.com/search?q=what+is+a+cto&hl=en&gl=US
- https://www.google.com/search?q=what+is+cto&hl=en&gl=US
- https://www.google.com/search?q=what+is+a+cto+of+a+company&hl=en&gl=US
- https://www.google.com/search?q=what+is+ctos&hl=en&gl=US
- https://www.google.com/search?q=what+is+a+cto+salary&hl=en&gl=US
- https://www.google.com/search?q=what+is+the+role+of+a+cto&hl=en&gl=US
- https://www.google.com/search?q=what+is+cto+in+cardiology&hl=en&gl=US
- https://www.google.com/search?q=what+is+the+meaning+of+cto&hl=en&gl=US
- https://www.google.com/search?q=what+is+cto+means&hl=en&gl=US
- https://www.google.com/search?q=what+is+cto+filter&hl=en&gl=US
- https://www.google.com/search?q=what+is+a+cto+filter&hl=en&gl=US
Отладка Screaming Frog
Несмотря на типичность задачи, первые попытки спарсить информацию у меня не увенчались успехом. На выходе получал пустой отчет. Поэтому опишу последовательность действий, которая привела меня к желаемому результату. Забегая наперед скажу — проблема заключалась в том, что для User-Agent, установленного в Screaming Frog по умолчанию, этот блок просто не отображался.
Выбираем Mode — List.
Переходим Configuration — Authentication.
Вкладка Forms Based — Add.
Вводим один из сгенерированных нами URL, например: https://www.google.com/search?q=what+is+a+cto&hl=en&gl=US.
Смотрим, как Screaming Frog видит страницу. В данном случае программа не видит нужный нам блок, точнее Google его не показывает.
Пробуем посмотреть под другим User-Agent.
Выбираем из списка. В данном случае мне подошел «Google bot for smartphones (pre April 18th 2016)».
Еще раз проверяем, как Screaming Frog будет видеть страницу, которую мы спарсим.
Парсинг для Screaming frog
Переходим в Configuration — Custom — Extraction.
Указываем, как будем искать элемент на странице (CSSPath, xPath, Regex etc) и нажимаем «Ok».
В данном случае я выбрал такие настройки:
Селектор: .cUnQKe .ifM9O.
Данные: только текст.
Берем подготовленные нами URL для парсинга.
Вставляем их в программу: Upload — Paste.
Нажимаем «OK».
Смотрим результаты: Custom — Extraction. Экспортируем.
После удаления дублей у нас есть список:
- How can I improve my ctos score?
- How do I register for CTOS?
- How do you use color correction gels?
- How does a GAC filter work?
- How long do charcoal water filters last?
- How much does a startup CTO make?
- What are the duties of a CTO?
- What contaminants do carbon filters remove?
- What does CTO stand for in cardiology?
- What does CTO stand for?
- What does CTO time off mean?
- What does a 5 micron filter remove?
- What does a CTO make?
- What does chronic total occlusion mean?
- What does it take to be a CTO?
- What is CTO gel?
- What is CTO in social media means?
- What is CTO salary?
- What is a CTO of a company?
- What is a CTO salary?
- What is a CTO water filter?
- What is a carbon block filter?
- What is chronic total occlusion of coronary artery?
- What is ctos score Malaysia?
- What is the CTO stand for?
- What is the difference between a CTO and a CIO?
- What is the meaning of CTOS?
- What is the role of a CTO in a company?
- What is the role of a CTO in a startup?
- Which is higher CIO or CTO?
- Who does the CTO report to?
- Why is CTO important?
Осталось удалить нерелевантные результаты, оформить это в статью и опубликовать на блоге Netpeak, всегда так делаю (нет).
Если у вас возникли вопросы, задавайте их в комментариях к посту или лично мне в сообщениях — отвечу.
Мнение авторов гостевых постов может не совпадать с позицией редакции и специалистов агентства Netpeak.
По теме
Диджитализация АТБ. Комплексный онлайн-маркетинг для лидера ритейла Украины — кейс
Рассказываем как выстроить комплексную диджитал-стратегию
Где бесплатно разместить ссылки — площадки для продвижения
Как найти релевантный сайт-донор для размещения своей ссылки
Что такое URL — как создать корректный адрес сайта
Понятные людям и роботам URL. Это уникальный набор символов, который дает возможность идентифицировать всевозможные ресурсы в интернете (страницы сайтов, файлы, изображения, видео и так далее). Чтобы узнать больше, читайте далее!
Свежее
Кейс: как увеличить показы и установки приложения на 16% за две недели
Подробно о том, как мы улучшили позиции в топе и видимость в поисковой выдаче
Как легко запомнить пароли, пин-коды, телефоны и все важное
В статье поделюсь несколькими лайфхаками, которые помогут сохранить вашу память (и нервы!) и вовремя вспоминать, наконец, пин-коды банковских карт, исторические даты и другие важные вещи
Как оптимизировать конверсии для страниц приложения в App Store и Google Play
Какие поля и параметры имеют больше значения, и как выжать из них все