SEO
1549872000

Как быстро собрать данные из блока People also ask в Google

Всем привет, меня зовут Евгений, я SEO-специалист компании FINOTEC. Сегодня я расскажу, как автоматизировать сбор данных из блока People also ask (Пользователи также ищут). Это блок, который показывается в верхней части страницы результатов поиска. Он нужен, чтобы уточнить запрос пользователя. Отображение этого блока начали тестировать в поисковой системе Google в 2015 году.

People also ask1

People also ask

SEO-специалистам этот блок может быть интересен для решения двух задач:

  1. Улучшение структуры статей: охват большего количества подтем.
  2. Идеи для новых статей.

Чтобы собрать список запросов, по которым показывается этот блок, и спарсить информацию, я использовал инструменты: Serpstat, Notepad++, Screaming Frog SEO Spider и разделил работу на четыре этапа.

Как собрать запросы?

Инструмент: Serpstat
Пример запроса: what is cto

Вводим свой запрос и выбираем регион.

Вводим свой запрос и выбираем регион

Переходим к списку всех запросов по кнопке «Показать все».

Переходим к списку всех запросов по кнопке «Показать все»

Фильтруем результаты: Фильтр — Наличие элементов в выдаче — Содержит — Связанные вопросы — Применить.

Фильтруем результаты

Экспортируем данные.

Экспортируем данные

Список запросов, который мы получили: Список запросов, который мы получили

Подготовка

Инструменты: Notepad++.

Формируем список URL для парсинга по шаблону https://www.google.com/search?q=[ваш+запрос]&hl=[язык]&gl=[ЛОКАЛЬ]. НапримерСделать это в Notepad++ можно в три этапа.

  1. Найти знак пробела ( ) и заменить на плюс (+).

Notepad++ Этап1

  1. Найти начало строки (^) и заменить на: https://www.google.com/search?q=.
    Важно: Должны быть включены «Регулярные выражения».

Notepad++ Этап2

  1. Найти конец строки ($) и заменить на &hl=[язык]&gl=[ЛОКАЛЬ] (в моем примере: &hl=en&gl=US).
    Важно: Должны быть включены «Регулярные выражения».

Notepad++ Этап3

Получили список:

      1. https://www.google.com/search?q=what+is+a+cto&hl=en&gl=US
      2. https://www.google.com/search?q=what+is+cto&hl=en&gl=US
      3. https://www.google.com/search?q=what+is+a+cto+of+a+company&hl=en&gl=US
      4. https://www.google.com/search?q=what+is+ctos&hl=en&gl=US
      5. https://www.google.com/search?q=what+is+a+cto+salary&hl=en&gl=US
      6. https://www.google.com/search?q=what+is+the+role+of+a+cto&hl=en&gl=US
      7. https://www.google.com/search?q=what+is+cto+in+cardiology&hl=en&gl=US
      8. https://www.google.com/search?q=what+is+the+meaning+of+cto&hl=en&gl=US
      9. https://www.google.com/search?q=what+is+cto+means&hl=en&gl=US
      10. https://www.google.com/search?q=what+is+cto+filter&hl=en&gl=US
      11. https://www.google.com/search?q=what+is+a+cto+filter&hl=en&gl=US

Отладка Screaming Frog

Несмотря на типичность задачи, первые попытки спарсить информацию у меня не увенчались успехом. На выходе получал пустой отчет. Поэтому опишу последовательность действий, которая привела меня к желаемому результату. Забегая наперед скажу — проблема заключалась в том, что для User-Agent, установленного в Screaming Frog по умолчанию, этот блок просто не отображался.

Выбираем Mode — List.

Выбираем Mode — List

Переходим Configuration — Authentication.

Переходим Configuration — Authentication

Вкладка Forms Based — Add.

Вкладка Forms Based — Add

Вводим один из сгенерированных нами URL, например: https://www.google.com/search?q=what+is+a+cto&hl=en&gl=US.

Вводим один из сгенерированных нами URL

Смотрим, как Screaming Frog видит страницу. В данном случае программа не видит нужный нам блок, точнее Google его не показывает.

Google не показывает нужный нам блок

Пробуем посмотреть под другим User-Agent.

Пробуем посмотреть под другим User-Agent

Выбираем из списка. В данном случае мне подошел «Google bot for smartphones (pre April 18th 2016)».

Выбираем из списка. В данном случае мне подошел «Google bot for smartphones»

Еще раз проверяем, как Screaming Frog будет видеть страницу, которую мы спарсим.

Переходим Configuration — Authentication

Вводим один из сгенерированных нами URL

Победа — блок отображается

Парсинг для Screaming frog

Переходим в Configuration — Custom — Extraction.

Переходим в Configuration — Custom — Extraction

Указываем, как будем искать элемент на странице (CSSPath, xPath, Regex etc) и нажимаем «Ok».

В данном случае я выбрал такие настройки:

Тип: CSSPath.
Селектор: .cUnQKe .ifM9O.
Данные: только текст.

Указываем, как мы будем искать элемент на странице (CSSPath, xPath, Regex etc)

Берем подготовленные нами URL для парсинга.

Берем подготовленные нами URL для парсинга

Вставляем их в программу: Upload — Paste.

Вставляем их в программу Upload — Paste

Нажимаем «OK».

Нажимаем Ок и получаем наши URL

Смотрим результаты: Custom — Extraction. Экспортируем.

Смотрим результаты Custom — Extraction и Экспортируем

После удаления дублей у нас есть список:

  1. How can I improve my ctos score?
  2. How do I register for CTOS?
  3. How do you use color correction gels?
  4. How does a GAC filter work?
  5. How long do charcoal water filters last?
  6. How much does a startup CTO make?
  7. What are the duties of a CTO?
  8. What contaminants do carbon filters remove?
  9. What does CTO stand for in cardiology?
  10. What does CTO stand for?
  11. What does CTO time off mean?
  12. What does a 5 micron filter remove?
  13. What does a CTO make?
  14. What does chronic total occlusion mean?
  15. What does it take to be a CTO?
  16. What is CTO gel?
  17. What is CTO in social media means?
  18. What is CTO salary?
  19. What is a CTO of a company?
  20. What is a CTO salary?
  21. What is a CTO water filter?
  22. What is a carbon block filter?
  23. What is chronic total occlusion of coronary artery?
  24. What is ctos score Malaysia?
  25. What is the CTO stand for?
  26. What is the difference between a CTO and a CIO?
  27. What is the meaning of CTOS?
  28. What is the role of a CTO in a company?
  29. What is the role of a CTO in a startup?
  30. Which is higher CIO or CTO?
  31. Who does the CTO report to?
  32. Why is CTO important?

Осталось удалить нерелевантные результаты, оформить это в статью и опубликовать на блоге Netpeak, всегда так делаю (нет). 

Если у вас возникли вопросы, задавайте их в комментариях к посту или лично мне в сообщениях — отвечу.


Мнение авторов гостевых постов может не совпадать с позицией редакции и специалистов агентства Netpeak.

Узнайте больше
35
2
0
Обнаружили ошибку? Выделите ее и нажмите Ctrl + Enter.