Блог про интернет-маркетинг для бизнеса

SEO

Обзор Netpeak Spider 2.1: классификация ошибок, выбор параметров, новая логика работы с результатами

150
12
12
6

Чуть более месяца назад мы объявили о запуске новых продуктов Netpeak Software → Netpeak Spider 2.0 и Netpeak Checker 2.0. Если вы упустили этот пост, то всегда сможете к нему вернуться, чтобы узнать всю последовательность событий. Теперь же мы готовы представить вам новую версию продукта – Netpeak Spider 2.1. Последние несколько недель я работал в новой версии 2.1 (в режиме бета-тестирования) и, скажу откровенно, – вернуться даже на 2.0 я уже не могу: к хорошему слишком быстро привыкаешь :)

Netpeak Spider становится настоящей «машиной для SEO-оптимизации», поэтому мы дали ему кодовое название → «SEO-терминатор».

Встречайте Netpeak Spider 2.1 – программу, предназначенную для обнаружения и уничтожения ошибок внутренней оптимизации сайта. Мы хотим, чтобы 4 августа 2016 года запомнилось вам как «День краулинга».

1. Классификация ошибок

В новой версии мы реализовали определение более 50 видов ошибок, разделённых по степени важности:

  • Error → критические ошибки;
  • Warning → важные, но не критические;
  • Notice → ошибки формата «обратите внимание».

Теперь в правой части программы расположена новая панель «Issues» – в ней отображаются все ошибки, которые были найдены во время сканирования: Не успели мы проанализировать всего лишь 500 страниц сайта Amazon.com, как обнаружили 37 ошибок, которые, кстати, отсортированы по приоритетности

Список самих ошибок будет постоянно увеличиваться и видоизменяться, но пока что он такой:

Ошибка Описание
Errors
Duplicate Pages* Показывает полные дубли страниц по всему HTML-коду: в этом отчёте все URL сгруппированы по параметру Page Hash
Duplicate Body Content* Показывает дубли страниц по содержимому блока <body>: в этом отчёте все URL сгруппированы по параметру Page Body Hash
Duplicate Titles* Показывает страницы с дублирующимися тегами <title>: в этом отчёте все URL сгруппированы по параметру Title
Missing or Empty Title Показывает страницы с отсутствующими или пустыми тегами <title>
Duplicate Descriptions* Показывает страницы с дублирующимися тегами <meta name="description" />: в этом отчёте все URL сгруппированы по параметру Description
Missing or Empty Description Показывает страницы с отсутствующими или пустыми тегами <meta name="description" />
4xx Error Pages: Client Error Показывает все страницы, которые возвращают 4xx код ответа сервера
Redirect to 4xx Error Page Показывает страницы, которые перенаправляют на URL с 4xx кодом ответа сервера
Endless Redirect Показывает страницы, которые перенаправляют сами на себя, образуя тем самым бесконечный редирект
Max Redirections Показывает страницы с более чем 4 редиректами (по умолчанию): обратите внимание, что максимальное количество редиректов можно менять в настройках сканирования на вкладке «Restrictions»
Connection Error Показывает страницы, которые невозможно проанализировать из-за ошибки подключения
Max URL Length Показывает страницы, у которых длина URL более 2000 символов
Missing Internal Links Указывает на «висячие узлы» – страницы, на которых нет ни одной внутренней ссылки: такие страницы нарушают естественное распределение весов между страницами сайта
Broken Images Показывает все изображения, которые возвращают 4xx-5xx код ответа сервера: обратите внимание, что для определения этой ошибки должен быть включён анализ изображений в настройках сканирования на вкладке «General»
Warnings
Multiple Titles Показывает страницы, которые содержат более одного тега <title>
Multiple Descriptions Показывает страницы, которые содержат более одного тега <meta name="description" />
Missing or Empty h1 Показывает страницы с отсутствующими или пустыми заголовками h1
Multiple h1 Показывает страницы, которые содержат более одного заголовка h1
Duplicate h1* Показывает страницы с дублирующимися заголовками h1: в этом отчёте все URL сгруппированы по параметру h1 Value
Duplicate Canonical URLs* Показывает страницы с дублирующимися тегами <link rel="canonical" />: в этом отчёте все URL сгруппированы по параметру Canonical URL
Min Content Size Показывает страницы с менее чем 500 символов в блоке <body> (без HTML-тегов)
3xx Redirected Pages Показывает все страницы, которые возвращают перенаправление с 3xx кодом ответа сервера
Non-301 Redirects Показывает страницы, которые возвращают 3xx код ответа сервера, но не 301 (permanent) редирект
Redirect Chain Показывает страницы с «цепочками редиректов» (более 1 редиректа)
Meta Refresh Redirected Показывает страницы, которые содержат <meta http-equiv="refresh" /> с указанием любого URL (включая адрес текущей страницы)
Blocked by Robots.txt Показывает страницы, запрещённые к индексации с помощью инструкции disallow в файле robots.txt
Blocked by Meta Robots Показывает страницы, запрещённые к индексации с помощью инструкции <meta name="robots" content="noindex"> в блоке <head>
Blocked by X-Robots-Tag Показывает страницы, запрещённые к индексации с помощью директивы "noindex" поля X-Robots-Tag в HTTP-заголовках ответа сервера
Internal Nofollowed Links Показывает страницы, содержащие внутренние ссылки с атрибутом rel="nofollow"
Missing Images ALT Attributes Показывает страницы, содержащие изображения с отсутствующим или пустым атрибутом ALT: чтобы увидеть полный отчёт по данной ошибке, нажмите на кнопку «Current Table Summary», выберите 'Images' и настройте соответствующий фильтр (Include → URLs with issue → Missing Images ALT Attributes)
Max Image Size Показывает все изображения, размер которых превышает 100 Кбайт: обратите внимание, что для определения этой ошибки должен быть включён анализ изображений в настройках сканирования на вкладке «General»
5xx Error Pages: Server Error Показывает все страницы, которые возвращают 5xx код ответа сервера
Long Server Response Time Показывает страницы, у которых время получения первого байта от сервера превышает 500 мс
Other Failed URLs Показывает страницы, которые невозможно проанализировать из-за других неизвестных ошибок, связанных с кодом ответа сервера
Notices
Same Title and h1 Показывает страницы, у которых заголовок h1 совпадает с содержимым тега <title>
Max Title Length Показывает страницы, у которых длина тега <title> более 70 символов
Short Title Показывает страницы, у которых длина тега <title> менее 10 символов
Max Description Length Показывает страницы, у которых длина тега <meta name="description" /> более 160 символов
Short Description Показывает страницы, у которых длина тега <meta name="description" /> менее 50 символов
Max h1 Length Показывает страницы, у которых длина заголовка h1 более 65 символов
Max HTML Size Показывает страницы с более чем 200 тыс. символов в блоке <body> (включая HTML-теги)
Max Content Size Показывает страницы с более чем 50 тыс. символов в блоке <body> (без HTML-тегов)
Min Text/HTML Ratio Показывает страницы, у которых отношение чистого текста (Content Size) ко всему контенту на странице (HTML Size) менее 10%
Nofollowed by Meta Robots Показывает страницы, содержащие инструкции <meta name="robots" content="nofollow"> в блоке <head>
Nofollowed by X-Robots-Tag Показывает страницы, у которых в поле X-Robots-Tag в HTTP-заголовках ответа сервера содержится директива "nofollow"
Missing or Empty Canonical Tag Показывает страницы с отсутствующими или пустыми тегами <link rel="canonical" />
Different Page URL and Canonical URL Показывает страницы, у которых не совпадают URL в теге <link rel="canonical" /> с URL самой страницы
Max Internal Links Показывает страницы с более чем 100 внутренних ссылок
Max External Links Показывает страницы с более чем 10 внешними ссылками
External Nofollowed Links Показывает страницы, содержащие внешние ссылки с атрибутом rel="nofollow"
Missing or Empty Robots.txt File Показывает список URL, относящихся к отсутствующим или пустым файлам robots.txt: обратите внимание, что на разных поддоменах и протоколах (http, https) могут быть разные файлы robots.txt

*Хорошая новость: поиск всех дубликатов в новой версии осуществляется в режиме реального времени, то есть теперь больше не надо вызывать отдельный инструмент поиска дубликатов → выбирайте необходимые параметры, запускайте сканирование и наслаждайтесь! :)

Чтобы быстро сориентироваться среди ошибок, наведите на них и через несколько секунд увидите подсказку. Будьте внимательны – все ненайденные в данный момент ошибки складируются в нижней части нового блока, в панели «Not Detected Issues»; а ошибки, определение которых вообще отключено, хранятся чуть ниже, в панели «Disabled Issues».

Если вы SEO-эксперт, пожалуйста, укажите в комментариях: какие ещё ошибки мог бы определять Netpeak Spider?

2. Новые параметры и возможность их выбора

В новой версии появилась возможность выбирать, какие параметры следует сканировать, а какие – нет. Это напрямую влияет на скорость сканирования и потребление оперативной памяти. А такие параметры, как Links, Redirects, Headers и Images вообще являются «тяжёлыми», что отмечено в их настройках – попробуйте их отключить, если они не нужны вам сию секунду. Всего в новом Netpeak Spider 2.1 собрано 44 параметра: по каждому вы сможете увидеть описание и ошибки, которые в них можно найти

Всего в Netpeak Spider 2.1 были добавлены 24 новых параметра:

Параметр Описание
Общие параметры
Issues Суммарное количество проблем (errors, warnings, notices), которые были найдены в рамках данного URL
X-Robots-Tag Instructions Содержимое поля «X-Robots-Tag» в HTTP-заголовках ответа сервера: отвечает за инструкции для роботов поисковых систем и является аналогом тега Meta Robots в блоке <head>
Response Time Время (в милисекундах) до получения первого байта от сервера
Content Download Time Время (в милисекундах), за которое сервер возвращает HTML-код необходимой страницы
Redirect Target URL Страница, которая является конечной точкой редиректа или цепочки редиректов, если они присутствуют
Content-Length Содержимое поля «Content-Length» в HTTP-заголовках ответа сервера: отвечает за указание размера документа в байтах
Content-Encoding Содержимое поля «Content-Encoding» в HTTP-заголовках ответа сервера: отвечает за указание типа сжатия документа
Параметры в теге <head>
Meta Refresh Содержимое тега <meta http-equiv="refresh" />: позволяет указывать, через сколько секунд перезагрузить страницу, а также, если это необходимо, на какой адрес перейти
Rel Next/Prev URL Содержимое тегов <link rel="next" /> и <link rel="prev" />: позволяют указать, что данная страница является частью пагинации
Параметры контента
h1 Value Содержимое первого непустого заголовка h1 на странице
h1 Length Длина в символах первого непустого заголовка h1 на странице
h2-h6 Headers Количество, содержимое и длина заголовков h2-h6 на странице: по умолчанию эти параметры выключены, но при необходимости можно настроить их полный анализ
HTML Size Количество символов в блоке <html>, включая HTML-теги
Content Size Количество символов (с пробелами) в блоке <body> без HTML-тегов: проще говоря, размер текста на странице с пробелами
Text/HTML Ratio Отношение чистого текста (Content Size) ко всему контенту на странице (HTML Size) в процентах
Characters Количество символов (без пробелов) в блоке <body> без HTML-тегов: проще говоря, размер текста на странице без пробелов
Words Количество слов в блоке <body>
Characters in <p> Количество символов (без пробелов) в тегах <p> блока <body>
Words in <p> Количество слов в тегах <p> блока <body>
Page Body Hash Уникальный ключ содержимого блока <body>, рассчитанный по алгоритму SHA1: позволяет определять дубликаты страниц по данному параметру
Images Количество изображений в тегах <img> на странице: вместе с количеством собирается информация об атрибутах ALT и исходном виде URL-ов, ведущих на изображения

Все ошибки напрямую связаны с параметрами, в которых их можно обнаружить. Так, к примеру, чтобы включить набор ошибок тега <title>, необходимо включить параметр Title в настройках сканирования на вкладке «Parameters».

3. Новая логика работы с результатами

Здесь собралось так много пунктов, что мы вынуждены делать списки внутри списков :) Итак, поехали.

3.1. Абсолютно новая таблица с результатами

В Netpeak Spider 2.1 мы интегрировали полностью новую таблицу, которая порадует вас своими фишками:

Скорость работы

Новой таблице зачастую неважно, сколько у вас результатов – одна сотня или один миллион. Время отклика иногда поражает, а иногда заставляет задуматься: точно ли я так быстро доскролил до нужного места? :) Короче говоря, мы очень постарались привнести в работу с программой новый «экспириенс», потому просим рассказать, как ваши ощущения.

Возможности

✔ Группировка

Теперь во всех таблицах вы сможете настроить группировку по любой колонке. Это позволит абсолютно по-новому взглянуть на результаты краулинга → к примеру, можно сгруппировать результаты по коду ответа сервера (Status Code) и посмотреть, какой код ответа на каких типах страниц у вас чаще всего встречается: На скриншоте наглядно видно, как работает группировка по коду ответа сервера → здесь сразу можно утверждать, что есть несколько не очень хороших страниц на сайте :) Будьте в курсе, что группировать можно не только по одной колонке, а даже по нескольким сразу. Представляете, какие инсайты вы сможете получить, если настроете правильные комбинации?!

✔ Включение/выключение колонок

Если вы нажмёте правой кнопкой мыши на название любой колонки, перед вами откроется чудо-панель: в ней вы сможете настроить отображение любой колонки, которая включена в настройках Crawling Settings на вкладке «Parameters»: Чудо-панель, позволяющая включать и выключать отображение параметров в текущей таблице Обратите внимание, что данные настройки влияют на экспорт, таким образом в экспортный файл попадут все результаты, показ которых вы в данный момент включили.

✔ Настройка прикреплённой колонки

Теперь вы можете прикрепить любое количество колонок, а по умолчанию прикрепляется номер результата и URL. В будущем обещаем реализовать сохранение ширины колонок, их порядка и прикреплённой колонки, чтобы вам было ещё удобнее пользоваться таблицей. А пока что, увы, эти параметры сохраняются в пределах текущей сессии (то есть до первого выхода из программы).

3.2. Новые внутренние таблицы

Типы таблиц

✔ Issues info = Проблемы

Наша гордость – новая дополнительная таблица с перечнем всех проблем, которые присутствуют на странице/страницах. В ней можно фильтровать проблемы по типу, их важности и по параметру, в котором они были обнаружены: Дополнительная таблица с проблемами, которые были обнаружены при сканировании данной страницы или набора страниц

✔ Redirects = Редиректы

Обновлённая таблица, в которой показываются все редиректы / цепочки редиректов, которые были обнаружены на странице/страницах, учитывая коды ответа сервера источника редиректа и целевой страницы: Дополнительная таблица с перенаправлениями, где учитывается как промежуточный, так и конечный код ответа сервера

✔ Links = Ссылки

Кардинально обновлённая таблица, которая содержит крайне полезные данные о типе ссылок, анкорах, атрибуте ALT (если изображение размещено в теге <a href="">), атрибуте REL и даже оригинальном виде URL в исходном коде: Пример дополнительной таблицы со всеми исходящими ссылками со страниц на анализируемом сайте

✔ h1-h6 headers = заголовки h1-h6

Каждый тип заголовка расположен в своей «личной» таблице: Пример дополнительной таблицы со всеми заголовками h1, которые были найдены в пределах сайта Если вам необходимо проанализировать заголовки h2-h6 – включите их анализ в настройках сканирования на вкладке «Parameters». Обратите внимание, что по умолчанию эти параметры выключены.

✔ Images = Изображения

Новая дополнительная таблица, содержащая данные о всех изображениях, найденных в тегах <img> на странице/страницах: Дополнительная таблица со всеми изображениями, которые были найдены на сканируемом сайте

Новые возможности

✔ Суммарная таблица «Current Table Summary»

Ещё одна наша гордость – уникальная разработка, позволяющая открыть необходимые данные (ошибки, ссылки, редиректы, заголовки h1 или изображения) для тех страниц, которые находятся в текущей таблице.

Попробуйте отфильтровать таблицу, нажав на любой тип ошибки в панели «Issues» справа (например, 4xx Error Pages: Client Error, если они у вас есть) и после этого вызвать таблицу Current Table Summary → Incoming Links. В этом случае вы получите исчерпывающий список битых ссылок: После 2-х минут сканирования сайта Amazon.com мы обнаружили несколько ссылок, возвращающих 4xx ответ сервера. Лёгким движением руки мы открываем все «битые ссылки» на эти страницы

✔ Экспорт

Теперь в каждой внутренней таблице есть свой отдельный экспорт, который работает точно так же, как и «Export Current Table» в основных таблицах.

✔ Фильтрация

Добавлено большое количество новых параметров, а также универсальные фильтры типа «All parameters» (в этом случае фильтрация будет происходить по всем ячейкам в таблице) и «URLs with issue» (доступно для тех таблиц, где будет уместным фильтровать по виду ошибки). Также был добавлен новый тип фильтрации по параметру «Length» → теперь можно фильтровать по длине любую ячейку в таблице!

Попробуйте скомбинировать последние две фишки: пофильтровать, а потом нажать «Export» → в таком случае экспортироваться будут только отфильтрованные результаты.

✔ Типы выбора данных

Специально для вашего удобства мы внедрили 3 типа выбора данных:

  • 1 URL → просто нажмите на любую ячейку и вызовите любую внутреннюю таблицу: в этом случае данные будут показываться исключительно по этому URL;
  • по группе URL → попробуйте выбрать несколько URL, зажав левую кнопку мыши или используя клавиши SHIFT/CTRL, после чего вызовите любую внутреннюю таблицу: теперь вы получите данные по всем выбранным URL (в открывшейся таблице вы увидите надпись «Selection Type: Group»);
  • по всем URL в текущей таблице → попробуйте нажать «Current Table Summary» и выбрать любую внутреннюю таблицу: в этом случае, вы получите данные по всем URL, которые есть в данной таблице (теперь вы увидите надпись «Selection Type: Table Summary»).

Совмещая разные способы работы с данными, вы сможете достичь небывалого комфорта и удобства от работы с таблицами. Очень ждём вашего фидбека, потому что мы очень старались!

3.3. Подсветка проблем

Если по определённому URL есть ошибка, теперь вся строка не подсвечивается красным цветом. Вместо этого подсвечивается отдельно URL (его подсветка всегда зависит от максимальной важности проблемы в данной строке) и отдельно ячейка с параметром (аналогично, подсвечивается в цвет, соответствующий максимальной важности проблемы в данной ячейке). Теперь вам не будет становиться плохо от того, что весь ваш сайт подсвечивается красным. Вместо этого мы позаботились, чтобы вы чётко видели, где именно «плохо» Мы убрали возможность кастомизировать цвета в таблице, чтобы каждый пользователь почувствовал, каким образом мы хотели донести самую важную информацию за счёт разделения всех проблем на разные типы по степени критичности.

3.4. Лучшее понимание ссылок

Теперь все ссылки делятся на чёткие типы:

  • AHREF → самый распространённый тип ссылок, которые берутся из тега <a href="">
  • IMG AHREF → так называемые ссылки-картинки – это изображения в теге <img>, которые находятся внутри тега <a href="">
  • IMG → ссылки на картинки из тега <img>
  • CSS → ссылки на файлы стилей
  • JavaScript → ссылки на JS-файлы
  • Canonical → ссылки, которые содержатся в теге <link rel="canonical" /> блока <head>
  • Redirect → если Netpeak Spider обнаружил перенаправление на какую-либо страницу, то он отметит, что на эту страницу стоит ссылка с типом «Redirect»
  • LINK → для того, чтобы активировать определение этого типа ссылок, необходимо включить анализ ссылок из тега <link> в настройках сканирования на вкладке «General»
  • Meta Refresh → аналогично, для определения данного типа ссылок необходимо включить следование инструкциям Meta Refresh в настройках сканирования на вкладке «Advanced»

Кроме того, мы добавили ещё несколько параметров в каждую внутреннюю таблицу со ссылками:

  • Alt → необходим для тех случаев, когда мы имеем дело со ссылками-картинками: в этом случае, анкор подобной ссылки будет являться атрибутом ALT (если он присутствует) у изображения внутри тега <a href="">
  • Rel → необходим для обнаружения ссылок с rel="nofollow", однако может показывать и другие интересные значения этого атрибута (узнать подробнее)
  • URL Source View → уникальная на данный момент разработка: позволяет понять, в каком виде краулер обнаружил ссылку при сканировании; удобно использовать в тех случаях, когда необходимо быстро найти нужную ссылку в исходном коде сайта

Теперь вы сможете отфильтровать все ссылки по типу и увидеть, за счёт чего формируется анкор ссылки (например, за счёт атрибута ALT у картинки внутри тега A)

3.5. Типы отображения информации и взаимодействие с ней

Мы полностью переделали все таблицы, добавив в них новую логику: если вы видите подчёркнутые URL-ы или числа – это значит, что с ними можно взаимодействовать. К примеру, если вы нажмёте на подчёркнутый URL клавишей «пробел» или двойным нажатием левой кнопки мыши, то он откроется в вашем браузере по умолчанию.

Если вы попробуете то же самое проделать с количеством входящих ссылок (Incoming Links), то вызовете внутреннюю таблицу, которая отвечает за все входящие ссылки на данную страницу/страницы. Данные, с которыми можно взаимодействовать, выделены подчёркиванием и синим цветом шрифта. Попробуйте воспользоваться двойным кликом мышки на таких ячейках, чтобы понять, какие варианты взаимодействия существуют

3.6. Другие улучшения в таблицах

Работа в режиме реального времени

Теперь не нужно останавливать краулинг, чтобы отфильтровать или экспортировать данные – работа со всеми таблицами возможна в режиме реального времени даже в момент сканирования. Например, вы можете настроить фильтрацию данных в таблице «Filters» и запустить сканирование – после этого данные, которые будут соответствовать настроенному фильтру, будут автоматически попадать в эту таблицу: это очень удобно, если вы ищите определённую информацию на сайте.

Сортировка

Мы реализовали 3 типа сортировки: по возрастанию (по умолчанию), по убыванию и «сброс сортировки», когда вы третий раз нажимаете на одну и ту же колонку.

Разграничение основных таблиц

Мы разграничили таблицы «All», «Issues» и «Filters» на отдельные, полностью независимые друг от друга таблицы. Теперь изменение порядка/ширины колонок в одной таблице не потянет за собой синхронизацию с другими таблицами.

Подсказки

Если в таблице не хватает места, чтобы показать всю информацию, вы увидите троеточие (...). Попробуйте навести на ячейку с троеточием и моментально увидите подсказку с полным значением данных внутри ячейки (заметьте, что если вы видите полностью все данные, то подсказка всплывать не будет). Это позволяет не расширять каждый раз колонки, когда вы сталкиваетесь с ситуацией, что сразу не видно всех данных.

Горячие клавиши

Мы реализовали поддержку внутренних таблиц специальными горячими клавишами: F1-F8. Попробуйте открыть контекстное меню, нажав правой кнопкой мыши в области таблицы: там вы найдёте все доступные комбинации.

4. Изменения в настройках сканирования

4.1. Новый подход к работе с настройками

Теперь настройки сканирования по умолчанию являются общими для всех проектов. Однако, если вы начали сканирование, то за этим проектом сохранятся отдельные настройки, а в следующий раз, когда будете переключать проекты, вам будет задаваться вопрос в стиле «Текущие настройки отличаются от тех, которые указаны в выбранном проекте. Применить последние настройки из выбранного проекта?».

Таким образом станет легче работать с индивидуальными настройками для каждого проекта, при этом так же легко будет работать с общими настройками для всех проектов, если у вас от сайта к сайту настройки не меняются.

4.2. Сравнение и автосохранение настроек

Теперь настройки сохраняются автоматически при закрытии окна или нажатии на кнопку «OK». Это позволит больше не сомневаться, применились ли настройки, которые вы изменяли в разных вкладках.

А чтобы закрыть вообще все вопросы относительно сложных настроек сканирования, мы реализовали функцию сравнения настроек → теперь, если у вас настройки по разным проектам не отличаются, то вы сможете без каких-либо всплывающих предупреждений переключаться между ними. Но как только настройки не будут совпадать, вы получите предупреждение.

4.3. Новые настройки

General

Теперь здесь вы сможете отключить краулинг всех MIME типов, кроме HTML. Это полезно, когда вы не хотите сканировать, к примеру, RSS-файлы или документы формата PDF.

Parameters

Новая вкладка, на которой расположены все параметры, которые можно сканировать, а также подсказки, откуда берутся эти параметры и какие ошибки в них могут присутствовать.

Advanced

  • Добавлена настройка учёта инструкций из поля X-Robots-Tag в HTTP-заголовках ответа сервера → «Consider: X-Robots-Tag instructions»
  • Изменена логика работы с Canonical → теперь при включённом учёте Canonical Link Element, Netpeak Spider учитывает значение этого поля из HTTP-заголовков ответа сервера и присваивает ему приоритет выше, чем у аналогичного значения в <head> страницы
  • Добавлена настройка, позволяющая парсить все выбранные параметры у страниц, которые возвращают 4xx ошибки: будьте внимательны, по умолчанию настройка «Retrieve 4xx error pages content» отключена

5. Экспорт результатов

  • Улучшен экспорт в Excel → теперь данные выгружаются с максимальной скоростью
  • Добавлен экспорт в CSV → обратите внимание на этот тип выгрузки, так как он идеально подходит для большого количества данных
  • Добавлена автоматическая генерация имени экспортируемого файла → теперь в имени по умолчанию сразу будет видно, в какой таблице вы работали и какой способ группировки использовали
  • Убрано отдельное диалоговое окно с настройкой экспорта → это было сделано как минимум для того, чтобы сократить путь пользователя до финального результата (то есть экспортного файла) и как максимум потому, что старая функция выбора параметров для экспорта теперь перенесена в настройки параметров в Crawling Settings

6. Новая структура проектов, система хранения данных и краулинг

  • Реализован абсолютно новый краулинг → теперь его скорость напрямую зависит от выбранных параметров сканирования
  • Полностью изменена структура сохранения результатов → к сожалению, с обновлённой и оптимизированной структурой нам не удалось в короткие сроки провести миграцию старых проектов к новой структуре, потому мы вынуждены сообщить, что старые сохранённые результаты не смогут быть открыты в новой версии Netpeak Spider 2.1: приносим свои искренние извинения
  • Реализовано сжатие для сохранённых результатов → размеры файлов в среднем уменьшились в 4 раза
  • Скорость парсинга увеличена в 3 раза
  • Внедрена система хранения всех «тяжёлых» данных на жёстком диске → это поможет значительно уменьшить потребление оперативной памяти и позволит с лёгкостью сканировать большие сайты

7. Другие изменения

  • В силу всех вышеперечисленных изменений и полностью новой архитектуры программы, мы были вынуждены отключить подсчёт внутреннего PageRank на непродолжительный срок. Уже в ближайшем обновлении Netpeak Spider 2.1.3 ждите новый оптимизированный алгоритм расчёта внутреннего PageRank!
  • Реализовано сессионное сохранение фильтров для внутренних таблиц: Issues info, Redirects, Links, h1-h6 headers, Images
  • Переработан параметр Status Code, улучшена его информативность. Также теперь этот параметр поддерживает все коды, то есть теперь не будет ситуации, когда этот параметр возвращает «429 429»
  • При загрузке результатов сканирования в статус-бар загружаются параметры Crawling URLs и Crawling Duration, чтобы показать, сколько URL было просканировано и за сколько времени
  • Загрузка программы теперь происходит более плавно

Будущее не определено!

Именно вы можете существенно повлиять на развитие Netpeak Spider – оставляйте отзывы, задавайте любые волнующие вас вопросы или делитесь своими идеями любым удобным для вас способом:

Ну а если совсем коротко

Netpeak Spider становится более мощным, гибким и удобным. Убедитесь сами! В новой версии 2.1:

  • Реализовано определение более чем 50 видов ошибок
  • Внедрены 24 новых параметра и возможность их выбирать/настраивать
  • Интегрирована абсолютно новая таблица с результатами
  • Добавлены новые внутренние таблицы и логика работы с данными
  • Оптимизированы экспорт результатов и архитектура приложения
  • Изменён подход к работе с таблицами и настройками сканирования

Если вы раньше не пользовались Netpeak Spider, попробуйте наш бесплатный 14-дневный триал с полным функционалом. Если же вы уже хорошо знакомы с нашей программой, успейте на глобальное тестирование продукта, которое длится до 19 августа 2016 года.

Попробовать продукты Netpeak Software

Я горжусь тем, что мы сделали, и очень хотел бы получить ваш фидбек и советы, как можно ещё улучшить программу!


Также советуем ознакомиться со следующим постом из серии о продуктах Netpeak Software → обзор Netpeak Spider 2.1.1. В этом обновлении мы реализовали несколько новых режимов сканирования (по списку URL и по XML Sitemap), анализ внешних ссылок, а также инструмент просмотра исходного кода и HTTP-заголовков.

Обнаружили ошибку? Выделите ее и нажмите Ctrl + Enter.

Комментарии (35)

  1. 0
    год назад

    От SFSS отличается только интерфейсом и методом сортировки данных. Кому какой удобней - это субьективно. По скольку привык к вышеупомянутой, то переходить на эту нет смысла, хотя Слежу за NPSS с первой версии. 


    Было бы отличным функционалом возможность научить паука отслеживать индивидуальные для себя параметры и выводить в удобной форме со своими колонками

    • 0
      Виталик
      год назад

      Виталий, спасибо за то, что написали, а не промолчали!)


      От SFSS мы отличаемся не только интерфейсом и методом сортировки данных. С помощью Netpeak Spider вы можете автоматически проверить ваш сайт на 56 SEO-ошибок в 44 параметрах. 


      Нам не интересно показывать информацию «У вас на сайте 0 страниц с 404 кодом ответа сервера», так как, мы считаем, что пользователям эта информация не нужна. Ведь, в итоге, SEO-специалисту нужно скорее исправить ошибки внутренней оптимизаци, а значит его внимание должно быть нацелено на ошибки, потому мы так сильно акцентируем на них внимание. Даже проверку XML-карты сайта сделали так, чтобы найти ошибки, которые не показывает не то, что SFSS, а даже валидаторы поисковых систем.


      В итоге наши программы уже очень разные. А после того, как SFSS серьёзно подняли цены, то мы стали ещё более разными.


      При этом всём, мы не витаем в облаках, считая, что у нас уже – самый лучший десктопный SEO-краулер в мире. Мы понемногу планомерно к этому идём, зная свои слабые стороны и сильные стороны конкурентов.


      Так что я рад, что вы написали, что следите за нами → именно этого и хочу от всех пользователей, которые ещё не пользуются нашими продуктами :)


      P.S. Насчёт ваших предложений. Можно у вас уточнить, что вы имеете в виду под индивидуальными параметрами? Типа скрапинг контента по X-Path или регуляркам?

  2. 0
    год назад

    Без руссификации проблемно комфортно работать

    • 0
      Тимур
      год назад

      Тимур, мы обещаем русифицировать программу в течение 1 недели :) Если вы только зарегистрировались, у вас даже триал не успеет закончиться!)

      • 0
        Алекс Вайс
        год назад

        В ответ на регистрацию(((

        Oops! An Error Occurred

        The server returned a "500 Internal Server Error".

        Something is broken. Please let us know what you were doing when this error occurred. We will fix it as soon as possible. Sorry for any inconvenience caused.

        • 0
          Alexander Litvinenko
          год назад

          Александр, огромное спасибо, что написали!

          Ошибку уже исправили. А возникла она из-за нашей же оплошности :(

          Ждём вашей регистрации!)

  3. 1
    год назад

    Вы реально сделали прорыв в функционале проги. Новая версия на порядок круче предыдущей.

    Осваиваю функционал. Если можно задать тут пару вопросов-предложений.

    1. Я использую например фильтр, Status code - 301. В появившейся табличке только 2 колонки: URL адреса и status code. Но нет всех колонок, нет возможности соттировать результаты (нажимая на назвние колонки) по количество входящих ссылок и т.д.

    Если переходить на Current table summary то там слишком много информации.

    Если все действительно так, то очень просил бы добавить все стандартные колонки, на странице урлов подобранных по кастомному фильтру.

    2. Что это за 3 точки - http://prntscr.com/c3wa21 ?

    • 0
      Anokaliptik
      год назад

      Спасибо за приятный отзыв! :)

      Отвечаю на вопросы:

      1. Если вы воспользовались быстрым фильтром в панели «Issues» справа, то должны были попасть в такую табличку → http://img.netpeaksoftware.com/wise/HGCM90.png

      Здесь я стрелочками показываю:
      – сам фильтр справа;
      – возможность скроллинга + то, что параметров явно больше, чем 2.

      Таким образом, вы находитесь в отчёте, в котором отображаются все страницы, которые отдали 3xx код ответ сервера, т.е. любой редирект. Если хотите, можете отдельно отфильтровать именно 301 редиректы, как вы пишите – в этом случае, увидите такую же таблицу с большим количеством параметров.

      Чтобы точно решить этот вопрос, убедитесь, что в «Crawling Setting» (настройки сканирования) в разделе «Parameters» включено сканирование всех нужных вам параметров, а не только обязательных → http://img.netpeaksoftware.com/wise/HGD74Z.png

      2. Эта новая фишка – потяните за неё влево/вправо и получите возможность прикрепить нужное количество колонок. Например, можно сделать так → http://img.netpeaksoftware.com/wise/HGDKSQ.png

      P.s. к сожалению, пока что данная функция работает только на время текущей сессии. То есть, если вы выйдете из программы, то в следующий раз всё станет на свои места по умолчанию. Мы уже запланировали себе разобраться с этой проблемой в будущих релизах.)

      Если есть ещё вопросы – задавайте!)

  4. 0
    год назад

    Добрый день. Хотел скачать бесплатную версию, зарегистрировался на сайте https://netpeaksoftware.com/ucp, и так и не понял - как можно ее скачать? Вижу только 2 ссылки на платный контент.

    • 0
      Кирилл
      год назад

      Здравствуйте, Кирилл!

      В верхней части на странице, которую вы сами указали, можно увидеть зелёную кнопку "Download Launcher" → нажмите на неё и скачайте специальную программку Netpeak Launcher, которая позволяет учитывать ваши триалы/лицензии и без проблем обновлять программы.

      После того, как скачаете эту программу, установите её и войдите под своим email и паролем. Если вы только-только зарегистрировались, то уже автоматически получили 14 дней бесплатного триала полных версий всех продуктов. Вам останется только установить нужные программы и начать пользоваться!

      Если будут ещё вопросы → задавайте.

      P.s. скоро мы сделаем в личном кабинете пользователя одну доработку, которая позволит лучше понимать, что делать новым юзерам :)

      • 1
        Алекс Вайс
        год назад

        Спасибо за подробную инструкцию, всё получилось! Софт отличный!

        • 0
          Кирилл
          год назад

          Спасибо, мы сами очень довольны, как получилось!) С новой версией можно покрыть очень много кейсов использования, хоть иногда бывает и трудновато разобраться новому пользователю :(

          Буду благодарен, если со временем поделитесь предложениями и идеями, как ещё можно улучшить программу!)

  5. 0
    год назад

    В чем принципиальное отличие Netpeak Spider от Screaming Frog?

    • 0
      Roman Lipatov
      год назад

      1. Из хороших для нас сторон:
      1.1. Принципиально:
      1.1.1. Мы развиваемся дикими темпами и станем в итоге лучшим десктопным кроулером в мире.
      1.1.2. Мы дешевле.
      1.1.3. Мы рядом с СНГ-пользователями, а не где-то далеко.

      1.2. Технически:
      1.2.1. Мы стараемся сконцентрировать внимание пользователя на ошибках внутренней оптимизации (смотрите новую панель «Issues» и выделение каждой ячейки в таблице), а не предоставить кабину пилота какого-нибудь воздушного судна, где "миллион" параметров и ты не знаешь вообще, с чего начать.
      1.2.2. Мы даём гибко настраивать кроулинг → если вам не нужен какой-то параметр, отключи его и кроулинг будет проходить быстрее.
      1.2.3. Мы даём возможность показывать и экспортировать только те результаты, которые вам в данный момент нужны (новые внутренние таблицы, новые типы выбора данных, экспорт с учётом фильтрации, сортировки и группировки).
      1.2.4. Мы показываем больше данных о ссылках (типы ссылок, их атрибуты и исходный вид в коде).

      2. Из плохих для нас сторон:
      У SFSS есть: версия для Mac и Linux (мы уже работаем в этом направлении), кастомные режимы сканирования (по XML-карте сайта, по своему списку) и поиск по исходному коду (всё это будет у нас в самом ближайшем релизе), интеграция с GA и GSC (запланировано у нас на будущие релизы, пока что не в приоритете), SERP-симулятор (клёвая штука, но мы пока что не планируем), ещё несколько отличительных функций типа продолжения кроулинга на других компьютерах (в этих случаях мы будем следовать своей идеологии и делать максимально просто и удобно для пользователей).

      В итоге: в данный момент наши продукты достаточно разные, сколько бы их не сравнивали. Если вам не достаточно того, что написано выше, то попробуйте одновременно воспользоваться обоими продуктами (у них бесконечный триал на максимум 500 результатов; у нас ограниченный 14 днями триал на бесконечное количество результатов).

      • 0
        Алекс Вайс
        год назад

        1. Я уже давно пользуюсь Screaming Frog на macOS.
        2. Вы не дешевле. 117$ стоит только Netpeak Spider, в то время, как Screaming Frog стоит 132$ при этом выполняя часть функций Netpeak Checker (цена вместе 249$), а главное - он кроссплатформенный.

        На счет простоты и удобства вашего продукта - очень субъективно.

        • 0
          Roman Lipatov
          год назад

          1. Вы сами понимаете, что, если вы сами чем-нибудь пользуетесь очень давно, то очень сложно сделать так, чтобы вы пользовались чем-то новым. Однако никто не сказал, что мы сдались и смирились с такой ситуацией. Мы не намерены останавливаться на достигнутом, выше об этом уже говорил.

          2. Насчёт цены и преимуществ вашу логику я понял. Мы уже идём к тому, чтобы такое сравнение, как сделали вы, больше делать было нельзя.

          3. Насчёт простоты и удобства – согласен. Мы стараемся делать современные и понятные интерфейсы. Если вы заметили какие-то оплошности, лучше бы сказали нам → мы же не закрыты от критики :)

          • 0
            Алекс Вайс
            год назад

            Да многое не очевидно... Слишком много кликов надо делать.
            Например, программа нашла 404.
            Разумеется все что мне нужно - это найти страницы с битыми ссылками.
            Чтобы их узнать, нужно схватить ползунок горизонтального скрола, листать вправо, найти колонку Incoming Links, 2 раза кликнуть по полю, выйти в список, в нем раздвинуть ширину колонки, чтобы увидеть полный урл. Кстати, это действие программа не запоминает, и каждый раз, когда расширяю любые колонки, делать это нужно снова и снова после закрытия окна.
            В Screaming Frog эта операция делается в 2 клика.

            • 0
              Roman Lipatov
              год назад

              Роман, а вы читали обзор перед тем, как начать пользоваться новой версией?

              Просто я пытался достаточно чётко донести все наши преимущества и показать то, что SFSS в помине показать не сможет при их текущей архитектуре.

              Смотрите, всё на самом деле чуть проще, чем вы описали:
              1. Выбираете справа ошибку «4xx Error Pages: Client Error».
              2. А потом над таблицей делаете 2 клика «Current Table Summary» → «Incoming Links».

              Таким образом, вы откроете таблицу со всеми битыми ссылками. Да, это не 2 клика, как вы говорите, а целых 3... Зато вы можете просматривать эти данные в удобном виде, сортировать, группировать и даже фильтровать. И после этого выгрузить в Excel или CSV (кстати, выгрузка полностью учитывает всё, что вы там насортировали, нагруппировали и нафильтровали, чего в SFSS снова нет).

              Нравится вам такого рода отчёт? Мы очень старались дать возможность чуть ли не выходить их программы, а максимум действий иметь возможность делать прямо в ней.

              P.s. по поводу запоминания ширины и расположения колонок мы много думали и пока что реализовали именно так: ведь, задумайтесь сами, на одних сайтах у вас URL длинный, а на других короткий; на одних сайтах вам необходимо видеть сначала URL, за ним сразу Title, а на других Canonical рядом с URL. Так как мы не уверены на 100%, как будет лучше, потому реализовали такую систему. В будущем мы запланировали внедрить более гибкую систему, чтобы удовлетворить запросы таких пользователей, как вы.

  6. 0
    год назад

    Добрый день, А версия на русском языке будет?

  7. 0
    год назад

    И что будет со старым продуктом, если не обновляться)

    • 0
      Sergey
      год назад

      А о каком старом продукте вы говорите – Netpeak Spider 2.0 или 1.x?

      • 0
        Алекс Вайс
        год назад

        1,0,13,3

        • 1
          Sergey
          год назад

          В начале этого обзора я указал ссылку на наш предыдущий пресс-релиз → там указывается судьба наших старых программ. Если коротко, то мы планируем перестать поддерживать их и, в принципе, закрыть. Я очень не хочу, чтобы с названием Netpeak Spider ассоциировалось какая-то старая неоптимизированная, плохо работающая версия.

          Все силы мы кидаем на новую версию, которая распространяется теперь на основе подписки с оплатой раз в 1, 3, 6, и 12 месяцев.

  8. 0
    год назад

    Можете добавить Количество вхождение главного ключа на странице(% от обьема контента + можно кол-во гл ключа), которое используется в теле контента, Ну и плюшки по анализу контента)). Спасибо :)

    • 0
      Sergey
      год назад

      Сергей, спасибо за идеи – в ближайших релизах сделаем то, что запланировано и потом обдумаем глобально и системно, как можно без проблем внедрить фишки по анализу контента :)

  9. 0
    год назад

    А на чекауте там проблемы. хотела купить лицензию, а деньги брать не хотят((

    http://prntscr.com/c1nhxi

  10. 0
    год назад

    А русская версия программы есть?

    И попробовать триал без оплаты?

    • 2
      Anton
      год назад

      1. Внутри программ пока что не успеваем добавить поддержку русского языка, но в действительности мы поддерживаем пользователей на русском языке без проблем. Попробуйте с нами связаться и убедитесь в этом!)

      В сами программы и всю среду Netpeak Software (сайт, сообщество и т.д.) русский язык мы добавим наравне с другими популярными языками. Однако могу сразу сказать, что благодаря вот таким вопросам, как задаёте вы (про русский язык) мы скорее внедрим именно тот язык, что вы хотите :)

      2. Попробовать триал без оплаты можно и даже нужно. Для этого необходимо всего лишь зарегистрироваться у нас на сайте → https://netpeaksoftware.com/

      После регистрации у вас автоматически начинается триал, который будет длиться 14 дней. А если вы раньше пользовались нашими программами, то мы вам на почту отправляли письмо после релиза версии 2.0. Если так, то просто поищите письмо, там триал до 19 августа 2016 года.

  11. 0
    год назад

    Поработайте над пользовательскими сценариями.

    Зарегался с FB. На почту ничего не получил.

    Итого. В программу не войти.
    Пароль в панели не восстановить, потому что не прислали старый пароль.

    Понятно, что можно еще потратить время и все таки узнать свой пароль, но как-то это не приятно.

    • 0
      George Shilov
      год назад

      С пользовательскими сценариями мы очень тщательно поработали – разумеется, есть вероятность, что мы что-то пропустили, но есть такая же вероятность, что вы что-то пропустили, потому давайте разбираться :)

      1. Если вы пользовались старой версией Netpeak Spider и она была зарегистрирована на тот же email, что и в Facebook → тогда проверьте свою почту, мы вам отправляли email и пароль, когда релизили версию 2.0. Очень странно, что вы не можете восстановить пароль, если для восстановления пароля нужен только email (зачем вам старый пароль?).

      2. Если же вы никогда раньше не пользовались нашими продуктами Netpeak Spider / Netpeak Checker, и зарегистрировались через Facebook → то вы скорее пропустили специальную страничку, которая является обязательной для входа в личный кабинет https://netpeaksoftware.com/ucp /> Если этот вариант подходит, то просто попробуйте ещё раз попасть в свой личный кабинет, например по такому же пути (логин через Facebook).

      Ждём вашего ответа, всё ли получилось.)

      • 0
        Алекс Вайс
        год назад

        Аналогичная ситуация.
        Просто попробуйте сами повторить эти действия.
        Логин через фб. Попадание в дашборд. качаем софт. устанавливаем, запускаем. просит логин и пароль. логин вы знаете это почта фб. а пароль??))

        • 0
          Oleg Dez
          год назад

          Привет, Олег!

          Я почти уверен, что проблема в том, что вы раньше пользовались нашими продуктами, а значит ваш email уже есть в нашей базе. Для всех старых юзеров мы отправляли специальное письмо, в котором указали данные для входа (email и сгенерированный пароль).

          Если у вас возникает проблема с паролем, то есть 2 варианта:
          1) попробуйте найти письмо от нас с темой "Your Personal Invite to New Netpeak Software Tools";

          2) если лень искать, просто восстановите пароль через форму https://netpeaksoftware.com/forgot-password → это займёт несколько минут и после этого вы полноценно сможете протестировать программы :)

Чтобы оставить комментарий, необходимо авторизироваться

Подписаться

на самую полезную рассылку по интернет-маркетингу

Самое

обсуждаемое популярное читаемое