Фильтрация навигационных запросов в KeyCollector

Если вы часто подбираете семантические ядра для коммерческих сайтов, то вероятно уже сталкивались с проблемой, когда в некоторых тематиках при «широком парсинге» набирается много навигационного мусора. Например, вы подбираете ядро по основному запросу «гостиницы», или «агентство недвижимости» для конкретного бизнеса, а после того как вы спарсили вордстат и подсказки, у вас в KeyCollector’е оказывает куча запросов вида «гостиница бренд1», «снять номер в гостинице бренд2» и т. п. Такие запросы не выберешь при помощи словаря стоп-слов, ведь брендов неимоверное число в разных тематиках, кроме этого могут быть и не очевидные запросы, вроде «гостиница у фонтана санкт петербург», или «отель премиум санкт петербург». Собственно, эта статья как раз про то, как значительно упростить фильтрацию подобных навигационных запросов в KeyCollector.

Основная мысль — если в Яндексе по запросу какой-либо сайт занимает сразу несколько верхних позиций, то вероятно запрос навигационный. В настоящее время KeyCollector не умеет считать подобные вещи. Больше месяца назад я писал им в сапорт с предложением о внедрении, ответили что добавят в todo лист, но воз и ныне там, а работать надо, поэтому используем костыли.

Итак, вы собрали необходимое число запросов, следующим шагом необходимо собрать результаты выдачи Яндекса. Для начала нужно зайти в «настройки программы» ? KEI ? и в самом низу поставить галочку «Записывать сниппеты из ПС Яндекс и Google».

Дальше собираете информацию о «Геозависимости по ПС Яндекс», при этом также соберутся данные о «Корректности словоформы», а также в «Количество вхождений в ПС Яндекс» будет информация по топ-10 для каждого запроса (URL и сниппеты). Чтобы выгрузить данные на выпадающей кнопке «KEI» надо выбрать «Экспортировать данные о поисковой выдаче».

В выгруженной таблице необходимо оставить только столбцы с запросом и URL. Затем, «обрезать» все URL до домена — это можно сделать или текстовыми фильтрами в Excel, или регулярками в NotePad++. В результате в ячейках A1, A11, A21 и т. д. будут запросы, а в колонке «B» сайты из топа — в B1-B10 для первого запроса, в B11-B20 для второго и т. д.

Тут правда есть узкое место — если по запросу не было найдено 10 результатов, то вся схема может не сработать, но в Яндексе такие запросы попадаются не часто (дальнейшая схема строится на том, что подобных запросов не было).

В колонке «C» надо подсчитать сколько раз встречается первый домен среди 10 результатов. В ячейку C1 прописываете формулу «=СЧЁТЕСЛИ(B1:B10;B1)», в ячейку C11 формулу «=СЧЁТЕСЛИ(B11:B20;B11)», в ячейку С21 формулу «=СЧЁТЕСЛИ(B21:B30;B21)», после чего необходимо выделить ячейки с C1 по C30 и продлить формулу до конца таблицы (если кто не знает, то в excel это делает двойным нажатием на правый нижний угол выделенного фрагмента). Для дальнейшей фильтрации необходимо скопировать данные из столбца C и вставить в D, но уже не как формулу, а как значения. В результате будет примерно такой файл.

Заключительный шаг — выполнить сортировку по столбцу D от большего к меньшему, все запросы для которых значение будет >1 скорее всего навигационные (при желании их можно отдельно фильтровать руками). Удалить фразы в KeyCollector можно при помощи функционала «Стоп-слова», выбрав «Точное соответствие».

Сегодня подобным образом мне удалось выцепить 450 запросов из 1200 (тематика гостиницы), сколько бы я это фильтровал руками даже думать не хочется Естественно, среди оставшихся 750 запросов были и другие навигационные, но сокращение объема данных для ручного анализа почти на 40% — очень даже не плохо.

Надеюсь вам пригодится мой опыт, а еще надеюсь, что разработчики KeyCollector’a внедрят необходимый функционал и больше не придется изобретать подобные костыли.

Мой друг, наставник, учитель и гуру SEO Пономарь Александр, в своей статье рассказал о том, как фильтровать крупные ядро в Гей Коллекторе.

Update: Для тех кто не понял как это все работает — я специально записал поясняющее видео:

[youtube video=»x0ZTo3KyqHM»]

BR-5D82A31CB2FA-26-06-14-13

Комментарии: 5

Freethinker 9 августа 2014 в 13:34

Отличная статья, спасибо. Даже не думал, что такой гемор можно автоматизировать. *thumbsup*

Ответить
Святослав 21 ноября 2014 в 0:02

Неплохо. Видел ваше общение со службой поддержки, но так и не понял в чем камень преткновения.
Не в том ли что использование этой функции рационально только при строго определенных видах запроса, которые сложно порой правильно идентифицировать?
Иными словами, есть запросы при которых эта функция будет вредной?
(теряюсь в догадках)
Игорь, пролейте свет!

Ответить
Bakalov Igor (автор) 21 ноября 2014 в 11:30

Святослав, на счет вреда — я проблем с этим не вижу, но дурак и из палки может застрелиться Я уже привык использовать для данной операции эксель, поэтому от сапорта с этим вопросом отстал. На мой взгляд было бы лучше, если бы внедрили проверку на витальные сайты по XML — тоже писал в техподдержку, но реализации нет.

Ответить
Андрей 22 июня 2015 в 13:51

Спасибо вам большое за такой развернутый и полезный материал, попробовал данную схему на одном из продвигаемым сайтам «Отеля» отчистил 60% навигационных запросов, вполне не плохо. Мало так, скорее всего из-за того, что множество отелей в городе не имеют оф. сайта

Ответить
алекс 31 июля 2020 в 11:49

Спасибо за классное руководство.

Ответить

Добавить комментарий