Как оценить «коммерческость» запроса в Яндексе

После заявления Садовского «об отмене учета ссылок по коммерческим запросам» в Яндексе по Московскому региону, на SEOфорумах разразились настоящие холивары о том, что же считать коммерческим запросам. Мнений много, но вот хоть сколько-нибудь приемлемой методологии оценки мне встречать не доводилось. Из наиболее интересного по этой теме можно ознакомиться с публикацией в блоге вебэффектора, но там даны лишь результаты тестирования, детали алгоритма естественно не приводятся. Основная ценность этой публикации на мой взгляд в идее: чем больше коммерческих сайтов в топе, тем более коммерческим является запрос. По сути, предлагается поменять местами причину и следствие – Яндекс сначала «определяет» на сколько запрос коммерческий и уже потом «решает» сколько должно быть в топе коммерческих сайтов. Мы же можем поступить наоборот, посчитать сколько в топе коммерческих сайтов и на основе этого сделать предположение, на сколько запрос является коммерческим.

На данном этапе возникает философский вопрос – а что собственно считать коммерческим сайтом? Очевидно, что корпоративный сайт продающий товары/услуги является коммерческим, также как и сайты ecommerce. Но как быть с досками объявлений, или каталогами организаций, прайсовыми агрегаторами и т.п., по сути они тоже являются в определенном смысле «коммерческими». Чтобы решить эту дилемму пришлось сделать ряд допущений. Мне нужно было разработать методологию для оценки семантических ядер и специфика моей работы такова, что подавляющая часть клиентов – это представители малого и среднего бизнеса с корпоративными сайтами, или интернет-магазинами. В дальнейшем их будем считать «коммерческими», а все остальные «не коммерческими».

Как оценить «коммерческость» запроса в Яндексе

Как можно автоматически оценить является ли сайт коммерческим? Самый первый способ, обладающей хорошей точностью, но к сожалению скудной полнотой – это проверить сайт по Яндекс.Бару. Существует 4 группы:

  • Некоммерческие
  • Государственные
  • Общие
  • Коммерческие

По сути, если сайт отнесен к одной из первых трех групп, то его можно считать не коммерческим, а если отнесен к последней группе, то коммерческим.

Второй вариант оценки – коммерческий сайт подразумевает наличие контактной информации. Очень часто коммерческие сайты находятся в Яндекс.Справочнике, что приводит к тому, что в поисковой выдаче у главной страницы сайта отображается блок «Адрес». Если такой блок есть, то предполагаем, что сайт коммерческий, если блока с адресом нет, то считаем сайт не коммерческим. Данная оценка имеет проблемы как с полнотой – не все коммерческие сайты добавлены в Яндекс.Справочник, так и с точностью – в Яндекс.Справочник добавлены и не коммерческие сайты, например музеи, поэтому целесообразно объединить первый и второй вариант оценки.

Общая схема выглядит следующим образом: получить список сайтов из топа, проверить каждый сайт на принадлежность к «коммерческой», или «не коммерческой» группе в Яндекс.Баре. Сайты у которых указанная выше принадлежность не определена, проверить на наличие в сниппете главной страницы «Адреса».

Ниже будет представлен практический пример оценки и приведены результаты, но прежде хочу заострить внимание на важном моменте. Используя описанную выше методику, мы по сути определяем является ли сайт коммерческим, но при этом не учитываем, что на коммерческом хосте может быть не коммерческий документ. С одной стороны это конечно проблема, т.к. мы относим не коммерческий запрос в коммерческую группу, но с другой – если кто-то смог «продвинуть в топ» не коммерческий документ на коммерческом сайте, то другой коммерческий сайт скорее всего сможет это повторить. Другими словами, данная методика позволит отобрать запросы, по которым можно продвинуть коммерческий сайт, но может дать сбой, когда необходимо распределить запросы по коммерческим и не коммерческим документам.

Определяем «коммерческость» на практике

Для того, чтобы определить «коммерческость» запросов в полевых условиях понадобятся: KeyCollector, NetPeakChecker, FustTrust, Excel.

Перво-наперво загружаем в KeyCollector список анализируемых запросов, в настройках программы должна быть включена запись сниппетов (Настройки > KEI > Поставить чекбокс у «Записывать сниппеты из ПС Яндекс, Google»). Собираем информацию по топу в интересующем регионе, выгружаем данные о поисковой выдаче:

01

На выходе получается вот такой эксель файл:

01

Удаляем первые 2 строки, удаляем столбец B (с заголовками страниц), должно остаться только запрос / сайты:

02

Выделяем столбец Bи использую функционал Эксель «Текст по столбцам» делем URL’ы на домены:

03

Удаляем лишнее, получаем файл вида:

04

Полученный список доменов необходимо почистить от дублей. Можно использовать функционал Экселя, но лично мне проще это делать в NotePad++. После чистки на 1984 запроса из моего примера осталось 3283 домена.

Следующий этап – проверить не отнесен ли сайт к одной из 4 групп в Яндекс.Баре. Для этого используем NetPeakChecker.

05

Важный момент – необходимо парсить в один поток, т.к. при большем количестве программа собирает данные не корректно.

Обработка полученных результатов – все сайты определенные как «коммерческие» помечаем в Экселе «1», сайты определенные в группы «Не коммерческие / Государственные / Общие» помечаем «0». У меня получилось определить для 406 сайтов из 3283.

Сайты для которых сектор не определен добавляем в FustTrust. В настройках выставляем какой параметр парсить:

06

Когда парсинг закончится – выгрузить результаты, нужна связка «link_url» / «Яндекс.Адрес».

Заключительный этап – в Экселе объдинить данные из NetPeakChecker и FustTrust, получается что-то вроде этого:

07

Заключительная задача – увязать информацию по доменам с информацией по запросам. Тут необходимо немного пошаманить в Экселе, объяснять на пальцах что да как не буду, вот готовый пример. Важный нюанс – в конце списка запросов в колонке Aобязательно должна быть еще 1 заполненная строчка, как в примере, иначе не будет корректно считать.

Ради интереса сопоставил информацию о полученной «коммерческости» с информацией о геозависимости. Сразу хочу заметить, что геозависимость для большей точности снимал через XML, т.к. через выдачу очень часто бывают не корректные результаты. Вот несколько примеров геонезависимых запросов с высокой «коммерческостью»:

  • контурная и объемная пластика — 1
  • интимная контурная пластика фото — 0.8
  • контурная пластика фото — 0.7

И наоборот, запросы которые были определены как геозависимые с низкой «коммерческостью»:

  • необычные пластические операции — 0
  • шоу пластические операции — 0
  • презентация пластическая хирургия — 0.1
  • пластические операции моделей — 0.1

Итоговый файл сопоставления «коммерческости» и «геозависимости» доступен тут. На этом всё :)

BR-C1294CC56511-24-03-28-21
Понравилась статья? Поделиться с друзьями:
Комментарии: 8
  1. Александр

    А разве парсинг сервисов в КК по «коммерции» не дает правильной картины?

  2. Bakalov Igor (автор)

    Александр, есть конечно. Но встречный вопрос, а вы понимаете как они рассчитываются и на сколько им можно верить? Это как верить в мефические «трасты», которые считают разные SEO сервисы.

  3. Freethinker

    Стоит заметить, что запросы со словом «фото» практически всегда гНз. По крайней мере в последние несколько месяцев обратное я встречал крайне редко, в качестве скорее исключения, чем правила.

  4. Иван

    Добрый день. Я мало понял, как появились сайты не из ТОПа? А также как вы сопоставили их с запросами? Что за колдовство? )))

  5. Иван

    Добрый день. Какой программой снимал «Сразу хочу заметить, что геозависимость для большей точности снимал через XML» KeyCollector?

  6. Bakalov Igor (автор)

    Иван, да в KeyColloector

  7. Иван

    Добрый день. Как это работает?
    «Как можно автоматически оценить является ли сайт коммерческим? Самый первый способ, обладающей хорошей точностью, но к сожалению скудной полнотой – это проверить сайт по Яндекс.Бару. Существует 4 группы:

    Некоммерческие
    Государственные
    Общие
    Коммерческие»

  8. Зенков Андрей

    По такому признаку различать поисковые запросы пока не пробовал. Он действительно хорошо работает?

Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: