Классификация запросов на «информационные» и «коммерческие»

Летом прошлого года я уже писал о том, как можно определить «коммерческость» запросов, в основе метода была идея – чем больше в топ-10 коммерческих сайтов, тем более коммерческим является запрос. Для проверки является ли сайт коммерческим использовались данные из Яндекс.Бара и Яндекс.Справочника. Данный метод имел сразу несколько недостатков: во-первых оценка происходила на уровне сайта, а не конкретной страницы, таким образом не учитывалось, что на коммерческом сайте может быть информационный документ; во-вторых были проблемы с точностью и полнотой данных – не все коммерческие сайты добавлены в Яндекс.Справочник, а также не все сайты размещенные там являются коммерческими.

В последнее время методика определения коммерческих запросов была мной доработана, об этом я рассказывал на онлайн-конференциях MegaIndex и SmartFox, теперь пришло время собрать всю информацию воедино в блоге.

Основная идея осталось прежней – оценить сколько результатов в топ-10 отдано под коммерческие документы, а сколько под информационные. При этом считаем, что:

  • Коммерческий документ – продает товары и/или услуги конкретного бизнеса, стоящего за сайтом;
  • Информационный документ – ничего не продает, или рекламирует товар стороннего бизнеса.

Сама классификация достаточно спорна, поэтому поясню, что к чему:

Если в топе сидит сайт конкретного интернет-магазина с карточкой товара, или строительной фирмы с прайс-листом на услуги, то все просто – это коммерческий документ.

Если в топе страница блога, в которой рассказывается как что-то сделать своими руками, при этом никакой информацию о том, что можно купить/заказать товар или услугу – это информационный документ.

Однако очень часто в топе можно встретить сайты агрегаторы (zoon.ru), доски объявлений (avito.ru), торговые площадки (market.yandex.ru) и встает вопрос – считать ли их коммерческими? На мой взгляд, если вы продвигаете сайт конкретного бизнеса, то выше описанные типы сайтов стоит относить к информационным. Мысль здесь следующая – если по запросу [q] в топ-10 нет ни одного сайта конкретного бизнеса, то не важно – там блоги и форумы, или доски и агрегаторы, скорее всего сайт конкретного бизнеса в топ-10 вывести не получится.

Что оценивать

Для того, чтобы понять является ли документ коммерческим, или информационным я предлагаю оценивать следующий набор признаков:

  • Домен – на мой взгляд удачной практикой будет создание «белых списков», в которые можно занести отдельные домены, чтобы не тратить время на их оценку. Например, все страницы сайта wikipedia.org считать информационными.
  • Маркеры в URL – отдельные фрагменты адресов страниц также можно использовать для оценки, например если в URL встречается «topic», «showforum», «obzor» и т.п, то можно считать данный документ информационным.
  • Анализ контента: наличие на сайте контекстной и/или тизерной рекламы – информационный документ. Сюда также можно отнести наличие ссылки на страницу «Реклама на сайте».
  • Анализ контента: наличие кнопки «Купить», «Заказать», «Корзина» — коммерческий документ;
  • Анализ контента: наличие ссылки на страницу «Прайс», «Цены», «Наши услуги» — коммерческий документ;
  • Осторожно можно учитывать: наличие прямого городского номера телефона, наличие онлайн-консультанта – как свойства коммерческого документа.

Как оценивать семантическое ядро

Подразумевается, что семантическое ядро уже есть и по нему вы собрали топ-10 результатов поиска. Если делать выгрузку при помощи Key Collector, то результат имеет вид:

Для примера я решил разобрать семантическое ядро в тематике «пластическая хирургия». Очевидно, что в этой тематике будут как информационные, так и коммерческие запросы. Примерно для 2000 запросов вышло около 9000 уникальных URL, которые встретились в топ-10.

Для ускорения процесса оценки имеет смысл сначала проверять быстрые признаки – это фрагменты URL и домены. Проще всего это делать средствами Notepad++, использую поиск по регулярному выражению с чекбоксом «Помечать Закладкой»:

В моем случае, благодаря предварительной фильтрации удалось сразу пометить около 2000 URL. Таким образом получается два списка, первый – страницы, которые определены как информационные, второй – страницы для которых необходимо проверить контент.

Анализ содержимого страниц я проводил средствами ZennoPoster, но можно использовать любое другое программное обеспечение, или собственный скрипт. Важный момент, на которой стоит обратить внимание – лучше анализировать не голый HTML, а DOM. На выходе получается таблица, где для каждого URL указано наличие, или отсутствие тех, или иных свойств. Интерпретация результатов – отдельная, не простая задача. Например, если на странице есть контекстная реклама, то данный документ можно не глядя отнести к информационным. С другой стороны, если есть кнопка «Купить» и «Корзина», то документ с большой долей вероятности отнести в группу коммерческих. Однако простое наличие онлайн консультанта, или ссылки на раздел с ценами/услугами может быть не достаточно надёжным признаком коммерческого документа, поэтому имеет смысл опираться на несколько признаков. Вывод: без глаза-алмаза никуда :)

В результате всех этих манипуляций получается Excel таблица, где в первой колонке находится URL, а во второй 0, или 1, в зависимости от того, является ли данный URL информационным, или коммерческим. Когда имеется оценка для каждого URL из топ-10, то можно получить оценку и для самого запроса, просуммировав значения и разделив полученное число на 10. Реализуется все средствами Excel, расписывать долго, если не умеете сделать сами, пишите в комментариях, я скину пример вам на почту.

Предлагаю ознакомиться с результат работы в тематике «пластическая хирургия», в колонке A запрос, в колонке B топ-10 в Московской выдачи Яндекса, колонка C – оценка конкретного URL (1 – коммерческий, 0 – не коммерческий). Колонка E – запрос, колонка F – оценка того, на сколько данный запрос является коммерческим, G – геозависимость запроса (для наглядности).

Буду рад ответить на вопросы и подписывайтесь на мой канал на YouTube ;)

BR-0D49DE1D579A-23-09-21-09
Понравилась статья? Поделиться с друзьями:
Комментарии: 20
  1. Рэшад

    Статья то, что надо, похоже на то, что сам выводил

  2. Дмитрий Севальнев

    Игорёк, круто всё, но:

    1. Геозависимость как определял? Есть ошибки в колонке, скажем [пластическая операция роговицы] на самом ГНЗ.

    [пластическая операция тимошенко 2014] как бы тоже, ну и т.д.

    2. Оцени по своей методике, ради фана, запросы: [баскетбол слэм данк в корзину] и [корзина из газетных трубочек мастер класс для начинающих].

    Йоу!

  3. Владимир

    Каким софтом можно вытащить все урлы из топ 10 по СЯ допустим из 1000 запросов?
    Что б с минимумом действий получить exel файл с урлами?

  4. Bakalov Igor (автор)

    Дмитрий Севальнев, гео чекал через KeyCollector (XML выдача), на счет запросов — ок, сегодня постараюсь сделать.

    Владимир, это можно делать средствами KeyCollector, в статье есть скриншот, на котором видно как выглядит выгрузка.

  5. Bakalov Igor (автор)

    Дим, сделал: http://bakalov.info/wp-content/files/prmer-kommercheskost-2-sevalnev.xlsx в таблице также обозначены «причины», по которым URL из топа попал в коммерческую/информационную группу.

  6. Александр

    Приветствую , Игорь .
    Очень интересная практика.
    Хотелось бы оценить такую проверку может быть подскажешь примеры регулярное которыми матчил параметры?

  7. Bakalov Igor (автор)

    Александр, привет. Уточни что ты подразумеваешь под «примеры регулярное которыми матчил параметры»? :)

  8. Владимир

    Игорь, к какому типу запросов вы бы отнесли, например, запрос «свитшоты nike»? В ТОП10 по этому запросу есть сайты магазинов (Lamoda.ru, WildBerries.ru и т.д.) и есть сайты, которые внешне выглядят как магазины (shmoter.ru, ShopoMio.ru), но на самом деле при выборе товара отправляют посетителя на такие сайты как Lamoda.ru и WildBerries.ru?
    И к каким типам сайтов вы бы отнесли подобные перенаправляющие сайты?
    Спасибо.

  9. Bakalov Igor (автор)

    Владимир, специально не прогонял, но если на глаз, то:
    shopomio.ru — определился бы как информационный, т.к. на нем стоит AdSense
    shmoter.ru — определился бы как информационный, т.к. в исходном коде есть партнерские ссылки вида: ad.admitad.com/goto/ (правда у меня тут полнота скудная, ищу только admitad и cityads)
    Lamoda, WildBerries и другие магазины — скорее всего как коммерческие определились бы.
    Ну а дальше по методе, считается сколько коммерческих страниц, сколько информационных, выводится значение.
    Хотя конечно спорно, стоит ли партнерские магазины считать за информационные… Я считаю :)

  10. Владимир

    Игорь, ну разумеется, что наличие AdSense — это сигнал говорящий в пользу информационного сайта. Но достаточно ли одного этого сигнала, чтобы отнести страницу к информационной? На страницах таких сайтов как shopomio.ru и shmoter.ru есть признаки как коммерческих сайтов, так и информационных. Ваше мнение вполне логично. Я свое еще не выработал. Интересно к какому типу страниц относят ПС страницы таких сайтов.

  11. Bakalov Igor (автор)

    Владимир, я определяю тип страницы бинарно, либо коммерческая, либо информационная. Конечно можно пойти дальше и считать для каждого URL значение в интервале [0,1] с различными весами за те, или иные факторы на странице. Но эвристически придумать нормальную формулу для этого — на мой взгляд весьма проблематично, поэтому тут только задействовать машинное обучение, но у меня нет опыта в этой области.

  12. Владимир

    Насчет бинарности типа страниц тоже так думаю. Другое дело выдача может быть смешанная. Попробую помучить саппорт SEMparser, Rush Analytics и, возможно Семен-Ядрен на счет «черного ящика».

  13. Владимир

    Переписывался с саппортом Rush Analytics. Они не определяют запросы как коммерческие или некоммерческие. Делают только кластеризацию на основе топа.
    По поводу разделения запросов на коммерческие и некоммерческие они посоветовали создать два проекта и отфильтровывать запросы по стоп-словам на уровне самих запросов, не обращаясь за этим в выдачу. То есть составить список стоп-слов, характерных для информационных запросов. Тогда по ним из всего списка запросов будут удаляться информационные запросы и останутся только коммерческие. Аналогично поступить для сбора информационных запросов.

  14. St.eV

    Привет!

    Спасибо за статью, мы решили начать раскопки в этом направлении внутри студии.

    Мне кажется, что примером коммерческости являются наличие на сайте он-лайн консультантов, виджетов «перезвоните мне» и отсутствие контекстной рекламы.

    Также, есть смысл парсить контакты и искать страницу «о компании». Но тут тоже — не факт. Различные благотворительные фонды будут попадаться.

  15. Марина

    Игорь, спасибо, очень полезны статьи, и особенно видео на вашем канале youtobe.
    У меня вопрос как у новичка: вот семантическое ядро собрано, разбито по группам, как или где лучше вести учет, какие ключевые слова к каким страницам на сайте были привязаны?
    Я понимаю, что можно просто вести Excel, но если ключей 10 тыс, это просто не реально искать.
    Например, после анализа конкурентов было принято решение переоптимизировать страницу — поменть пару ключей, теги и тд. В таблице замучаешься каждый ключ искать, был ли он уже использован на сайте, на какой странице и в какой связке… Ведь не рекомендуется один и тот же ключ на несколько странц на сайте вешать.
    В общем: есть ли какой-то секрет грамотного ведения такого учета и привязки ключей и страниц?

    Спасибо!

  16. Александр Айкхофф

    Игорь, если не трудно, подскажите пожалуйста регулярное выражение, с помощью которого вы отсеивали «информационные» сайта в NotePad++.

  17. Александр

    Здравствуйте.

    Вопрос от новичка в СЕО — почти совсем «зеленый»

    Мне нужно 300 заголовков для сео статей под темы:

    стартапы, продажи, смм, млм

    Что посоветуете, чтобы я смог написать 300 статей в этих темах.
    1. Как собрать правильные ключи или с помощью чего?;
    2. на какую частотность ориентироваться вначале для молодого сайта?

    Из инструментов есть КейКоллектор

    Большое спасибо за внимание!

  18. Ольга

    Здравствуйте. Скажите пож как вы высчитали коммерческость запросов? можно формулу на почту. Потому что семант. большое а вручную проверять как то не выйдет.

  19. Ольга

    Использовать Notepad++обязательно?
    Если да можете помочь.

    Когда имеется оценка для каждого URL из топ-10, то можно получить оценку и для самого запроса, просуммировав значения и разделив полученное число на 10. Реализуется все средствами Excel, расписывать долго, если не умеете сделать сами, пишите в комментариях, я скину пример вам на почту.

    Помогите если необходимо начать с Notepad++ то как и куда что вписывать. И в Excel какие значения мы суммируем после и делим на 10

  20. Роман

    Доброго времени суток.
    Как вычислисть коммерческий запрос или информационный с помощью формулы. Что бы значения были 0 или 1. Где о это информационный а 1 это коммерческий. И каким образом мы получим оценку для самого запроса?. Какие числа мы суммируем и делим на 10 что бы вышел результат по оценке коммерческости запроса
    Спасибо

Добавить комментарий для Ольга Отменить ответ

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: