Классификация запросов на «информационные» и «коммерческие»

  1. 5
  2. 4
  3. 3
  4. 2
  5. 1
(29 голосов, в среднем: 4.6 из 5)

Летом прошлого года я уже писал о том, как можно определить «коммерческость» запросов, в основе метода была идея – чем больше в топ-10 коммерческих сайтов, тем более коммерческим является запрос. Для проверки является ли сайт коммерческим использовались данные из Яндекс.Бара и Яндекс.Справочника. Данный метод имел сразу несколько недостатков: во-первых оценка происходила на уровне сайта, а не конкретной страницы, таким образом не учитывалось, что на коммерческом сайте может быть информационный документ; во-вторых были проблемы с точностью и полнотой данных – не все коммерческие сайты добавлены в Яндекс.Справочник, а также не все сайты размещенные там являются коммерческими.

В последнее время методика определения коммерческих запросов была мной доработана, об этом я рассказывал на онлайн-конференциях MegaIndex и SmartFox, теперь пришло время собрать всю информацию воедино в блоге.

Основная идея осталось прежней – оценить сколько результатов в топ-10 отдано под коммерческие документы, а сколько под информационные. При этом считаем, что:

  • Коммерческий документ – продает товары и/или услуги конкретного бизнеса, стоящего за сайтом;
  • Информационный документ – ничего не продает, или рекламирует товар стороннего бизнеса.

Сама классификация достаточно спорна, поэтому поясню, что к чему:

Если в топе сидит сайт конкретного интернет-магазина с карточкой товара, или строительной фирмы с прайс-листом на услуги, то все просто – это коммерческий документ.

Если в топе страница блога, в которой рассказывается как что-то сделать своими руками, при этом никакой информацию о том, что можно купить/заказать товар или услугу – это информационный документ.

Однако очень часто в топе можно встретить сайты агрегаторы (zoon.ru), доски объявлений (avito.ru), торговые площадки (market.yandex.ru) и встает вопрос – считать ли их коммерческими? На мой взгляд, если вы продвигаете сайт конкретного бизнеса, то выше описанные типы сайтов стоит относить к информационным. Мысль здесь следующая – если по запросу [q] в топ-10 нет ни одного сайта конкретного бизнеса, то не важно – там блоги и форумы, или доски и агрегаторы, скорее всего сайт конкретного бизнеса в топ-10 вывести не получится.

Что оценивать

Для того, чтобы понять является ли документ коммерческим, или информационным я предлагаю оценивать следующий набор признаков:

  • Домен – на мой взгляд удачной практикой будет создание «белых списков», в которые можно занести отдельные домены, чтобы не тратить время на их оценку. Например, все страницы сайта wikipedia.org считать информационными.
  • Маркеры в URL – отдельные фрагменты адресов страниц также можно использовать для оценки, например если в URL встречается «topic», «showforum», «obzor» и т.п, то можно считать данный документ информационным.
  • Анализ контента: наличие на сайте контекстной и/или тизерной рекламы – информационный документ. Сюда также можно отнести наличие ссылки на страницу «Реклама на сайте».
  • Анализ контента: наличие кнопки «Купить», «Заказать», «Корзина» — коммерческий документ;
  • Анализ контента: наличие ссылки на страницу «Прайс», «Цены», «Наши услуги» — коммерческий документ;
  • Осторожно можно учитывать: наличие прямого городского номера телефона, наличие онлайн-консультанта – как свойства коммерческого документа.

Как оценивать семантическое ядро

Подразумевается, что семантическое ядро уже есть и по нему вы собрали топ-10 результатов поиска. Если делать выгрузку при помощи Key Collector, то результат имеет вид:

Для примера я решил разобрать семантическое ядро в тематике «пластическая хирургия». Очевидно, что в этой тематике будут как информационные, так и коммерческие запросы. Примерно для 2000 запросов вышло около 9000 уникальных URL, которые встретились в топ-10.

Для ускорения процесса оценки имеет смысл сначала проверять быстрые признаки – это фрагменты URL и домены. Проще всего это делать средствами Notepad++, использую поиск по регулярному выражению с чекбоксом «Помечать Закладкой»:

В моем случае, благодаря предварительной фильтрации удалось сразу пометить около 2000 URL. Таким образом получается два списка, первый – страницы, которые определены как информационные, второй – страницы для которых необходимо проверить контент.

Анализ содержимого страниц я проводил средствами ZennoPoster, но можно использовать любое другое программное обеспечение, или собственный скрипт. Важный момент, на которой стоит обратить внимание – лучше анализировать не голый HTML, а DOM. На выходе получается таблица, где для каждого URL указано наличие, или отсутствие тех, или иных свойств. Интерпретация результатов – отдельная, не простая задача. Например, если на странице есть контекстная реклама, то данный документ можно не глядя отнести к информационным. С другой стороны, если есть кнопка «Купить» и «Корзина», то документ с большой долей вероятности отнести в группу коммерческих. Однако простое наличие онлайн консультанта, или ссылки на раздел с ценами/услугами может быть не достаточно надёжным признаком коммерческого документа, поэтому имеет смысл опираться на несколько признаков. Вывод: без глаза-алмаза никуда 🙂

В результате всех этих манипуляций получается Excel таблица, где в первой колонке находится URL, а во второй 0, или 1, в зависимости от того, является ли данный URL информационным, или коммерческим. Когда имеется оценка для каждого URL из топ-10, то можно получить оценку и для самого запроса, просуммировав значения и разделив полученное число на 10. Реализуется все средствами Excel, расписывать долго, если не умеете сделать сами, пишите в комментариях, я скину пример вам на почту.

Предлагаю ознакомиться с результат работы в тематике «пластическая хирургия», в колонке A запрос, в колонке B топ-10 в Московской выдачи Яндекса, колонка C – оценка конкретного URL (1 – коммерческий, 0 – не коммерческий). Колонка E – запрос, колонка F – оценка того, на сколько данный запрос является коммерческим, G – геозависимость запроса (для наглядности).

Буду рад ответить на вопросы и подписывайтесь на мой канал на YouTube 😉

Понравилась статья? Тогда поделитесь ссылкой с друзьями:
Подписывайтесь на мой YouTube канал:
И следите за обновлениями:
Получайте на email:

комментариев 20

  1. Рэшад написал:

    Статья то, что надо, похоже на то, что сам выводил

  2. Дмитрий Севальнев написал:

    Игорёк, круто всё, но:

    1. Геозависимость как определял? Есть ошибки в колонке, скажем [пластическая операция роговицы] на самом ГНЗ.

    [пластическая операция тимошенко 2014] как бы тоже, ну и т.д.

    2. Оцени по своей методике, ради фана, запросы: [баскетбол слэм данк в корзину] и [корзина из газетных трубочек мастер класс для начинающих].

    Йоу!

  3. Владимир написал:

    Каким софтом можно вытащить все урлы из топ 10 по СЯ допустим из 1000 запросов?
    Что б с минимумом действий получить exel файл с урлами?

  4. Bakalov Igor написал:

    Дмитрий Севальнев, гео чекал через KeyCollector (XML выдача), на счет запросов — ок, сегодня постараюсь сделать.

    Владимир, это можно делать средствами KeyCollector, в статье есть скриншот, на котором видно как выглядит выгрузка.

  5. Bakalov Igor написал:

    Дим, сделал: http://bakalov.info/wp-content/files/prmer-kommercheskost-2-sevalnev.xlsx в таблице также обозначены «причины», по которым URL из топа попал в коммерческую/информационную группу.

  6. Александр написал:

    Приветствую , Игорь .
    Очень интересная практика.
    Хотелось бы оценить такую проверку может быть подскажешь примеры регулярное которыми матчил параметры?

  7. Bakalov Igor написал:

    Александр, привет. Уточни что ты подразумеваешь под «примеры регулярное которыми матчил параметры»? 🙂

  8. Владимир написал:

    Игорь, к какому типу запросов вы бы отнесли, например, запрос «свитшоты nike»? В ТОП10 по этому запросу есть сайты магазинов (Lamoda.ru, WildBerries.ru и т.д.) и есть сайты, которые внешне выглядят как магазины (shmoter.ru, ShopoMio.ru), но на самом деле при выборе товара отправляют посетителя на такие сайты как Lamoda.ru и WildBerries.ru?
    И к каким типам сайтов вы бы отнесли подобные перенаправляющие сайты?
    Спасибо.

  9. Bakalov Igor написал:

    Владимир, специально не прогонял, но если на глаз, то:
    shopomio.ru — определился бы как информационный, т.к. на нем стоит AdSense
    shmoter.ru — определился бы как информационный, т.к. в исходном коде есть партнерские ссылки вида: ad.admitad.com/goto/ (правда у меня тут полнота скудная, ищу только admitad и cityads)
    Lamoda, WildBerries и другие магазины — скорее всего как коммерческие определились бы.
    Ну а дальше по методе, считается сколько коммерческих страниц, сколько информационных, выводится значение.
    Хотя конечно спорно, стоит ли партнерские магазины считать за информационные… Я считаю 🙂

  10. Владимир написал:

    Игорь, ну разумеется, что наличие AdSense — это сигнал говорящий в пользу информационного сайта. Но достаточно ли одного этого сигнала, чтобы отнести страницу к информационной? На страницах таких сайтов как shopomio.ru и shmoter.ru есть признаки как коммерческих сайтов, так и информационных. Ваше мнение вполне логично. Я свое еще не выработал. Интересно к какому типу страниц относят ПС страницы таких сайтов.

  11. Bakalov Igor написал:

    Владимир, я определяю тип страницы бинарно, либо коммерческая, либо информационная. Конечно можно пойти дальше и считать для каждого URL значение в интервале [0,1] с различными весами за те, или иные факторы на странице. Но эвристически придумать нормальную формулу для этого — на мой взгляд весьма проблематично, поэтому тут только задействовать машинное обучение, но у меня нет опыта в этой области.

  12. Владимир написал:

    Насчет бинарности типа страниц тоже так думаю. Другое дело выдача может быть смешанная. Попробую помучить саппорт SEMparser, Rush Analytics и, возможно Семен-Ядрен на счет «черного ящика».

  13. Владимир написал:

    Переписывался с саппортом Rush Analytics. Они не определяют запросы как коммерческие или некоммерческие. Делают только кластеризацию на основе топа.
    По поводу разделения запросов на коммерческие и некоммерческие они посоветовали создать два проекта и отфильтровывать запросы по стоп-словам на уровне самих запросов, не обращаясь за этим в выдачу. То есть составить список стоп-слов, характерных для информационных запросов. Тогда по ним из всего списка запросов будут удаляться информационные запросы и останутся только коммерческие. Аналогично поступить для сбора информационных запросов.

  14. St.eV написал:

    Привет!

    Спасибо за статью, мы решили начать раскопки в этом направлении внутри студии.

    Мне кажется, что примером коммерческости являются наличие на сайте он-лайн консультантов, виджетов «перезвоните мне» и отсутствие контекстной рекламы.

    Также, есть смысл парсить контакты и искать страницу «о компании». Но тут тоже — не факт. Различные благотворительные фонды будут попадаться.

  15. Марина написал:

    Игорь, спасибо, очень полезны статьи, и особенно видео на вашем канале youtobe.
    У меня вопрос как у новичка: вот семантическое ядро собрано, разбито по группам, как или где лучше вести учет, какие ключевые слова к каким страницам на сайте были привязаны?
    Я понимаю, что можно просто вести Excel, но если ключей 10 тыс, это просто не реально искать.
    Например, после анализа конкурентов было принято решение переоптимизировать страницу — поменть пару ключей, теги и тд. В таблице замучаешься каждый ключ искать, был ли он уже использован на сайте, на какой странице и в какой связке… Ведь не рекомендуется один и тот же ключ на несколько странц на сайте вешать.
    В общем: есть ли какой-то секрет грамотного ведения такого учета и привязки ключей и страниц?

    Спасибо!

  16. Александр Айкхофф написал:

    Игорь, если не трудно, подскажите пожалуйста регулярное выражение, с помощью которого вы отсеивали «информационные» сайта в NotePad++.

  17. Александр написал:

    Здравствуйте.

    Вопрос от новичка в СЕО — почти совсем «зеленый»

    Мне нужно 300 заголовков для сео статей под темы:

    стартапы, продажи, смм, млм

    Что посоветуете, чтобы я смог написать 300 статей в этих темах.
    1. Как собрать правильные ключи или с помощью чего?;
    2. на какую частотность ориентироваться вначале для молодого сайта?

    Из инструментов есть КейКоллектор

    Большое спасибо за внимание!

  18. Ольга написал:

    Здравствуйте. Скажите пож как вы высчитали коммерческость запросов? можно формулу на почту. Потому что семант. большое а вручную проверять как то не выйдет.

  19. Ольга написал:

    Использовать Notepad++обязательно?
    Если да можете помочь.

    Когда имеется оценка для каждого URL из топ-10, то можно получить оценку и для самого запроса, просуммировав значения и разделив полученное число на 10. Реализуется все средствами Excel, расписывать долго, если не умеете сделать сами, пишите в комментариях, я скину пример вам на почту.

    Помогите если необходимо начать с Notepad++ то как и куда что вписывать. И в Excel какие значения мы суммируем после и делим на 10

  20. Роман написал:

    Доброго времени суток.
    Как вычислисть коммерческий запрос или информационный с помощью формулы. Что бы значения были 0 или 1. Где о это информационный а 1 это коммерческий. И каким образом мы получим оценку для самого запроса?. Какие числа мы суммируем и делим на 10 что бы вышел результат по оценке коммерческости запроса
    Спасибо

Ваш отзыв