Классификация запросов на «информационные» и «коммерческие»

Рубрика: СемантикаАвтор: Bakalov Igor

Летом прошлого года я уже писал о том, как можно определить «коммерческость» запросов, в основе метода была идея – чем больше в топ-10 коммерческих сайтов, тем более коммерческим является запрос. Для проверки является ли сайт коммерческим использовались данные из Яндекс.Бара и Яндекс.Справочника. Данный метод имел сразу несколько недостатков: во-первых оценка происходила на уровне сайта, а не конкретной страницы, таким образом не учитывалось, что на коммерческом сайте может быть информационный документ; во-вторых были проблемы с точностью и полнотой данных – не все коммерческие сайты добавлены в Яндекс.Справочник, а также не все сайты размещенные там являются коммерческими.

В последнее время методика определения коммерческих запросов была мной доработана, об этом я рассказывал на онлайн-конференциях MegaIndex и SmartFox, теперь пришло время собрать всю информацию воедино в блоге.

Основная идея осталось прежней – оценить сколько результатов в топ-10 отдано под коммерческие документы, а сколько под информационные. При этом считаем, что:

Коммерческий документ – продает товары и/или услуги конкретного бизнеса, стоящего за сайтом;
Информационный документ – ничего не продает, или рекламирует товар стороннего бизнеса.

Сама классификация достаточно спорна, поэтому поясню, что к чему:

Если в топе сидит сайт конкретного интернет-магазина с карточкой товара, или строительной фирмы с прайс-листом на услуги, то все просто – это коммерческий документ.

Если в топе страница блога, в которой рассказывается как что-то сделать своими руками, при этом никакой информацию о том, что можно купить/заказать товар или услугу – это информационный документ.

Однако очень часто в топе можно встретить сайты агрегаторы (zoon.ru), доски объявлений (avito.ru), торговые площадки (market.yandex.ru) и встает вопрос – считать ли их коммерческими? На мой взгляд, если вы продвигаете сайт конкретного бизнеса, то выше описанные типы сайтов стоит относить к информационным. Мысль здесь следующая – если по запросу [q] в топ-10 нет ни одного сайта конкретного бизнеса, то не важно – там блоги и форумы, или доски и агрегаторы, скорее всего сайт конкретного бизнеса в топ-10 вывести не получится.

Что оценивать

Для того, чтобы понять является ли документ коммерческим, или информационным я предлагаю оценивать следующий набор признаков:

Домен – на мой взгляд удачной практикой будет создание «белых списков», в которые можно занести отдельные домены, чтобы не тратить время на их оценку. Например, все страницы сайта wikipedia.org считать информационными.
Маркеры в URL – отдельные фрагменты адресов страниц также можно использовать для оценки, например если в URL встречается «topic», «showforum», «obzor» и т.п, то можно считать данный документ информационным.
Анализ контента: наличие на сайте контекстной и/или тизерной рекламы – информационный документ. Сюда также можно отнести наличие ссылки на страницу «Реклама на сайте».
Анализ контента: наличие кнопки «Купить», «Заказать», «Корзина» — коммерческий документ;
Анализ контента: наличие ссылки на страницу «Прайс», «Цены», «Наши услуги» — коммерческий документ;
Осторожно можно учитывать: наличие прямого городского номера телефона, наличие онлайн-консультанта – как свойства коммерческого документа.

Как оценивать семантическое ядро

Подразумевается, что семантическое ядро уже есть и по нему вы собрали топ-10 результатов поиска. Если делать выгрузку при помощи Key Collector, то результат имеет вид:

Для примера я решил разобрать семантическое ядро в тематике «пластическая хирургия». Очевидно, что в этой тематике будут как информационные, так и коммерческие запросы. Примерно для 2000 запросов вышло около 9000 уникальных URL, которые встретились в топ-10.

Для ускорения процесса оценки имеет смысл сначала проверять быстрые признаки – это фрагменты URL и домены. Проще всего это делать средствами Notepad++, использую поиск по регулярному выражению с чекбоксом «Помечать Закладкой»:

В моем случае, благодаря предварительной фильтрации удалось сразу пометить около 2000 URL. Таким образом получается два списка, первый – страницы, которые определены как информационные, второй – страницы для которых необходимо проверить контент.

Анализ содержимого страниц я проводил средствами ZennoPoster, но можно использовать любое другое программное обеспечение, или собственный скрипт. Важный момент, на которой стоит обратить внимание – лучше анализировать не голый HTML, а DOM. На выходе получается таблица, где для каждого URL указано наличие, или отсутствие тех, или иных свойств. Интерпретация результатов – отдельная, не простая задача. Например, если на странице есть контекстная реклама, то данный документ можно не глядя отнести к информационным. С другой стороны, если есть кнопка «Купить» и «Корзина», то документ с большой долей вероятности отнести в группу коммерческих. Однако простое наличие онлайн консультанта, или ссылки на раздел с ценами/услугами может быть не достаточно надёжным признаком коммерческого документа, поэтому имеет смысл опираться на несколько признаков. Вывод: без глаза-алмаза никуда

В результате всех этих манипуляций получается Excel таблица, где в первой колонке находится URL, а во второй 0, или 1, в зависимости от того, является ли данный URL информационным, или коммерческим. Когда имеется оценка для каждого URL из топ-10, то можно получить оценку и для самого запроса, просуммировав значения и разделив полученное число на 10. Реализуется все средствами Excel, расписывать долго, если не умеете сделать сами, пишите в комментариях, я скину пример вам на почту.

Предлагаю ознакомиться с результат работы в тематике «пластическая хирургия», в колонке A запрос, в колонке B топ-10 в Московской выдачи Яндекса, колонка C – оценка конкретного URL (1 – коммерческий, 0 – не коммерческий). Колонка E – запрос, колонка F – оценка того, на сколько данный запрос является коммерческим, G – геозависимость запроса (для наглядности).

Буду рад ответить на вопросы и подписывайтесь на мой канал на YouTube

BR-F40E2370245B-24-04-20-01

20 KeyCollector Коммерческость Семантическое ядро

Комментарии: 20

Рэшад 24.03.2015 в 23:50

Статья то, что надо, похоже на то, что сам выводил

Ответить
Дмитрий Севальнев 25.03.2015 в 00:17

Игорёк, круто всё, но:

1. Геозависимость как определял? Есть ошибки в колонке, скажем [пластическая операция роговицы] на самом ГНЗ.

[пластическая операция тимошенко 2014] как бы тоже, ну и т.д.

2. Оцени по своей методике, ради фана, запросы: [баскетбол слэм данк в корзину] и [корзина из газетных трубочек мастер класс для начинающих].

Йоу!

Ответить
Владимир 25.03.2015 в 02:08

Каким софтом можно вытащить все урлы из топ 10 по СЯ допустим из 1000 запросов?
Что б с минимумом действий получить exel файл с урлами?

Ответить
Bakalov Igor (автор) 25.03.2015 в 10:40

Дмитрий Севальнев, гео чекал через KeyCollector (XML выдача), на счет запросов — ок, сегодня постараюсь сделать.

Владимир, это можно делать средствами KeyCollector, в статье есть скриншот, на котором видно как выглядит выгрузка.

Ответить
Bakalov Igor (автор) 25.03.2015 в 14:51

Дим, сделал: http://bakalov.info/wp-content/files/prmer-kommercheskost-2-sevalnev.xlsx в таблице также обозначены «причины», по которым URL из топа попал в коммерческую/информационную группу.

Ответить
Александр 13.04.2015 в 21:27

Приветствую , Игорь .
Очень интересная практика.
Хотелось бы оценить такую проверку может быть подскажешь примеры регулярное которыми матчил параметры?

Ответить
Bakalov Igor (автор) 13.04.2015 в 22:07

Александр, привет. Уточни что ты подразумеваешь под «примеры регулярное которыми матчил параметры»?

Ответить
Владимир 13.04.2015 в 22:31

Игорь, к какому типу запросов вы бы отнесли, например, запрос «свитшоты nike»? В ТОП10 по этому запросу есть сайты магазинов (Lamoda.ru, WildBerries.ru и т.д.) и есть сайты, которые внешне выглядят как магазины (shmoter.ru, ShopoMio.ru), но на самом деле при выборе товара отправляют посетителя на такие сайты как Lamoda.ru и WildBerries.ru?
И к каким типам сайтов вы бы отнесли подобные перенаправляющие сайты?
Спасибо.

Ответить
Bakalov Igor (автор) 14.04.2015 в 10:57

Владимир, специально не прогонял, но если на глаз, то:
shopomio.ru — определился бы как информационный, т.к. на нем стоит AdSense
shmoter.ru — определился бы как информационный, т.к. в исходном коде есть партнерские ссылки вида: ad.admitad.com/goto/ (правда у меня тут полнота скудная, ищу только admitad и cityads)
Lamoda, WildBerries и другие магазины — скорее всего как коммерческие определились бы.
Ну а дальше по методе, считается сколько коммерческих страниц, сколько информационных, выводится значение.
Хотя конечно спорно, стоит ли партнерские магазины считать за информационные… Я считаю

Ответить
Владимир 14.04.2015 в 11:13

Игорь, ну разумеется, что наличие AdSense — это сигнал говорящий в пользу информационного сайта. Но достаточно ли одного этого сигнала, чтобы отнести страницу к информационной? На страницах таких сайтов как shopomio.ru и shmoter.ru есть признаки как коммерческих сайтов, так и информационных. Ваше мнение вполне логично. Я свое еще не выработал. Интересно к какому типу страниц относят ПС страницы таких сайтов.

Ответить
Bakalov Igor (автор) 14.04.2015 в 13:47

Владимир, я определяю тип страницы бинарно, либо коммерческая, либо информационная. Конечно можно пойти дальше и считать для каждого URL значение в интервале [0,1] с различными весами за те, или иные факторы на странице. Но эвристически придумать нормальную формулу для этого — на мой взгляд весьма проблематично, поэтому тут только задействовать машинное обучение, но у меня нет опыта в этой области.

Ответить
Владимир 14.04.2015 в 14:37

Насчет бинарности типа страниц тоже так думаю. Другое дело выдача может быть смешанная. Попробую помучить саппорт SEMparser, Rush Analytics и, возможно Семен-Ядрен на счет «черного ящика».

Ответить
Владимир 16.04.2015 в 22:13

Переписывался с саппортом Rush Analytics. Они не определяют запросы как коммерческие или некоммерческие. Делают только кластеризацию на основе топа.
По поводу разделения запросов на коммерческие и некоммерческие они посоветовали создать два проекта и отфильтровывать запросы по стоп-словам на уровне самих запросов, не обращаясь за этим в выдачу. То есть составить список стоп-слов, характерных для информационных запросов. Тогда по ним из всего списка запросов будут удаляться информационные запросы и останутся только коммерческие. Аналогично поступить для сбора информационных запросов.

Ответить
St.eV 10.07.2015 в 08:29

Привет!

Спасибо за статью, мы решили начать раскопки в этом направлении внутри студии.

Мне кажется, что примером коммерческости являются наличие на сайте он-лайн консультантов, виджетов «перезвоните мне» и отсутствие контекстной рекламы.

Также, есть смысл парсить контакты и искать страницу «о компании». Но тут тоже — не факт. Различные благотворительные фонды будут попадаться.

Ответить
Марина 13.11.2015 в 00:38

Игорь, спасибо, очень полезны статьи, и особенно видео на вашем канале youtobe.
У меня вопрос как у новичка: вот семантическое ядро собрано, разбито по группам, как или где лучше вести учет, какие ключевые слова к каким страницам на сайте были привязаны?
Я понимаю, что можно просто вести Excel, но если ключей 10 тыс, это просто не реально искать.
Например, после анализа конкурентов было принято решение переоптимизировать страницу — поменть пару ключей, теги и тд. В таблице замучаешься каждый ключ искать, был ли он уже использован на сайте, на какой странице и в какой связке… Ведь не рекомендуется один и тот же ключ на несколько странц на сайте вешать.
В общем: есть ли какой-то секрет грамотного ведения такого учета и привязки ключей и страниц?

Спасибо!

Ответить
Александр Айкхофф 12.01.2016 в 12:17

Игорь, если не трудно, подскажите пожалуйста регулярное выражение, с помощью которого вы отсеивали «информационные» сайта в NotePad++.

Ответить
Александр 12.09.2016 в 23:30

Здравствуйте.

Вопрос от новичка в СЕО — почти совсем «зеленый»

Мне нужно 300 заголовков для сео статей под темы:

стартапы, продажи, смм, млм

Что посоветуете, чтобы я смог написать 300 статей в этих темах.
1. Как собрать правильные ключи или с помощью чего?;
2. на какую частотность ориентироваться вначале для молодого сайта?

Из инструментов есть КейКоллектор

Большое спасибо за внимание!

Ответить
Ольга 29.11.2016 в 11:50

Здравствуйте. Скажите пож как вы высчитали коммерческость запросов? можно формулу на почту. Потому что семант. большое а вручную проверять как то не выйдет.

Ответить
Ольга 29.11.2016 в 12:09

Использовать Notepad++обязательно?
Если да можете помочь.

Когда имеется оценка для каждого URL из топ-10, то можно получить оценку и для самого запроса, просуммировав значения и разделив полученное число на 10. Реализуется все средствами Excel, расписывать долго, если не умеете сделать сами, пишите в комментариях, я скину пример вам на почту.

Помогите если необходимо начать с Notepad++ то как и куда что вписывать. И в Excel какие значения мы суммируем после и делим на 10

Ответить
Роман 29.11.2016 в 16:01

Доброго времени суток.
Как вычислисть коммерческий запрос или информационный с помощью формулы. Что бы значения были 0 или 1. Где о это информационный а 1 это коммерческий. И каким образом мы получим оценку для самого запроса?. Какие числа мы суммируем и делим на 10 что бы вышел результат по оценке коммерческости запроса
Спасибо

Ответить

Добавить комментарий