Эксперимент: как поисковые системы учитывают meta name robots

Сегодня я хочу поделиться с вами результатами небольшого эксперимента, целью которого было выяснить, как поисковые системы Яндекс и Google учитывают содержание meta тега robots.

Я думаю, многие из вас встречали «продвинутые» рекомендации по использованию этого тега. Например, часто SEO-гуру советуют исключать из индекса поисковых систем все страницы пагинации кроме главной, при помощи:

<meta name = «robots» content = «noindex, follow»/>

В теории такая директива должна не допустить индексацию страницы, но при этом поисковый робот должен перейти по всем ссылкам и проиндексировать документы с бОльшим уровнем вложенности. Однако на практике такая схема не работает.

Описание эксперимента

Был создан новый сайт из 9 страниц:

  • Главная страница;
  • Четыре страницы 2 уровня вложенности;
  • Четыре страницы 3 уровня вложенности;

С каждой страницы 2 уровня вложенности стояла ссылка на страницу 3 уровня вложенности, отличие по УВ2 были только в директивах указанных в meta теге robots:

  • Страница 1: <meta name = «robots» content = «noindex, nofollow»/>
  • Страница 2: <meta name = «robots» content = «noindex, follow»/>
  • Страница 3: <meta name = «robots» content = «index, nofollow»/>
  • Страница 4: <meta name = «robots» content = «index, follow»/>

У всех страницы 3 уровня вложенности было указано <meta name = «robots» content = «index, follow»/>. Также на этих страниц был размещен уникальный контент.

Наглядная схема структуры сайта:

Схема

Результат эксперимента

На индексацию в Яндекс и Google была отправлена главная страница сайта. С момента индексации прошло уже больше месяца, имеем следующий результат:

  • По страницам с уровнем вложенности 2 всё ожидаемо: в индекс попали «Страница 3» (index, nofollow) и «Страница 4» (index, follow).
  • По страницам с уровнем вложенности 3 – в индекс попала только страница «page04-1.html», на которую стояла ссылка со «Страница 4» (index, follow). Страница «page02-1.html», на которую стояла ссылка со «Страница 2» (noindex, follow) в индекс не попала.

Индексация в Яндекс:

Яндекс

Индексация в Google:

Google

Вывод по результатам данного эксперимента, я думаю, очевиден – если вы хотите полноценной индексации сайта в Яндекс и Google, то от использования <meta name = «robots» content = «noindex, follow»/> лучше воздержаться. На этом всё, не забываем оставлять лайки и комментарии :)

Update от 18.12.2014: Сергей Кокшаров провел аналогичный эксперимент, у него получились результаты, которые отличаются от приведенных выше, рекомендую ознакомиться.

Update от 05.01.2015: Сегодня заметил, что у моего эксперементального сайта увеличилось количество проиндексированных страниц, страница на которую вела ссылка с <meta name = «robots» content = «noindex, follow»/> тоже попала в индекс:

yandex-serp-2015-01-05

В Яндекс.Вебмастере по данному сайту не отобразилась информация об истории индексирования, но зато есть исторические данные по загруженным страницам:

ywt-2015-01-05

Судя по скриншоту робот Яндекса добрался до целевой страницы только 29 декабря. Отдельно стоит обратить внимание, что несмотря на индексацию страницы, она все равно не ищется по анкору входящей ссылки по уникальному слову:

no-npc-2015-01-05

В аналогичном случае при <meta name = «robots» content = «index, follow»/> четвертая страница  ищется по уникальному слову:

npc-2015-01-05

В сухом остатке при использовании <meta name = «robots» content = «noindex, follow»/> имеем замедленную индексацию «глубинных» страниц и не учет анкоров внутренних ссылок.

BR-F876C1B340D4-24-04-25-11
Понравилась статья? Поделиться с друзьями:
Комментарии: 12
  1. АлаичЪ

    Вообще целесообразно сравнивать использование robots.txt и мета robots, если мы говорим в разрезе индексации страниц.
    В выводах все ожидаемо, кроме, может быть, того, что не проиндексировалась страниц №2 на третьем уровне вложенности. Может надо еще немного подождать? Не знаю…

  2. Eugene

    Саша, в роботсе ты запретишь полное сканирование страниц, включая ссылки на них на другие документы.

    В теории мета должен был быть более гибким.

    Сравнивать их некорректно.

  3. webpromote.ru

    Хороший эксперимент. Как раз тоже запутил переделку раздлов блога, что бы они были индексируемые и вес перетекал от главной к конечным страницам.

  4. АлаичЪ

    Да, в роботсе запрещается сканирование страницы (теоретически) и всех ссылок на ней. Мета-тег более гибкий, хотя эксперимент этого не показал (о чем я говорил выше, что удивлен, что страница №2 на третьем уровне не в индексе).

    PS Лично я предпочитаю использовать метатег и стараюсь от запретов в robots.txt отказаться где это возможно.

  5. seoonly.ru

    Как всегда супер анализ))

    Когда ты находишь время всем этим заниматься?

  6. Bakalov Igor (автор)

    seoonly, да вот, вместо того, чтобы бабло рубить занимаюсь ерундой всякой))

  7. Роман Малышев

    Зато эта «ерунда» поможет другим бабло рубить))

  8. Александр CookieSeo

    Такие эксперименты роботы могут кушать с трудом: долго и не корректно индексировать.

    Куда проще взять рабочий сайт и посмотреть, как там обстоят дела. У меня мета-теги роботс работают на ура.

  9. Андрей

    не удачный эксперимент. поставили нофоллоу. Бот забыл на какое то время. Потом пороется вспомнит и придет.

  10. Seosko

    Результаты действительно отличаются от Сергея Кокшарова)

  11. Николай

    Фишка в том, что по страницам с meta noindex гуглбот ходит очень редко. Он сначала заходит туда, видит там noindex,follow и переходит по ссылкам один раз, а потом на страницу не возвращается.

    ПОЭТОМУ для чистоты эксперимента нужно сразу добавлять страницу noindex,follow с уже поставленной ссылкой. А не проставлять ее потом, когда гуглбот уже увидел что она noindex.
    Потому что если проставить потом, то гуглбот вернется только месяца через три туда :)

    Поэтому сама идея то хорошая, но как часто пересчитывается pagerank(внутренний) по страницам noindex,follow тоже неясно. Хотя Мэтт Катс говорил, что такие страницы и аккумулируют и передают pagerank.

    И что делать с пагинацией? rel=canonical на первую страницу? Но ведь контент то по сути разный на страницах, это же не полные дубли.

  12. Николай

    Вижу что и в гугле та страница куда ведет ссылка с noindex,follow тоже попала в индекс.

    У меня подобный эксперимент есть
    Сайт с видео(типа ютуба) 18 тысяч страниц, главная страница без мета роботс, остальные внутренние с noindex,follow.

    Создал страницу с категориями в index,follow. Но ссылки на них поставил не с главных, а с внутренних, тех что noindex,follow. И несмотря на то, что ссылки сквозные, эти страницы категорий до сих пор не в индексе, а прошло уже 2 месяца.

    Вывод: После того как гуглбот увидел что страница noindex, то он на нее не заходит, и не видит что на странице произошли изменения и она уже ссылается на страница которая index,follow и именно поэтому ее не индексирует.

    На моем опыте гуглбот увидит это месяца через 3 минимум, и только потом проиндексирует.

Добавить комментарий

;-) :| :x :twisted: :smile: :shock: :sad: :roll: :razz: :oops: :o :mrgreen: :lol: :idea: :grin: :evil: :cry: :cool: :arrow: :???: :?: :!: