Сегодня я хочу поделиться с вами результатами небольшого эксперимента, целью которого было выяснить, как поисковые системы Яндекс и Google учитывают содержание meta тега robots.
Я думаю, многие из вас встречали «продвинутые» рекомендации по использованию этого тега. Например, часто SEO-гуру советуют исключать из индекса поисковых систем все страницы пагинации кроме главной, при помощи:
<meta name = «robots» content = «noindex, follow»/>
В теории такая директива должна не допустить индексацию страницы, но при этом поисковый робот должен перейти по всем ссылкам и проиндексировать документы с бОльшим уровнем вложенности. Однако на практике такая схема не работает.
Описание эксперимента
Был создан новый сайт из 9 страниц:
- Главная страница;
- Четыре страницы 2 уровня вложенности;
- Четыре страницы 3 уровня вложенности;
С каждой страницы 2 уровня вложенности стояла ссылка на страницу 3 уровня вложенности, отличие по УВ2 были только в директивах указанных в meta теге robots:
- Страница 1: <meta name = «robots» content = «noindex, nofollow»/>
- Страница 2: <meta name = «robots» content = «noindex, follow»/>
- Страница 3: <meta name = «robots» content = «index, nofollow»/>
- Страница 4: <meta name = «robots» content = «index, follow»/>
У всех страницы 3 уровня вложенности было указано <meta name = «robots» content = «index, follow»/>. Также на этих страниц был размещен уникальный контент.
Наглядная схема структуры сайта:
Результат эксперимента
На индексацию в Яндекс и Google была отправлена главная страница сайта. С момента индексации прошло уже больше месяца, имеем следующий результат:
- По страницам с уровнем вложенности 2 всё ожидаемо: в индекс попали «Страница 3» (index, nofollow) и «Страница 4» (index, follow).
- По страницам с уровнем вложенности 3 – в индекс попала только страница «page04-1.html», на которую стояла ссылка со «Страница 4» (index, follow). Страница «page02-1.html», на которую стояла ссылка со «Страница 2» (noindex, follow) в индекс не попала.
Вывод по результатам данного эксперимента, я думаю, очевиден – если вы хотите полноценной индексации сайта в Яндекс и Google, то от использования <meta name = «robots» content = «noindex, follow»/> лучше воздержаться. На этом всё, не забываем оставлять лайки и комментарии
Update от 18.12.2014: Сергей Кокшаров провел аналогичный эксперимент, у него получились результаты, которые отличаются от приведенных выше, рекомендую ознакомиться.
Update от 05.01.2015: Сегодня заметил, что у моего эксперементального сайта увеличилось количество проиндексированных страниц, страница на которую вела ссылка с <meta name = «robots» content = «noindex, follow»/> тоже попала в индекс:
В Яндекс.Вебмастере по данному сайту не отобразилась информация об истории индексирования, но зато есть исторические данные по загруженным страницам:
Судя по скриншоту робот Яндекса добрался до целевой страницы только 29 декабря. Отдельно стоит обратить внимание, что несмотря на индексацию страницы, она все равно не ищется по анкору входящей ссылки по уникальному слову:
В аналогичном случае при <meta name = «robots» content = «index, follow»/> четвертая страница ищется по уникальному слову:
В сухом остатке при использовании <meta name = «robots» content = «noindex, follow»/> имеем замедленную индексацию «глубинных» страниц и не учет анкоров внутренних ссылок.
Вообще целесообразно сравнивать использование robots.txt и мета robots, если мы говорим в разрезе индексации страниц.
В выводах все ожидаемо, кроме, может быть, того, что не проиндексировалась страниц №2 на третьем уровне вложенности. Может надо еще немного подождать? Не знаю…
Саша, в роботсе ты запретишь полное сканирование страниц, включая ссылки на них на другие документы.
В теории мета должен был быть более гибким.
Сравнивать их некорректно.
Хороший эксперимент. Как раз тоже запутил переделку раздлов блога, что бы они были индексируемые и вес перетекал от главной к конечным страницам.
Да, в роботсе запрещается сканирование страницы (теоретически) и всех ссылок на ней. Мета-тег более гибкий, хотя эксперимент этого не показал (о чем я говорил выше, что удивлен, что страница №2 на третьем уровне не в индексе).
PS Лично я предпочитаю использовать метатег и стараюсь от запретов в robots.txt отказаться где это возможно.
Как всегда супер анализ))
Когда ты находишь время всем этим заниматься?
seoonly, да вот, вместо того, чтобы бабло рубить занимаюсь ерундой всякой))
Зато эта «ерунда» поможет другим бабло рубить))
Такие эксперименты роботы могут кушать с трудом: долго и не корректно индексировать.
Куда проще взять рабочий сайт и посмотреть, как там обстоят дела. У меня мета-теги роботс работают на ура.
не удачный эксперимент. поставили нофоллоу. Бот забыл на какое то время. Потом пороется вспомнит и придет.
Результаты действительно отличаются от Сергея Кокшарова)
Фишка в том, что по страницам с meta noindex гуглбот ходит очень редко. Он сначала заходит туда, видит там noindex,follow и переходит по ссылкам один раз, а потом на страницу не возвращается.
ПОЭТОМУ для чистоты эксперимента нужно сразу добавлять страницу noindex,follow с уже поставленной ссылкой. А не проставлять ее потом, когда гуглбот уже увидел что она noindex.
Потому что если проставить потом, то гуглбот вернется только месяца через три туда
Поэтому сама идея то хорошая, но как часто пересчитывается pagerank(внутренний) по страницам noindex,follow тоже неясно. Хотя Мэтт Катс говорил, что такие страницы и аккумулируют и передают pagerank.
И что делать с пагинацией? rel=canonical на первую страницу? Но ведь контент то по сути разный на страницах, это же не полные дубли.
Вижу что и в гугле та страница куда ведет ссылка с noindex,follow тоже попала в индекс.
У меня подобный эксперимент есть
Сайт с видео(типа ютуба) 18 тысяч страниц, главная страница без мета роботс, остальные внутренние с noindex,follow.
Создал страницу с категориями в index,follow. Но ссылки на них поставил не с главных, а с внутренних, тех что noindex,follow. И несмотря на то, что ссылки сквозные, эти страницы категорий до сих пор не в индексе, а прошло уже 2 месяца.
Вывод: После того как гуглбот увидел что страница noindex, то он на нее не заходит, и не видит что на странице произошли изменения и она уже ссылается на страница которая index,follow и именно поэтому ее не индексирует.
На моем опыте гуглбот увидит это месяца через 3 минимум, и только потом проиндексирует.