Значение noindex метатега HTML robots требует, чтобы автоматизированные интернет-боты избегали индексации веб-страницы. [1] [2] Причины, по которым может потребоваться использовать этот метатег, включают рекомендацию роботам не индексировать очень большую базу данных, веб-страницы, которые являются очень временными, веб-страницы, которые находятся в стадии разработки, веб-страницы, которые вы хотите сохранить немного более приватными, или версии страниц для принтеров и мобильных устройств. Поскольку бремя соблюдения тега noindex веб-сайта лежит на авторе поискового робота, иногда эти теги игнорируются. Кроме того, интерпретация тега noindex иногда немного отличается от одной поисковой компании к другой.
< html > < head > < meta name = "robots" content = "noindex" > < title > Не индексировать эту страницу </ title > </ head >
Возможные значения для содержимого метатега: "none", "all", "index", "noindex", "nofollow" и "follow". Также возможна комбинация значений, [1] например:
< meta name = "robots" content = "noindex, follow" >
Директиву noindex можно ограничить только определенными ботами, указав другое значение "name" в метатеге. Например, чтобы специально заблокировать бота Google, [3] укажите:
< мета имя = "googlebot" содержание = "noindex" >
Или, чтобы заблокировать бота Bing, укажите:
< мета имя = "bingbot" содержание = "noindex" >
Или, чтобы заблокировать бота Baidu, укажите:
< мета имя = "baiduspider" содержание = "noindex" >
Файл robots.txt можно использовать для блокировки сканирования.
Также возможно исключить часть веб-страницы, например, текст навигации, из индексации, а не всю страницу. Существуют различные методы для этого; можно использовать несколько из них в комбинации. Главный индексирующий паук Google, Googlebot , не распознает ни один из этих методов.
Русский поисковик Яндекс ввел новый тег <noindex>, который предотвращает индексацию контента между тегами. Чтобы разрешить исходному коду пройти валидацию, можно использовать <!--noindex-->: [4]
< п >Индексируйте этот текст.< noindex > Не индексировать этот текст. </ noindex > <!--noindex--> Не индексировать этот текст. <!--/noindex--> </ p >
Другие поисковые роботы также распознают тег <noindex>, включая Atomz . [5]
Существует проект спецификации микроформатов 2005 года с той же функциональностью. Профиль исключения роботов ищет атрибут и значение class="robots-noindex" в тегах HTML: [6]
< p > Индексировать этот текст. </ p > < div class = "robots-noindex" > Не индексировать этот текст. </ div > < span class = "robots-noindex" > Не индексировать этот текст. </ span > < p class = "robots-noindex" > Не индексировать этот текст. </ p >
Возможна также комбинация значений, [6] например:
< div class = "robots-noindex robots-follow" > Текст. </ div >
В 2007 году Yahoo! представила в своем пауке схожую функциональность микроформата. Однако паук Yahoo! несовместим, поскольку он ищет значение class="robots-nocontent" и только это значение: [7]
< p > Индексировать этот текст. </ p > < div class = "robots-nocontent" > Не индексировать этот текст. </ div > < span class = "robots-nocontent" > Не индексировать этот текст. </ span > < p class = "robots-nocontent" > Не индексировать этот текст. </ p >
iFilter SharePoint 2010 исключает содержимое внутри тега <div> с атрибутом и значением class="noindex" . Внутренние <div> изначально не исключались, но это могло измениться. Также неизвестно, можно ли применить атрибут к тегам, отличным от <div>. [8]
< p > Индексировать этот текст. </ p > < div class = "noindex" > Не индексировать этот текст. </ div >
Google Search Appliance использует структурированные комментарии: [9]
< п >Индексируйте этот текст.<!--googleoff: все-->Не индексируйте этот текст.<!--googleon: все--> </ p >
Другие индексирующие пауки также используют собственные структурированные комментарии.
Нужно предотвратить поиск частей отдельных страниц? Если вы хотите исключить части страницы из индексации, заключите текст в теги <noindex> и </noindex>. Это полезно, например, если вы хотите исключить текст навигации из поиска.( требуется регистрация )