нет индекса

Значение noindex метатега HTML robots требует, чтобы автоматизированные интернет-боты избегали индексации веб-страницы. ^[1]^[2] Причины, по которым может потребоваться использовать этот метатег, включают рекомендацию роботам не индексировать очень большую базу данных, веб-страницы, которые являются очень временными, веб-страницы, которые находятся в стадии разработки, веб-страницы, которые вы хотите сохранить немного более приватными, или версии страниц для принтеров и мобильных устройств. Поскольку бремя соблюдения тега noindex веб-сайта лежит на авторе поискового робота, иногда эти теги игнорируются. Кроме того, интерпретация тега noindex иногда немного отличается от одной поисковой компании к другой.

Неиндексировать целые страницы

< html > < head >  < meta  name = "robots"  content = "noindex" >  < title > Не индексировать эту страницу </ title > </ head >

Возможные значения для содержимого метатега: "none", "all", "index", "noindex", "nofollow" и "follow". Также возможна комбинация значений, ^[1] например:

< meta  name = "robots"  content = "noindex, follow" >

Директивы, специфичные для ботов

Директиву noindex можно ограничить только определенными ботами, указав другое значение "name" в метатеге. Например, чтобы специально заблокировать бота Google, ^[3] укажите:

< мета  имя = "googlebot"  содержание = "noindex" >

Или, чтобы заблокировать бота Bing, укажите:

< мета  имя = "bingbot"  содержание = "noindex" >

Или, чтобы заблокировать бота Baidu, укажите:

< мета  имя = "baiduspider"  содержание = "noindex" >

файл robots.txt

Файл robots.txt можно использовать для блокировки сканирования.

Неиндексируемая часть страницы

Также возможно исключить часть веб-страницы, например, текст навигации, из индексации, а не всю страницу. Существуют различные методы для этого; можно использовать несколько из них в комбинации. Главный индексирующий паук Google, Googlebot , не распознает ни один из этих методов.

тег

Русский поисковик Яндекс ввел новый тег <noindex>, который предотвращает индексацию контента между тегами. Чтобы разрешить исходному коду пройти валидацию, можно использовать : ^[4]

< п >Индексируйте этот текст.< noindex > Не индексировать этот текст. </ noindex > <!--noindex--> Не индексировать этот текст. <!--/noindex--> </ p >

Другие поисковые роботы также распознают тег <noindex>, включая Atomz . ^[5]

микроформат

Существует проект спецификации микроформатов 2005 года с той же функциональностью. Профиль исключения роботов ищет атрибут и значение class="robots-noindex" в тегах HTML: ^[6]

< p > Индексировать этот текст. </ p > < div  class = "robots-noindex" > Не индексировать этот текст. </ div > < span  class = "robots-noindex" > Не индексировать этот текст. </ span > < p  class = "robots-noindex" > Не индексировать этот текст. </ p >

Возможна также комбинация значений, ^[6] например:

< div  class = "robots-noindex robots-follow" > Текст. </ div >

Йаху!

В 2007 году Yahoo! представила в своем пауке схожую функциональность микроформата. Однако паук Yahoo! несовместим, поскольку он ищет значение class="robots-nocontent" и только это значение: ^[7]

< p > Индексировать этот текст. </ p > < div  class = "robots-nocontent" > Не индексировать этот текст. </ div > < span  class = "robots-nocontent" > Не индексировать этот текст. </ span > < p  class = "robots-nocontent" > Не индексировать этот текст. </ p >

SharePoint

iFilter SharePoint 2010 исключает содержимое внутри тега <div> с атрибутом и значением class="noindex" . Внутренние <div> изначально не исключались, но это могло измениться. Также неизвестно, можно ли применить атрибут к тегам, отличным от <div>. ^[8]

< p > Индексировать этот текст. </ p > < div  class = "noindex" > Не индексировать этот текст. </ div >

Структурированные комментарии

Поисковое устройство Google

Google Search Appliance использует структурированные комментарии: ^[9]

< п >Индексируйте этот текст.<!--googleoff: все-->Не индексируйте этот текст.<!--googleon: все--> </ p >

Другие индексирующие пауки также используют собственные структурированные комментарии.

Смотрите также

Атрибут ссылки Nofollow
Стандарт исключения роботов

Ссылки

^ ab Роботы и элемент META, Официальная спецификация W3
^ О теге <META> роботов
^ Использование метатегов для блокировки доступа к вашему сайту, Справка Google Webmasters Tools
^ "Использование HTML-тегов". вебмастер → помощь . Яндекс . Раздел: тег <noindex> . Получено 25 марта 2013 г. .
^ "Часто задаваемые вопросы по общему поиску". Справка . Atomz . 2013. Раздел: Как исключить части моего сайта из поиска?. Архивировано из оригинала 8 декабря 2021 г. . Получено 23 марта 2013 г. . Нужно предотвратить поиск частей отдельных страниц? Если вы хотите исключить части страницы из индексации, заключите текст в теги <noindex> и </noindex>. Это полезно, например, если вы хотите исключить текст навигации из поиска.( требуется регистрация )
^ ab Janes, Peter (18 июня 2005 г.). "Профиль исключения роботов". Микроформаты . Получено 24 марта 2013 г.
^ Garg, Priyank (2 мая 2007 г.). «Введение в Robots-Nocontent для разделов страниц». Yahoo! Search Blog . Yahoo! . Архивировано из оригинала 20 августа 2014 г. . Получено 23 марта 2013 г. .
^ «Управление индексированием поиска (сканированием) на странице с помощью Noindex». Microsoft Developer . Microsoft . 7 июня 2010 г. Архивировано из оригинала 4 ноября 2017 г. Получено 4 ноября 2017 г.
^ "Управление сканированием: подготовка к сканированию". Google Search Appliance . Google Inc. 23 августа 2012 г. Раздел: Исключение нежелательного текста из индекса. Архивировано из оригинала 23 ноября 2012 г. Получено 23 марта 2013 г.