stringtranslate.com

Ловушка для пауков

Ловушка -паук (или ловушка-краулер ) — это набор веб-страниц, которые могут быть намеренно или непреднамеренно использованы для того, чтобы заставить веб-краулер или поисковый бот делать бесконечное количество запросов или вызвать сбой плохо сконструированного краулера. Веб-краулеры также называются веб-пауками , от чего и произошло название. Ловушки-пауки могут быть созданы для «поимки» спам-ботов или других краулеров, которые тратят впустую пропускную способность веб-сайта. Они также могут быть созданы непреднамеренно календарями, которые используют динамические страницы со ссылками, которые постоянно указывают на следующий день или год.

Обычно используются следующие методы:

Не существует алгоритма для обнаружения всех ловушек для пауков. Некоторые классы ловушек могут быть обнаружены автоматически, но новые, нераспознанные ловушки возникают быстро.

Вежливость

Паучий капкан заставляет веб-сканер войти в нечто вроде бесконечного цикла , [3] что тратит ресурсы паука, [4] снижает его производительность и, в случае плохо написанного краулера, может привести к сбою программы. Вежливые пауки чередуют запросы между разными хостами и не запрашивают документы с одного и того же сервера чаще, чем раз в несколько секунд, [5] что означает, что «вежливый» веб-сканер страдает в гораздо меньшей степени, чем «невежливый» краулер. [ необходима цитата ]

Кроме того, на сайтах с ловушками-пауками обычно есть robots.txt, сообщающий ботам не попадать в ловушку, поэтому законный «вежливый» бот не попадется в ловушку, тогда как «невежливый» бот, который игнорирует настройки robots.txt, попадет в ловушку. [6]

Смотрите также

Ссылки

  1. ^ ""Что такое ловушка для пауков?"". Techopedia . 27 ноября 2017 . Получено 29-05-2018 .
  2. ^ Нил М. Хеннесси. «Сладчайший яд, или Открытие поэзии L=A=N=G=U=A=G=E в Интернете». Доступ 26.09.2013.
  3. ^ "Предзнаменование". Предзнаменование . 2016-02-03 . Получено 2019-10-16 .
  4. ^ "Как настроить robots.txt для управления поисковыми роботами (thesitewizard.com)". www.thesitewizard.com . Получено 16.10.2019 .
  5. ^ "Создание вежливого веб-сканера". Сообщество DEV . 13 апреля 2019 г. Получено 16 октября 2019 г.
  6. ^ Group, J. Media (2017-10-12). "Закрытие ловушки для паука: устранение неэффективности сканирования". J Media Group . Получено 2019-10-16 . {{cite web}}: |last=имеет общее название ( помощь )