Ловушка -паук (или ловушка-краулер ) — это набор веб-страниц, которые могут быть намеренно или непреднамеренно использованы для того, чтобы заставить веб-краулер или поисковый бот делать бесконечное количество запросов или вызвать сбой плохо сконструированного краулера. Веб-краулеры также называются веб-пауками , от чего и произошло название. Ловушки-пауки могут быть созданы для «поимки» спам-ботов или других краулеров, которые тратят впустую пропускную способность веб-сайта. Они также могут быть созданы непреднамеренно календарями, которые используют динамические страницы со ссылками, которые постоянно указывают на следующий день или год.
Обычно используются следующие методы:
http://example.com/bar/foo/bar/foo/bar/foo/bar/...
Не существует алгоритма для обнаружения всех ловушек для пауков. Некоторые классы ловушек могут быть обнаружены автоматически, но новые, нераспознанные ловушки возникают быстро.
Паучий капкан заставляет веб-сканер войти в нечто вроде бесконечного цикла , [3] что тратит ресурсы паука, [4] снижает его производительность и, в случае плохо написанного краулера, может привести к сбою программы. Вежливые пауки чередуют запросы между разными хостами и не запрашивают документы с одного и того же сервера чаще, чем раз в несколько секунд, [5] что означает, что «вежливый» веб-сканер страдает в гораздо меньшей степени, чем «невежливый» краулер. [ необходима цитата ]
Кроме того, на сайтах с ловушками-пауками обычно есть robots.txt, сообщающий ботам не попадать в ловушку, поэтому законный «вежливый» бот не попадется в ловушку, тогда как «невежливый» бот, который игнорирует настройки robots.txt, попадет в ловушку. [6]
{{cite web}}
: |last=
имеет общее название ( помощь )