Веб-сканер

Веб -сканер , иногда называемый пауком или роботом-пауком и часто сокращаемый до сканера , представляет собой интернет-бот , который систематически просматривает Всемирную паутину и который обычно используется поисковыми системами с целью веб-индексации ( веб-паук ). ^[1]

Поисковые системы и некоторые другие веб-сайты используют программное обеспечение для сканирования или сканирования веб-страниц для обновления своего веб-контента или индексов веб-контента других сайтов. Веб-сканеры копируют страницы для обработки поисковой системой, которая индексирует загруженные страницы, чтобы пользователи могли осуществлять поиск более эффективно.

Краулеры потребляют ресурсы посещаемых систем и часто посещают сайты без подсказки. Проблемы расписания, загрузки и «вежливости» вступают в игру при доступе к большим коллекциям страниц. Для общедоступных сайтов, не желающих сканироваться, существуют механизмы, позволяющие сообщить об этом сканирующему агенту. Например, включение robots.txtфайла может потребовать от ботов индексировать только части веб-сайта или вообще ничего не индексировать.

Количество Интернет-страниц чрезвычайно велико; даже самые крупные сканеры не могут составить полный индекс. По этой причине поисковые системы изо всех сил пытались предоставить релевантные результаты поиска в первые годы существования Всемирной паутины, до 2000 года. Сегодня релевантные результаты выдаются практически мгновенно.

Сканеры могут проверять гиперссылки и HTML- код. Их также можно использовать для очистки веб-страниц и программирования на основе данных .

Номенклатура

Веб-сканер также известен как паук , ^[2] муравей , автоматический индексатор , ^[3] или (в контексте программного обеспечения FOAF ) веб-скатер . ^[4]

Обзор

Поисковый робот начинается со списка URL-адресов , которые необходимо посетить. Эти первые URL-адреса называются семенами . Когда сканер посещает эти URL-адреса, общаясь с веб-серверами , которые отвечают на эти URL-адреса, он идентифицирует все гиперссылки на полученных веб-страницах и добавляет их в список URL-адресов для посещения, называемый границей сканирования . URL-адреса из границы рекурсивно посещаются в соответствии с набором политик. Если сканер выполняет архивирование веб-сайтов (или веб-архивирование ), он копирует и сохраняет информацию по мере ее поступления. Архивы обычно хранятся таким образом, что их можно просматривать, читать и перемещаться по ним, как если бы они находились в сети, но сохраняются в виде «снимков». ^[5]

Архив известен как репозиторий и предназначен для хранения и управления коллекцией веб-страниц . В репозитории хранятся только HTML- страницы, и эти страницы хранятся как отдельные файлы. Репозиторий похож на любую другую систему хранения данных, например на современную базу данных. Единственное отличие состоит в том, что репозиторию не нужны все функциональные возможности, предлагаемые системой баз данных. В репозитории хранится самая последняя версия веб-страницы, полученная сканером. ^{[ нужна цитата ]}

Большой объем означает, что сканер может загрузить только ограниченное количество веб-страниц в течение определенного времени, поэтому ему необходимо расставить приоритеты загрузок. Высокая скорость изменений может означать, что страницы уже были обновлены или даже удалены.

Количество возможных сканируемых URL-адресов, генерируемых серверным программным обеспечением, также мешает веб-сканерам избегать получения дублированного контента . Существуют бесконечные комбинации параметров HTTP GET (на основе URL-адресов), из которых лишь небольшая часть фактически возвращает уникальный контент. Например, простая онлайн-галерея фотографий может предлагать пользователям три варианта, как указано в параметрах HTTP GET в URL-адресе. Если существует четыре способа сортировки изображений, три варианта размера миниатюр , два формата файлов и возможность отключения пользовательского контента, то к одному и тому же набору контента можно получить доступ с помощью 48 различных URL-адресов, каждый из которых может быть связан с сайт. Эта математическая комбинация создает проблему для сканеров, поскольку им приходится перебирать бесконечные комбинации относительно незначительных изменений сценария, чтобы получить уникальный контент.

Как Эдвардс и др. отметил: «Учитывая, что пропускная способность для сканирования не является ни бесконечной, ни бесплатной, становится необходимым сканировать Интернет не только масштабируемым, но и эффективным способом, если необходимо поддерживать некоторую разумную меру качества или актуальности». ^[6] На каждом этапе сканер должен тщательно выбирать, какие страницы посетить в следующий раз.

Политика сканирования

Поведение веб-сканера является результатом сочетания политик: ^[7]

политика выбора , в которой указаны страницы для загрузки,
политика повторного посещения , в которой указано, когда проверять изменения на страницах,
политика вежливости , определяющая, как избежать перегрузки веб-сайтов .
политика распараллеливания , определяющая, как координировать распределенные веб-сканеры.

Политика отбора

Учитывая нынешний размер Интернета, даже крупные поисковые системы покрывают лишь часть общедоступной части. Исследование 2009 года показало, что даже крупные поисковые системы индексируют не более 40–70% индексируемой сети; ^[8] предыдущее исследование Стива Лоуренса и Ли Джайлса показало, что ни одна поисковая система не проиндексировала более 16% Интернета в 1999 году . ^[9] Поскольку сканер всегда загружает лишь часть веб-страниц , это очень желательно для загруженная часть должна содержать наиболее релевантные страницы, а не просто случайную выборку из Интернета.

Для этого требуется метрика важности для определения приоритетов веб-страниц. Важность страницы зависит от ее внутреннего качества, ее популярности с точки зрения ссылок или посещений и даже ее URL-адреса (последнее относится к вертикальным поисковым системам, ограниченным одним доменом верхнего уровня , или к поисковым системам, ограниченным одним доменом верхнего уровня). на фиксированный веб-сайт). Разработка хорошей политики выбора имеет дополнительную трудность: она должна работать с частичной информацией, поскольку полный набор веб-страниц неизвестен во время сканирования.

Чонху Чо и др. провел первое исследование политики планирования сканирования. Их набор данных представлял собой сканирование 180 000 страниц домена stanford.edu, в ходе которого было проведено моделирование сканирования с использованием различных стратегий. ^[10] Тестируемые метрики заказа включали в себя определение ширины страницы , количество обратных ссылок и частичный расчет PageRank . Один из выводов заключался в том, что если сканер хочет загружать страницы с высоким PageRank на ранних этапах процесса сканирования, то лучше использовать стратегию частичного PageRank, за которой следуют стратегия с приоритетом ширины и подсчетом обратных ссылок. Однако эти результаты относятся только к одному домену. Чо также написал докторскую диссертацию в Стэнфорде, посвященную сканированию веб-страниц. ^[11]

Найорк и Винер фактически просканировали 328 миллионов страниц, используя упорядочивание в ширину. ^[12] Они обнаружили, что сканирование в ширину захватывает страницы с высоким PageRank на ранних этапах сканирования (но они не сравнивали эту стратегию с другими стратегиями). Авторы объясняют этот результат тем, что «самые важные страницы имеют много ссылок на них с разных хостов, и эти ссылки будут найдены раньше, независимо от того, на каком хосте или странице происходит сканирование».

Абитебул разработал стратегию сканирования, основанную на алгоритме OPIC (онлайн-вычисление важности страниц). ^[13] В OPIC каждой странице дается начальная сумма «наличных», которая равномерно распределяется между страницами, на которые она указывает. Это похоже на вычисление PageRank, но быстрее и выполняется всего за один шаг. Сканер, управляемый OPIC, сначала загружает страницы на границе сканирования с большим количеством «наличных». Эксперименты проводились на синтетическом графе объемом 100 000 страниц со степенным распределением входящих ссылок. Однако не было никаких сравнений с другими стратегиями и экспериментов в реальной сети.

Болди и др. использовал моделирование на подмножествах Интернета, состоящих из 40 миллионов страниц из .itдомена и 100 миллионов страниц из сканирования WebBase, проверяя широту и глубину, случайное упорядочение и всезнающую стратегию. Сравнение основывалось на том, насколько хорошо PageRank, рассчитанный при частичном сканировании, соответствует истинному значению PageRank. Некоторые посещения, которые накапливают PageRank очень быстро (особенно посещения в ширину и всезнающие посещения), дают очень плохие прогрессивные приближения. ^[14]^[15]

Баеза-Йейтс и др. использовал моделирование на двух подмножествах Интернета из 3 миллионов страниц из домена .grи .cl, тестируя несколько стратегий сканирования. ^[16] Они показали, что и стратегия OPIC, и стратегия, использующая длину очередей для каждого сайта, лучше, чем сканирование в ширину , и что также очень эффективно использовать предыдущее сканирование, когда оно доступно, для руководите текущим.

Данешпаджух и др. разработал основанный на сообществе алгоритм поиска хороших семян. ^[17] Их метод сканирует веб-страницы с высоким PageRank из разных сообществ за меньшее количество итераций по сравнению со сканированием, начиная со случайных начальных чисел. Используя этот новый метод, можно извлечь хорошее начальное значение из ранее просканированного веб-графа. Используя эти семена, новое сканирование может быть очень эффективным.

Ограничение перехода по ссылкам

Сканер может искать только страницы HTML и избегать всех других типов MIME . Чтобы запросить только ресурсы HTML, сканер может выполнить запрос HTTP HEAD, чтобы определить тип MIME веб-ресурса, прежде чем запрашивать весь ресурс с помощью запроса GET. Чтобы избежать выполнения многочисленных запросов HEAD, сканер может проверить URL-адрес и запрашивать ресурс только в том случае, если URL-адрес заканчивается определенными символами, такими как .html, .htm, .asp, .aspx, .php, .jsp, .jspx или косой чертой. . Эта стратегия может привести к непреднамеренному пропуску многочисленных веб-ресурсов HTML.

Некоторые сканеры могут также избегать запроса ресурсов, имеющих знак "?" в них (генерируются динамически), чтобы избежать ловушек , которые могут привести к тому, что сканер загрузит бесконечное количество URL-адресов с веб-сайта. Эта стратегия ненадежна, если сайт использует переписывание URL-адресов для упрощения своих URL-адресов.

Нормализация URL-адресов

Сканеры обычно выполняют некоторую нормализацию URL-адресов , чтобы избежать повторного сканирования одного и того же ресурса. Термин нормализация URL-адресов , также называемый канонизацией URL-адресов , относится к процессу последовательного изменения и стандартизации URL-адресов. Существует несколько типов нормализации, которые можно выполнить, включая преобразование URL-адресов в нижний регистр, удаление "." и сегменты «..», а также добавление косой черты в конце к непустому компоненту пути. ^[18]

Ползание по восходящей траектории

Некоторые сканеры намереваются загрузить/загрузить как можно больше ресурсов с определенного веб-сайта. Поэтому был введен искатель по возрастанию пути , который будет проходить по каждому пути в каждом URL-адресе, который он намеревается сканировать. ^[19] Например, если задан начальный URL-адрес http://llama.org/hamster/monkey/page.html, он попытается просканировать /hamster/monkey/, /hamster/ и /. Коти обнаружил, что сканер, восходящий по пути, очень эффективен при поиске изолированных ресурсов или ресурсов, на которые при обычном сканировании не было бы найдено входящей ссылки.

Сосредоточенное сканирование

Важность страницы для сканера также может быть выражена как функция сходства страницы с данным запросом. Веб-сканеры, которые пытаются загрузить страницы, похожие друг на друга, называются целевыми сканерами или тематическими сканерами . Концепции актуального и целенаправленного ползания были впервые предложены Филиппо Менцером ^[20]^[21] и Суменом Чакрабарти и соавт. ^[22]

Основная проблема при целенаправленном сканировании заключается в том, что в контексте веб-сканера мы хотели бы иметь возможность предсказать сходство текста данной страницы с запросом до фактической загрузки страницы. Возможным предиктором является якорный текст ссылок; именно такой подход использовал Пинкертон ^[23] при создании первого веб-сканера на заре Интернета. Дилигенти и др. ^[24] предлагают использовать полное содержимое уже посещенных страниц, чтобы сделать вывод о сходстве между движущим запросом и страницами, которые еще не были посещены. Производительность целенаправленного сканирования зависит главным образом от количества ссылок по конкретной искомой теме, а целенаправленное сканирование обычно опирается на общую поисковую систему Интернета для предоставления отправных точек.

Поисковый робот, ориентированный на академические цели

Примером специализированных сканеров являются академические сканеры, которые сканируют научные документы, находящиеся в свободном доступе, такие как citeseerxbot , который является сканером поисковой системы CiteSeer ^X.Другими академическими поисковыми системами являются Google Scholar , Microsoft Academic Search и т. д. Поскольку большинство научных статей публикуются в форматах PDF , такие сканеры особенно заинтересованы в сканировании файлов PDF, PostScript , Microsoft Word , включая их сжатые форматы. По этой причине общие сканеры с открытым исходным кодом, такие как Heritrix , должны быть настроены для фильтрации других типов MIME или используется промежуточное программное обеспечение для извлечения этих документов и импорта их в целевую базу данных и репозиторий сканирования. ^[25] Определить, являются ли эти документы академическими или нет, сложно и это может привести к значительным накладным расходам в процессе сканирования, поэтому это выполняется как процесс последующего сканирования с использованием машинного обучения или алгоритмов регулярных выражений . Эти академические документы обычно можно получить с домашних страниц факультетов и студентов или со страниц публикаций исследовательских институтов. Поскольку академические документы составляют лишь небольшую часть всех веб-страниц, правильный выбор исходных данных важен для повышения эффективности этих веб-сканеров. ^[26] Другие академические сканеры могут загружать обычные текстовые файлы и файлы HTML , содержащие метаданные научных статей, такие как названия, статьи и рефераты. Это увеличивает общее количество статей, но значительная их часть может не обеспечивать бесплатную загрузку PDF-файлов.

Поисковый робот, ориентированный на семантику

Другой тип сфокусированных сканеров — это семантически ориентированный сканер, который использует онтологии предметной области для представления тематических карт и связывания веб-страниц с соответствующими онтологическими концепциями для целей выбора и категоризации. ^[27] Кроме того, онтологии могут автоматически обновляться в процессе сканирования. Донг и др. ^[28] представили такой сканер, основанный на обучении онтологии, использующий машину опорных векторов для обновления содержания онтологических концепций при сканировании веб-страниц.

Политика повторного посещения

Интернет имеет очень динамичную природу, и сканирование его части может занять недели или месяцы. К тому времени, когда веб-искатель завершит сканирование, могло произойти множество событий, включая создание, обновление и удаление.

С точки зрения поисковой системы, необнаружение события связано с издержками и, следовательно, с наличием устаревшей копии ресурса. Наиболее часто используемые функции стоимости — это свежесть и возраст. ^[29]

Свежесть : это двоичная мера, которая указывает, является ли локальная копия точной или нет. Свежесть страницы p в репозитории в момент времени t определяется как:

F_{p}(t)={\begin{cases}1&{\rm {if}}~p~{\rm {~~равен~~локальной~копии~в~времени}} ~t\\0&{\rm {иначе}}\end{cases}}

Возраст : это показатель, показывающий, насколько устарела локальная копия. Возраст страницы p в репозитории в момент времени t определяется как:

A_{p}(t)={\begin{cases}0&{\rm {if}}~p~{\rm {~не~модифицируется~в~время}}~t\\t- {\rm {время~модификации~of}}~p&{\rm {иначе}}\end{cases}}

Коффман и др. работали с определением цели веб-сканера, которое эквивалентно свежести, но используют другую формулировку: они предполагают, что сканер должен минимизировать долю времени, в течение которого страницы остаются устаревшими. Они также отметили, что проблему веб-сканирования можно смоделировать как систему опроса с несколькими очередями и одним сервером, в которой веб-сканер является сервером, а веб-сайты — это очереди. Модификации страниц — это прибытие клиентов, а время переключения — это интервал между доступами к страницам одного веб-сайта. Согласно этой модели среднее время ожидания клиента в системе опроса эквивалентно среднему возрасту веб-сканера. ^[30]

Цель сканера — поддерживать как можно более высокую среднюю актуальность страниц в своей коллекции или поддерживать как можно более низкий средний возраст страниц. Эти цели не эквивалентны: в первом случае сканер озабочен только тем, сколько страниц устарели, а во втором случае сканер озабочен тем, насколько устарели локальные копии страниц.

Две простые политики повторного посещения были изучены Чо и Гарсиа-Молиной: ^[31]

Единая политика: предполагает повторное посещение всех страниц коллекции с одинаковой частотой, независимо от скорости их изменения.
Пропорциональная политика: предполагает более частое повторное посещение страниц, которые изменяются чаще. Частота посещений прямо пропорциональна (предполагаемой) частоте изменений.

В обоих случаях повторный порядок сканирования страниц может выполняться как в случайном, так и в фиксированном порядке.

Чо и Гарсия-Молина доказали удивительный результат: с точки зрения средней свежести однородная политика превосходит пропорциональную политику как при моделировании веб-сайтов, так и при реальном веб-сканировании. Интуитивно, причина заключается в том, что, поскольку веб-сканеры имеют ограничение на количество страниц, которые они могут сканировать за определенный период времени, (1) они будут выделять слишком много новых сканирований для быстро меняющихся страниц за счет менее частого обновления страниц, и (2) свежесть быстро меняющихся страниц сохраняется в течение более короткого периода времени, чем свежесть менее часто меняющихся страниц. Другими словами, пропорциональная политика выделяет больше ресурсов для сканирования часто обновляемых страниц, но требует меньше времени на их обновление.

Чтобы улучшить актуальность, сканер должен наказывать элементы, которые меняются слишком часто. ^[32] Оптимальная политика повторного посещения не является ни единой политикой, ни пропорциональной политикой. Оптимальный метод поддержания высокой средней актуальности включает в себя игнорирование страниц, которые изменяются слишком часто, а оптимальный метод поддержания низкого среднего возраста — использовать частоты доступа, которые монотонно (и сублинейно) увеличиваются со скоростью изменения каждой страницы. В обоих случаях оптимум ближе к единообразной политике, чем к пропорциональной политике: как отмечают Coffman et al. обратите внимание: «чтобы свести к минимуму ожидаемое время устаревания, доступ к любой конкретной странице должен осуществляться как можно более равномерно». ^[30] Явные формулы для политики повторного посещения в целом недостижимы, но они получаются численно, поскольку зависят от распределения изменений страниц. Чо и Гарсия-Молина показывают, что экспоненциальное распределение хорошо подходит для описания изменений страниц, ^[32] в то время как Ipeirotis et al. покажите, как использовать статистические инструменты для обнаружения параметров, влияющих на это распределение. ^[33] Рассмотренные здесь правила повторного посещения рассматривают все страницы как однородные с точки зрения качества («все страницы в Интернете имеют одинаковую ценность»), что не является реалистичным сценарием, поэтому дополнительная информация о качестве веб-страниц должна быть включено для достижения лучшей политики сканирования.

Политика вежливости

Сканеры могут получать данные гораздо быстрее и глубже, чем люди, ищущие информацию, поэтому они могут оказать пагубное влияние на производительность сайта. Если один сканер выполняет несколько запросов в секунду и/или загружает большие файлы, серверу может быть сложно обрабатывать запросы от нескольких сканеров.

Как отметил Костер, использование веб-сканеров полезно для решения ряда задач, но для общества в целом приходится платить. ^[34] Затраты на использование веб-сканеров включают:

сетевые ресурсы, поскольку сканеры требуют значительной пропускной способности и работают с высокой степенью параллелизма в течение длительного периода времени;
перегрузка сервера, особенно если частота обращений к данному серверу слишком высока;
плохо написанные сканеры, которые могут привести к сбою серверов или маршрутизаторов или страницы загрузки которых они не могут обработать; и
персональные сканеры, которые, если их задействует слишком много пользователей, могут нарушить работу сетей и веб-серверов.

Частичным решением этих проблем является протокол исключения роботов , также известный как протокол robots.txt, который является стандартом, позволяющим администраторам указывать, какие части их веб-серверов не должны быть доступны сканерам. ^[35] Этот стандарт не содержит рекомендаций по интервалу посещения одного и того же сервера, хотя этот интервал является наиболее эффективным способом избежать перегрузки сервера. В последнее время коммерческие поисковые системы, такие как Google , Ask Jeeves , MSN и Yahoo! Поиск может использовать дополнительный параметр «Crawl-delay:» в файле robots.txt , чтобы указать количество секунд задержки между запросами.

Первый предложенный интервал между последовательными загрузками страниц составлял 60 секунд. ^[36] Однако, если бы страницы загружались с такой скоростью с веб-сайта с более чем 100 000 страниц по идеальному соединению с нулевой задержкой и бесконечной пропускной способностью, загрузка только всего этого веб-сайта заняла бы более 2 месяцев; кроме того, будет использоваться только часть ресурсов этого веб-сервера.

Cho использует интервал доступа в 10 секунд, ^[31] , а сканер WIRE использует 15 секунд по умолчанию. ^[37] Сканер MercatorWeb придерживается политики адаптивной вежливости: если загрузка документа с данного сервера заняла t секунд, сканер ждет 10 t секунд, прежде чем загружать следующую страницу. ^[38] Дилл и др. используйте 1 секунду. ^[39]

Тем, кто использует веб-сканеры в исследовательских целях, необходим более детальный анализ затрат и выгод, а также следует учитывать этические соображения при принятии решения о том, где сканировать и как быстро сканировать. ^[40]

Неофициальные данные журналов доступа показывают, что интервалы доступа известных сканеров варьируются от 20 секунд до 3–4 минут. Стоит отметить, что даже если вы очень вежливы и принимаете все меры предосторожности, чтобы избежать перегрузки веб-серверов, от администраторов веб-серверов поступают некоторые жалобы. Сергей Брин и Ларри Пейдж отметили в 1998 году: «... запуск сканера, который подключается к более чем полумиллиону серверов... генерирует изрядное количество электронной почты и телефонных звонков. Из-за огромного количества людей, подключающихся к сети, , всегда находятся те, кто не знает, что такое краулер, потому что это первый, кого они видят." ^[41]

Политика распараллеливания

Параллельный сканер — это сканер, который запускает несколько процессов параллельно. Цель состоит в том, чтобы максимизировать скорость загрузки, минимизируя при этом накладные расходы, связанные с распараллеливанием, и избежать повторных загрузок одной и той же страницы. Чтобы избежать повторной загрузки одной и той же страницы, системе сканирования требуется политика назначения новых URL-адресов, обнаруженных в процессе сканирования, поскольку один и тот же URL-адрес может быть найден двумя разными процессами сканирования.

Архитектуры

Высокоуровневая архитектура стандартного веб-сканера

Как отмечалось в предыдущих разделах, сканер должен иметь не только хорошую стратегию сканирования, но и высокооптимизированную архитектуру.

Шкапенюк и Суэль отметили, что: ^[42]

Хотя создать медленный сканер, который загружает несколько страниц в секунду в течение короткого периода времени, довольно легко, построение высокопроизводительной системы, способной загружать сотни миллионов страниц в течение нескольких недель, представляет собой ряд проблем при проектировании системы. Эффективность ввода-вывода и сети, а также надежность и управляемость.

Веб-сканеры являются центральной частью поисковых систем, и подробности их алгоритмов и архитектуры хранятся в качестве коммерческой тайны. Когда проекты сканеров публикуются, часто наблюдается недостаток деталей, который не позволяет другим воспроизвести работу. Также возникают опасения по поводу « спама в поисковых системах », который не позволяет крупным поисковым системам публиковать свои алгоритмы ранжирования.

Безопасность

Хотя большинство владельцев веб-сайтов стремятся к тому, чтобы их страницы были проиндексированы как можно шире, чтобы иметь сильное присутствие в поисковых системах , сканирование веб-сайтов также может иметь непредвиденные последствия и привести к компрометации или утечке данных, если поисковая система индексирует ресурсы, которые не должны быть общедоступными или страницы, раскрывающие потенциально уязвимые версии программного обеспечения.

Помимо стандартных рекомендаций по безопасности веб-приложений, владельцы веб-сайтов могут снизить риск хакерских атак, разрешив поисковым системам индексировать только общедоступные части своих веб-сайтов (с помощью robots.txt ) и явно заблокировав индексацию транзакционных частей (страницы входа, частные страницы, и т. д.).

Идентификация краулера

Веб-сканеры обычно идентифицируют себя на веб-сервере, используя поле User-agent HTTP- запроса. Администраторы веб-сайтов обычно просматривают журналы своих веб-серверов и используют поле пользовательского агента, чтобы определить, какие сканеры посещали веб-сервер и как часто. Поле пользовательского агента может включать URL-адрес , по которому администратор веб-сайта может найти дополнительную информацию о сканере. Изучение журнала веб-сервера — утомительная задача, поэтому некоторые администраторы используют инструменты для идентификации, отслеживания и проверки веб-сканеров. Спам-боты и другие вредоносные веб-сканеры вряд ли будут размещать идентифицирующую информацию в поле пользовательского агента или могут замаскировать свою идентичность под браузером или другим известным сканером.

Администраторы веб-сайтов предпочитают, чтобы веб-сканеры идентифицировали себя, чтобы при необходимости они могли связаться с владельцем. В некоторых случаях сканеры могут случайно попасть в ловушку сканера или перегрузить веб-сервер запросами, и владельцу необходимо остановить сканер. Идентификация также полезна для администраторов, которые хотят знать, когда можно ожидать, что их веб-страницы будут проиндексированы определенной поисковой системой .

Ползание в глубокой сети

Огромное количество веб-страниц находится в глубокой или невидимой сети . ^[43] Эти страницы обычно доступны только путем отправки запросов в базу данных, и обычные сканеры не могут найти эти страницы, если на них нет ссылок. Протокол Google Sitemaps и mod oai ^[44] предназначены для обеспечения обнаружения этих ресурсов глубокой сети.

Глубокое сканирование сети также увеличивает количество сканируемых веб-ссылок. Некоторые сканеры принимают только некоторые URL-адреса в <a href="URL">форме. В некоторых случаях, например в случае с роботом Googlebot , веб-сканирование выполняется по всему тексту, содержащемуся внутри гипертекстового содержимого, тегов или текста.

Стратегические подходы могут быть предприняты для нацеливания на глубокий веб-контент. С помощью метода, называемого очисткой экрана , специализированное программное обеспечение можно настроить для автоматического и многократного запроса заданной веб-формы с целью агрегирования полученных данных. Такое программное обеспечение можно использовать для охвата нескольких веб-форм на нескольких веб-сайтах. Данные, извлеченные из результатов отправки одной веб-формы, могут быть взяты и применены в качестве входных данных в другую веб-форму, обеспечивая таким образом непрерывность всей Глубокой сети, что невозможно при использовании традиционных веб-сканеров. ^[45]

Страницы, созданные на основе AJAX , относятся к числу тех, которые создают проблемы для веб-сканеров. Google предложил формат вызовов AJAX, который их бот может распознавать и индексировать. ^[46]

Визуальные и программные сканеры

В сети доступен ряд продуктов «визуального парсера/сканера», которые будут сканировать страницы и структурировать данные в столбцы и строки в зависимости от требований пользователей. Одним из основных различий между классическим и визуальным сканером является уровень навыков программирования, необходимый для настройки сканера. Последнее поколение «визуальных парсеров» устраняет большую часть навыков программирования, необходимых для программирования и запуска сканирования для сбора веб-данных.

Метод визуального очистки/сканирования основан на «обучении» пользователем части технологии сканирования, которая затем следует шаблонам в полуструктурированных источниках данных. Преобладающий метод обучения визуального сканера — выделение данных в браузере и обучение столбцов и строк. Хотя технология не нова, например, она легла в основу компании Needlebase, которую купила Google (в рамках более крупного приобретения ITA Labs ^[47] ), в этой области продолжается рост и инвестиции со стороны инвесторов и конечных пользователей. пользователи. ^{[ нужна цитата ]}

Список веб-сканеров

Ниже приводится список опубликованных архитектур сканеров для сканеров общего назначения (за исключением специализированных веб-сканеров) с кратким описанием, включающим имена, данные различным компонентам и выдающимся функциям:

Исторические веб-сканеры

World Wide Web Worm — это сканер, используемый для создания простого индекса названий документов и URL-адресов. Поиск по индексу можно выполнить с помощью команды grep Unix .
Yahoo! Slurp — это название Yahoo! Поисковый робот до тех пор, пока Yahoo! заключила контракт с Microsoft на использование вместо этого Bingbot .

Собственные веб-сканеры

Applebot — это веб-сканер Apple . Он поддерживает Siri и другие продукты. ^[48]
Bingbot — это название веб-сканера Microsoft Bing . Он заменил MSnbot .
Baiduspider — это веб-сканер Baidu .
DuckDuckBot — это веб-сканер DuckDuckGo .
Робот Google описан достаточно подробно, но ссылка касается только ранней версии его архитектуры, написанной на C++ и Python . Сканер был интегрирован с процессом индексирования, поскольку анализ текста выполнялся для полнотекстового индексирования, а также для извлечения URL-адресов. Существует URL-сервер, который отправляет списки URL-адресов, которые должны быть получены несколькими процессами сканирования. Во время анализа найденные URL-адреса передавались на URL-сервер, который проверял, просматривался ли URL-адрес ранее. Если нет, URL-адрес был добавлен в очередь URL-сервера.
WebCrawler использовался для создания первого общедоступного полнотекстового индекса подмножества Интернета. Он был основан на lib-WWW для загрузки страниц и другой программе для анализа и упорядочивания URL-адресов для более широкого исследования веб-графа. Он также включал в себя сканер в режиме реального времени, который переходил по ссылкам на основе сходства текста привязки с предоставленным запросом.
WebFountain — это распределенный модульный сканер, похожий на Mercator, но написанный на C++.
Xenon — это веб-сканер, используемый государственными налоговыми органами для выявления случаев мошенничества. ^[49]^[50]

Коммерческие веб-сканеры

За дополнительную плату доступны следующие веб-сканеры:

Diffbot — программный поисковый робот общего назначения, доступный как API.
SortSite — сканер для анализа веб-сайтов, доступен для Windows и Mac OS
Swiftbot — веб-сканер Swiftype , доступный как программное обеспечение как услуга.

Сканеры с открытым исходным кодом

Apache Nutch — это расширяемый и масштабируемый веб-сканер, написанный на Java и выпущенный по лицензии Apache . Он основан на Apache Hadoop и может использоваться с Apache Solr или Elasticsearch .
GRUB был распределенным поисковым сканером с открытым исходным кодом, который Wikia Search использовал для сканирования Интернета.
Heritrix — это сканер архивного качества Интернет-архива , предназначенный для архивирования периодических снимков значительной части Интернета. Он был написан на Java .
ht://Dig включает в свой механизм индексирования веб-сканер.
HTTrack использует веб-сканер для создания зеркала веб-сайта для просмотра в автономном режиме. Он написан на языке C и выпущен под лицензией GPL.
Norconex Web Crawler — это веб-сканер с широкими возможностями расширения, написанный на Java и выпущенный под лицензией Apache . Его можно использовать со многими репозиториями, такими как Apache Solr , Elasticsearch , Microsoft Azure Cognitive Search , Amazon CloudSearch и другими.
mnoGoSearch — это сканер, индексатор и поисковая система, написанная на C и лицензированная под лицензией GPL (только для компьютеров *NIX).
Open Search Server — это версия программного обеспечения поисковой системы и веб-сканера под лицензией GPL.
Scrapy — фреймворк веб-сканера с открытым исходным кодом, написанный на Python (под лицензией BSD ).
Seeks — бесплатная распределенная поисковая система (под лицензией AGPL ).
StormCrawler — набор ресурсов для создания масштабируемых веб-сканеров с малой задержкой на Apache Storm (лицензия Apache).
tkWWW Robot — сканер на основе веб-браузера tkWWW (под лицензией GPL).
GNU Wget — это программа -сканер, управляемая из командной строки, написанная на C и выпущенная под лицензией GPL . Обычно он используется для зеркалирования веб-сайтов и FTP-сайтов.
Xapian — поисковая система, написанная на C++.
YaCy — бесплатная распределенная поисковая система, построенная на принципах одноранговых сетей (под лицензией GPL).

Смотрите также

дальнейшее чтение

Чо, Чонху, «Проект веб-сканирования», факультет компьютерных наук Калифорнийского университета в Лос-Анджелесе.
История поисковых систем от Wiley
WIVET — это проект OWASP по сравнительному анализу , цель которого — определить, может ли веб-сканер идентифицировать все гиперссылки на целевом веб-сайте.
Шестаков, Денис, «Актуальные проблемы веб-сканирования» и «Интеллектуальное веб-сканирование», слайды к обучающим материалам, проведённым на ICWE'13 и WI-IAT'13.