Поисковый парсинг

Скрапинг поисковых систем — это процесс сбора URL-адресов , описаний или другой информации из поисковых систем . Это особая форма скрапинга экрана или веб-скрапинга, предназначенная только для поисковых систем.

Чаще всего крупные поставщики услуг поисковой оптимизации (SEO) полагаются на регулярный сбор ключевых слов из поисковых систем, чтобы отслеживать конкурентную позицию веб-сайтов своих клиентов по релевантным ключевым словам или их статусу индексации .

Процесс входа на веб-сайт и извлечения данных автоматизированным способом также часто называют « краулингом ». Поисковые системы получают почти все свои данные от автоматизированных краулинговых ботов.

Трудности

Google на сегодняшний день является крупнейшей поисковой системой с наибольшим числом пользователей, а также наибольшим доходом от креативной рекламы, что делает Google самой важной поисковой системой для компаний, занимающихся SEO. ^[1]

Хотя Google не предпринимает юридических действий против парсинга, компания использует ряд защитных методов, которые делают сбор результатов сложной задачей, даже если инструмент для парсинга действительно подделывает обычный веб-браузер:

Google использует сложную систему ограничения частоты запросов, которая может различаться для каждого языка, страны, User-Agent, а также в зависимости от ключевых слов или параметров поиска. Ограничение частоты может сделать его непредсказуемым при доступе к автоматизированной поисковой системе, поскольку модели поведения неизвестны внешнему разработчику или пользователю.
Ограничения сети и IP также являются частью систем защиты от парсинга. Поисковые системы нелегко обмануть, изменив IP, в то время как использование прокси-серверов является очень важной частью успешного парсинга. Разнообразие и история злоупотреблений IP также важны.
Нарушающие IP-адреса и нарушающие IP-сети можно легко сохранить в базе данных черного списка, чтобы гораздо быстрее обнаруживать нарушителей. Тот факт, что большинство интернет-провайдеров предоставляют динамические IP-адреса клиентам, требует, чтобы такие автоматические запреты были только временными, а не блокировали невинных пользователей.
Обнаружение на основе поведения — самая сложная система защиты. Поисковые системы ежедневно предоставляют свои страницы миллионам пользователей, что обеспечивает большой объем информации о поведении. Скрипт или бот для скрапинга не ведет себя как настоящий пользователь, помимо нетипичного времени доступа, задержек и времени сеанса, ключевые слова, которые собираются, могут быть связаны друг с другом или включать необычные параметры. Например, у Google очень сложная система анализа поведения, возможно, использующая программное обеспечение для глубокого обучения для обнаружения необычных моделей доступа. Она может обнаруживать необычную активность гораздо быстрее, чем другие поисковые системы. ^[2]
Изменения HTML- разметки зависят от методов, используемых для сбора контента веб-сайта; даже небольшое изменение в HTML-данных может привести к поломке инструмента для парсинга, пока он не будет обновлен.
Общие изменения в системах обнаружения. В последние годы поисковые системы ужесточали свои системы обнаружения почти месяц за месяцем, что делало все более и более сложным надежный парсинг, поскольку разработчикам приходилось регулярно экспериментировать и адаптировать свой код. ^[3]

Обнаружение

Когда защита поисковой системы полагает, что доступ может быть автоматизирован, поисковая система может отреагировать по-другому.

Первый уровень защиты — это страница капчи ^[4] , где пользователю предлагается подтвердить, что он реальный человек, а не бот или инструмент. Решение капчи создаст файл cookie , который снова разрешает доступ к поисковой системе на некоторое время. Примерно через день страница капчи снова отображается.

Второй уровень защиты — это похожая страница с ошибкой, но без капчи. В этом случае пользователю полностью блокируется возможность пользоваться поисковой системой до тех пор, пока временная блокировка не будет снята или пользователь не сменит свой IP-адрес.

Третий уровень защиты — это долгосрочная блокировка всего сегмента сети. Google блокирует крупные сетевые блокировки уже несколько месяцев. Такая блокировка, скорее всего, инициируется администратором и происходит только в том случае, если инструмент для скрапинга отправляет очень большое количество запросов.

Все эти формы обнаружения могут произойти и с обычным пользователем, особенно с пользователями, имеющими одинаковый IP-адрес или класс сети (диапазоны IPv4, а также диапазоны IPv6).

Методы соскабливания

Для успешного парсинга поисковой системы двумя основными факторами являются время и объем.

Чем больше ключевых слов необходимо извлечь пользователю и чем меньше времени отводится на выполнение работы, тем сложнее будет извлечение данных и тем более проработанным должен быть скрипт или инструмент извлечения данных.

Скрипты парсинга должны преодолеть несколько технических проблем: ^{[ необходима ссылка ]}

Использование ротации IP с прокси. Эти прокси должны быть эксклюзивными (неразделяемыми) и не помеченными ни в одном черном списке.
Правильное управление временем, время между изменениями ключевых слов, пагинация, а также правильно размещенные задержки Эффективные долгосрочные показатели парсинга могут варьироваться от всего лишь 3–5 запросов (ключевых слов или страниц) в час до 100 и более в час для каждого используемого IP-адреса / прокси-сервера. Качество IP-адресов, методы парсинга, запрошенные ключевые слова и запрошенный язык/страна могут значительно повлиять на возможную максимальную скорость.
Правильная обработка параметров URL, файлов cookie, а также заголовков HTTP для имитации пользователя с типичным браузером
Анализ HTML DOM (извлечение URL-адресов, описаний, позиций рейтинга, ссылок сайта и других соответствующих данных из HTML-кода)
Обработка ошибок, автоматическая реакция на капчу или страницы блокировки и другие необычные ответы ^{[ необходима ссылка ]}

Языки программирования

При разработке скрапера для поисковой системы можно использовать практически любой язык программирования. Хотя, в зависимости от требований к производительности, некоторые языки будут предпочтительны.

PHP — это широко используемый язык для написания скриптов парсинга для веб-сайтов или бэкэнд-сервисов, поскольку он имеет мощные встроенные возможности (DOM-парсеры, libcURL); однако его использование памяти обычно в 10 раз больше, чем у аналогичного кода C/ C++ . Ruby on Rails и Python также часто используются для автоматизированных задач парсинга.

Кроме того, скрипты bash можно использовать вместе с cURL в качестве инструмента командной строки для анализа поисковой системы.

Юридический

При парсинге веб-сайтов и сервисов юридическая сторона часто является большой проблемой для компаний, для парсинга веб-сайтов это во многом зависит от страны, из которой находится парсерный пользователь/компания, а также от того, какие данные или веб-сайт парсятся. С множеством различных судебных решений по всему миру. ^[5]^[6]

Однако когда дело доходит до сбора данных поисковыми системами, ситуация иная: поисковые системы обычно не публикуют объекты интеллектуальной собственности, а просто повторяют или обобщают информацию, которую они извлекли с других веб-сайтов.

Самый крупный известный общественности инцидент, связанный с кражей данных поисковой системы, произошел в 2011 году, когда Microsoft была уличена в краже неизвестных ключевых слов из Google для своего собственного, сравнительно нового сервиса Bing ^[7] , но даже этот инцидент не привел к судебному разбирательству.

Смотрите также

Сравнение HTML-парсеров

Ссылки

^ "Google по-прежнему остается самой популярной поисковой системой в мире, но доля уникальных пользователей немного снизилась". searchengineland.com . 11 февраля 2013 г.
^ «Знает ли Google, что я использую Tor Browser?». tor.stackexchange.com .
^ "Группы Google". google.com .
^ «Мой компьютер отправляет автоматические запросы – Справка reCAPTCHA». support.google.com . Получено 2017-04-02 .
^ "Апелляционный суд отменяет обвинительный приговор и приговор хакеру/троллю "weev" [Обновлено]". arstechnica.com . 11 апреля 2014 г.
^ «Может ли копирование контента, не нарушающего авторские права, стать нарушением авторских прав... из-за того, как работают копировщики?». www.techdirt.com . 10 июня 2009 г.
^ Сингель, Райан. «Google ловит Bing на копировании; Microsoft говорит: «Ну и что?»». Wired .