Скрапинг поисковых систем — это процесс сбора URL-адресов , описаний или другой информации из поисковых систем . Это особая форма скрапинга экрана или веб-скрапинга, предназначенная только для поисковых систем.
Чаще всего крупные поставщики услуг поисковой оптимизации (SEO) полагаются на регулярный сбор ключевых слов из поисковых систем, чтобы отслеживать конкурентную позицию веб-сайтов своих клиентов по релевантным ключевым словам или их статусу индексации .
Процесс входа на веб-сайт и извлечения данных автоматизированным способом также часто называют « краулингом ». Поисковые системы получают почти все свои данные от автоматизированных краулинговых ботов.
Google на сегодняшний день является крупнейшей поисковой системой с наибольшим числом пользователей, а также наибольшим доходом от креативной рекламы, что делает Google самой важной поисковой системой для компаний, занимающихся SEO. [1]
Хотя Google не предпринимает юридических действий против парсинга, компания использует ряд защитных методов, которые делают сбор результатов сложной задачей, даже если инструмент для парсинга действительно подделывает обычный веб-браузер:
Когда защита поисковой системы полагает, что доступ может быть автоматизирован, поисковая система может отреагировать по-другому.
Первый уровень защиты — это страница капчи [4] , где пользователю предлагается подтвердить, что он реальный человек, а не бот или инструмент. Решение капчи создаст файл cookie , который снова разрешает доступ к поисковой системе на некоторое время. Примерно через день страница капчи снова отображается.
Второй уровень защиты — это похожая страница с ошибкой, но без капчи. В этом случае пользователю полностью блокируется возможность пользоваться поисковой системой до тех пор, пока временная блокировка не будет снята или пользователь не сменит свой IP-адрес.
Третий уровень защиты — это долгосрочная блокировка всего сегмента сети. Google блокирует крупные сетевые блокировки уже несколько месяцев. Такая блокировка, скорее всего, инициируется администратором и происходит только в том случае, если инструмент для скрапинга отправляет очень большое количество запросов.
Все эти формы обнаружения могут произойти и с обычным пользователем, особенно с пользователями, имеющими одинаковый IP-адрес или класс сети (диапазоны IPv4, а также диапазоны IPv6).
Для успешного парсинга поисковой системы двумя основными факторами являются время и объем.
Чем больше ключевых слов необходимо извлечь пользователю и чем меньше времени отводится на выполнение работы, тем сложнее будет извлечение данных и тем более проработанным должен быть скрипт или инструмент извлечения данных.
Скрипты парсинга должны преодолеть несколько технических проблем: [ необходима ссылка ]
При разработке скрапера для поисковой системы можно использовать практически любой язык программирования. Хотя, в зависимости от требований к производительности, некоторые языки будут предпочтительны.
PHP — это широко используемый язык для написания скриптов парсинга для веб-сайтов или бэкэнд-сервисов, поскольку он имеет мощные встроенные возможности (DOM-парсеры, libcURL); однако его использование памяти обычно в 10 раз больше, чем у аналогичного кода C/ C++ . Ruby on Rails и Python также часто используются для автоматизированных задач парсинга.
Кроме того, скрипты bash можно использовать вместе с cURL в качестве инструмента командной строки для анализа поисковой системы.
При парсинге веб-сайтов и сервисов юридическая сторона часто является большой проблемой для компаний, для парсинга веб-сайтов это во многом зависит от страны, из которой находится парсерный пользователь/компания, а также от того, какие данные или веб-сайт парсятся. С множеством различных судебных решений по всему миру. [5] [6]
Однако когда дело доходит до сбора данных поисковыми системами, ситуация иная: поисковые системы обычно не публикуют объекты интеллектуальной собственности, а просто повторяют или обобщают информацию, которую они извлекли с других веб-сайтов.
Самый крупный известный общественности инцидент, связанный с кражей данных поисковой системы, произошел в 2011 году, когда Microsoft была уличена в краже неизвестных ключевых слов из Google для своего собственного, сравнительно нового сервиса Bing [7] , но даже этот инцидент не привел к судебному разбирательству.