stringtranslate.com

Поисковый парсинг

Скрапинг поисковых систем — это процесс сбора URL-адресов , описаний или другой информации из поисковых систем . Это особая форма скрапинга экрана или веб-скрапинга, предназначенная только для поисковых систем.

Чаще всего крупные поставщики услуг поисковой оптимизации (SEO) полагаются на регулярный сбор ключевых слов из поисковых систем, чтобы отслеживать конкурентную позицию веб-сайтов своих клиентов по релевантным ключевым словам или их статусу индексации .

Процесс входа на веб-сайт и извлечения данных автоматизированным способом также часто называют « краулингом ». Поисковые системы получают почти все свои данные от автоматизированных краулинговых ботов.

Трудности

Google на сегодняшний день является крупнейшей поисковой системой с наибольшим числом пользователей, а также наибольшим доходом от креативной рекламы, что делает Google самой важной поисковой системой для компаний, занимающихся SEO. [1]

Хотя Google не предпринимает юридических действий против парсинга, компания использует ряд защитных методов, которые делают сбор результатов сложной задачей, даже если инструмент для парсинга действительно подделывает обычный веб-браузер:

Обнаружение

Когда защита поисковой системы полагает, что доступ может быть автоматизирован, поисковая система может отреагировать по-другому.

Первый уровень защиты — это страница капчи [4] , где пользователю предлагается подтвердить, что он реальный человек, а не бот или инструмент. Решение капчи создаст файл cookie , который снова разрешает доступ к поисковой системе на некоторое время. Примерно через день страница капчи снова отображается.

Второй уровень защиты — это похожая страница с ошибкой, но без капчи. В этом случае пользователю полностью блокируется возможность пользоваться поисковой системой до тех пор, пока временная блокировка не будет снята или пользователь не сменит свой IP-адрес.

Третий уровень защиты — это долгосрочная блокировка всего сегмента сети. Google блокирует крупные сетевые блокировки уже несколько месяцев. Такая блокировка, скорее всего, инициируется администратором и происходит только в том случае, если инструмент для скрапинга отправляет очень большое количество запросов.

Все эти формы обнаружения могут произойти и с обычным пользователем, особенно с пользователями, имеющими одинаковый IP-адрес или класс сети (диапазоны IPv4, а также диапазоны IPv6).

Методы соскабливания

Для успешного парсинга поисковой системы двумя основными факторами являются время и объем.

Чем больше ключевых слов необходимо извлечь пользователю и чем меньше времени отводится на выполнение работы, тем сложнее будет извлечение данных и тем более проработанным должен быть скрипт или инструмент извлечения данных.

Скрипты парсинга должны преодолеть несколько технических проблем: [ необходима ссылка ]

Языки программирования

При разработке скрапера для поисковой системы можно использовать практически любой язык программирования. Хотя, в зависимости от требований к производительности, некоторые языки будут предпочтительны.

PHP — это широко используемый язык для написания скриптов парсинга для веб-сайтов или бэкэнд-сервисов, поскольку он имеет мощные встроенные возможности (DOM-парсеры, libcURL); однако его использование памяти обычно в 10 раз больше, чем у аналогичного кода C/ C++ . Ruby on Rails и Python также часто используются для автоматизированных задач парсинга.

Кроме того, скрипты bash можно использовать вместе с cURL в качестве инструмента командной строки для анализа поисковой системы.

Юридический

При парсинге веб-сайтов и сервисов юридическая сторона часто является большой проблемой для компаний, для парсинга веб-сайтов это во многом зависит от страны, из которой находится парсерный пользователь/компания, а также от того, какие данные или веб-сайт парсятся. С множеством различных судебных решений по всему миру. [5] [6]

Однако когда дело доходит до сбора данных поисковыми системами, ситуация иная: поисковые системы обычно не публикуют объекты интеллектуальной собственности, а просто повторяют или обобщают информацию, которую они извлекли с других веб-сайтов.

Самый крупный известный общественности инцидент, связанный с кражей данных поисковой системы, произошел в 2011 году, когда Microsoft была уличена в краже неизвестных ключевых слов из Google для своего собственного, сравнительно нового сервиса Bing [7] , но даже этот инцидент не привел к судебному разбирательству.

Смотрите также

Ссылки

  1. ^ "Google по-прежнему остается самой популярной поисковой системой в мире, но доля уникальных пользователей немного снизилась". searchengineland.com . 11 февраля 2013 г.
  2. ^ «Знает ли Google, что я использую Tor Browser?». tor.stackexchange.com .
  3. ^ "Группы Google". google.com .
  4. ^ «Мой компьютер отправляет автоматические запросы – Справка reCAPTCHA». support.google.com . Получено 2017-04-02 .
  5. ^ "Апелляционный суд отменяет обвинительный приговор и приговор хакеру/троллю "weev" [Обновлено]". arstechnica.com . 11 апреля 2014 г.
  6. ^ «Может ли копирование контента, не нарушающего авторские права, стать нарушением авторских прав... из-за того, как работают копировщики?». www.techdirt.com . 10 июня 2009 г.
  7. ^ Сингель, Райан. «Google ловит Bing на копировании; Microsoft говорит: «Ну и что?»». Wired .