stringtranslate.com

Веб-скрапинг

Веб-скрейпинг , веб-харвестинг или извлечение веб-данных — это сбор данных , используемый для извлечения данных с веб-сайтов . [1] Программное обеспечение для веб-скрейпинга может напрямую получать доступ к Всемирной паутине с помощью протокола передачи гипертекста или веб-браузера. Хотя веб-скрейпинг может выполняться вручную пользователем программного обеспечения, этот термин обычно относится к автоматизированным процессам, реализуемым с использованием бота или веб-краулера . Это форма копирования, при которой определенные данные собираются и копируются из сети, как правило, в центральную локальную базу данных или электронную таблицу , для последующего извлечения или анализа .

Скрапинг веб-страницы включает ее извлечение и последующее извлечение данных из нее. Извлечение — это загрузка страницы (которую делает браузер, когда пользователь просматривает страницу). Таким образом, веб-сканирование является основным компонентом веб-скрейпинга для извлечения страниц для последующей обработки. После извлечения может быть выполнено извлечение. Содержимое страницы может быть проанализировано , найдено и переформатировано, а ее данные скопированы в электронную таблицу или загружены в базу данных. Веб-скрейперы обычно извлекают что-то из страницы, чтобы использовать это для другой цели где-то еще. Примером может служить поиск и копирование имен и телефонных номеров, компаний и их URL-адресов или адресов электронной почты в список (скрейпинг контактов).

Помимо сбора контактов , сбор веб-данных используется в качестве компонента приложений, используемых для веб-индексации , веб-майнинга и добычи данных , онлайн-мониторинга изменения цен и сравнения цен , сбора обзоров продуктов (для наблюдения за конкурентами), сбора списков недвижимости, мониторинга данных о погоде, обнаружения изменений на веб-сайте , исследований, отслеживания присутствия и репутации в Интернете, веб-мэшапов и интеграции веб-данных .

Веб-страницы создаются с использованием текстовых языков разметки ( HTML и XHTML ) и часто содержат множество полезных данных в текстовой форме. Однако большинство веб-страниц предназначены для конечных пользователей , а не для простоты автоматизированного использования. В результате были разработаны специализированные инструменты и программное обеспечение для облегчения парсинга веб-страниц. Приложения для парсинга веб-страниц включают маркетинговые исследования , сравнение цен, мониторинг контента и многое другое. Компании полагаются на службы парсинга веб-страниц для эффективного сбора и использования этих данных.

Новые формы веб-скрейпинга включают мониторинг каналов данных с веб-серверов. Например, JSON обычно используется в качестве транспортного механизма между клиентом и веб-сервером.

Существуют методы, которые некоторые веб-сайты используют для предотвращения веб-скрапинга, например, обнаружение и запрет ботам сканировать (просматривать) свои страницы. В ответ на это системы веб-скрапинга используют методы, включающие парсинг DOM , компьютерное зрение и обработку естественного языка , чтобы имитировать просмотр человеком, чтобы обеспечить сбор содержимого веб-страниц для автономного парсинга.

История

После рождения Всемирной паутины в 1989 году в июне 1993 года был создан первый веб-робот [2] World Wide Web Wanderer , который предназначался только для измерения размера сети.

В декабре 1993 года была запущена первая поисковая система на основе краулера JumpStation . Поскольку в сети было мало доступных веб-сайтов, поисковые системы в то время полагались на администраторов-людей для сбора и форматирования ссылок. Для сравнения, JumpStation была первой поисковой системой в Интернете, которая полагалась на веб-робота.

В 2000 году были созданы первый веб-API и API-краулер . API ( интерфейс прикладного программирования) — это интерфейс, который значительно упрощает разработку программы, предоставляя строительные блоки. В 2000 году Salesforce и eBay запустили собственный API, с помощью которого программисты могли получать доступ и загружать некоторые общедоступные данные. С тех пор многие веб-сайты предлагают веб-API для доступа к их общедоступной базе данных.

Методы

Веб-скрейпинг — это процесс автоматического извлечения данных или сбора информации из Всемирной паутины. Это область с активными разработками, разделяющая общую цель с видением семантической паутины , амбициозной инициативой, которая все еще требует прорывов в обработке текста, семантическом понимании, искусственном интеллекте и взаимодействии человека с компьютером .

Человеческое копирование и вставка

Простейшая форма веб-скрейпинга — это ручное копирование и вставка данных с веб-страницы в текстовый файл или электронную таблицу. Иногда даже лучшая технология веб-скрейпинга не может заменить ручное изучение и копирование-вставку человеком, а иногда это может быть единственным работоспособным решением, когда веб-сайты для скрапинга явно устанавливают барьеры для предотвращения машинной автоматизации.

Сопоставление текстового образца

Простой, но эффективный подход к извлечению информации с веб-страниц может быть основан на команде UNIX grep или средствах сопоставления регулярных выражений языков программирования (например, Perl или Python ).

HTTP-программирование

Статические и динамические веб-страницы можно извлекать, отправляя HTTP-запросы на удаленный веб-сервер с использованием программирования сокетов .

HTML-анализ

Многие веб-сайты имеют большие коллекции страниц, динамически генерируемых из базового структурированного источника, такого как база данных. Данные одной категории обычно кодируются в похожие страницы с помощью общего скрипта или шаблона. В интеллектуальном анализе данных программа, которая обнаруживает такие шаблоны в определенном источнике информации, извлекает его содержимое и переводит его в реляционную форму, называется оберткой . Алгоритмы генерации обертки предполагают, что входные страницы системы индукции обертки соответствуют общему шаблону и что их можно легко идентифицировать с точки зрения общей схемы URL. [3] Более того, некоторые полуструктурированные языки запросов к данным, такие как XQuery и HTQL, могут использоваться для анализа HTML-страниц и для извлечения и преобразования содержимого страниц.

DOM-анализ

Встраивая полноценный веб-браузер, такой как Internet Explorer или элемент управления браузером Mozilla , программы могут извлекать динамический контент, сгенерированный клиентскими скриптами. Эти элементы управления браузером также анализируют веб-страницы в дерево DOM, на основе которого программы могут извлекать части страниц. Для анализа полученного дерева DOM можно использовать такие языки, как Xpath .

Вертикальная агрегация

Есть несколько компаний, которые разработали платформы сбора данных для определенных вертикалей. Эти платформы создают и отслеживают множество «ботов» для определенных вертикалей без «человека в петле» (без прямого человеческого участия) и без работы, связанной с определенным целевым сайтом. Подготовка включает в себя создание базы знаний для всей вертикали, а затем платформа автоматически создает ботов. Надежность платформы измеряется качеством информации, которую она извлекает (обычно количество полей) и ее масштабируемостью (насколько быстро она может масштабироваться до сотен или тысяч сайтов). Эта масштабируемость в основном используется для нацеливания на « длинный хвост» сайтов, сбор контента с которых обычные агрегаторы считают сложным или слишком трудоемким.

Распознавание семантической аннотации

Страницы, которые подвергаются скрапингу, могут включать метаданные или семантические разметки и аннотации, которые могут использоваться для поиска определенных фрагментов данных. Если аннотации встроены в страницы, как это делает Microformat , этот метод можно рассматривать как особый случай анализа DOM. В другом случае аннотации, организованные в семантический слой, [4] хранятся и управляются отдельно от веб-страниц, поэтому скраперы могут извлекать схему данных и инструкции из этого слоя перед скрапингом страниц.

Анализ веб-страниц с помощью компьютерного зрения

Существуют попытки использовать машинное обучение и компьютерное зрение , которые пытаются идентифицировать и извлекать информацию из веб-страниц, интерпретируя страницы визуально так, как это сделал бы человек. [5]

Понимание документов с помощью искусственного интеллекта

Использует передовой ИИ для контекстной интерпретации и обработки содержимого веб-страницы, извлечения релевантной информации, преобразования данных и настройки выходных данных на основе структуры и смысла содержимого. Этот метод обеспечивает более интеллектуальное и гибкое извлечение данных, приспосабливая сложный и динамический веб-контент.

Программное обеспечение

Мир веб-скрейпинга предлагает множество программных инструментов, разработанных для упрощения и настройки процесса извлечения данных с веб-сайтов. Эти инструменты различаются по подходу и возможностям, что делает веб-скрейпинг доступным как для новичков, так и для продвинутых программистов.

Некоторые передовые программы для веб-скрейпинга могут автоматически распознавать структуру данных веб-страницы, устраняя необходимость ручного кодирования. Другие предоставляют интерфейс записи, который позволяет пользователям записывать свои взаимодействия с веб-сайтом, таким образом создавая скрипт для скрапинга без написания единой строки кода. Многие инструменты также включают функции скриптов для более настраиваемого извлечения и преобразования контента, а также интерфейсы баз данных для локального хранения скрапинга данных.

Инструменты для веб-скрейпинга универсальны по своей функциональности. Некоторые из них могут напрямую извлекать данные из API, в то время как другие способны обрабатывать веб-сайты с динамической загрузкой контента на основе AJAX или требованиями входа в систему. Например, программное обеспечение «point-and-click» позволяет пользователям без продвинутых навыков кодирования извлекать выгоду из веб-скрейпинга. Это демократизирует доступ к данным, облегчая более широкой аудитории использование возможностей веб-скрейпинга.

Платформы для веб-скрапинга

Некоторые платформы предоставляют не только инструменты для веб-скрапинга, но и возможности для разработчиков делиться и потенциально монетизировать свои решения для скрапинга. Используя эти инструменты и платформы, пользователи могут раскрыть весь потенциал веб-скрапинга, превращая необработанные данные в ценные идеи и возможности.

[6]

Правовые вопросы

Законность веб-скрейпинга различается по всему миру. В целом, веб-скрейпинг может противоречить условиям обслуживания некоторых веб-сайтов, но применимость этих условий неясна. [7]

Соединенные Штаты

В Соединенных Штатах владельцы веб-сайтов могут использовать три основных юридических иска для предотвращения нежелательного веб-скрейпинга: (1) нарушение авторских прав (компиляция), (2) нарушение Закона о компьютерном мошенничестве и злоупотреблении («CFAA») и (3) посягательство на движимое имущество . [8] Однако эффективность этих исков зависит от соответствия различным критериям, и прецедентное право все еще развивается. Например, в отношении авторских прав, хотя прямое копирование оригинального выражения во многих случаях будет незаконным, в Соединенных Штатах суды постановили в деле Feist Publications против Rural Telephone Service, что копирование фактов допустимо.

Суды США признали, что пользователи «скрейперов» или «роботов» могут быть привлечены к ответственности за совершение посягательства на движимое имущество [9] [10] , которое подразумевает, что сама компьютерная система считается личной собственностью, на которую пользователь скрейпера совершает посягательство. Наиболее известное из этих дел, eBay против Bidder's Edge , привело к судебному запрету, предписывающему Bidder's Edge прекратить доступ, сбор и индексацию аукционов с веб-сайта eBay. Это дело касалось автоматического размещения ставок, известного как снайпинг аукционов . Однако для того, чтобы добиться успеха в иске о посягательстве на движимое имущество , истец должен доказать, что ответчик намеренно и без разрешения вмешался в право собственности истца на компьютерную систему и что несанкционированное использование ответчиком нанесло ущерб истцу. Не все случаи веб-пауков, рассмотренные в судах, были признаны посягательством на движимое имущество. [11]

Одним из первых крупных тестов по извлечению данных с экрана стали American Airlines (AA) и фирма FareChase. [12] AA успешно добилась судебного запрета от Техасского суда первой инстанции, запрещающего FareChase продавать программное обеспечение, позволяющее пользователям сравнивать тарифы онлайн, если программное обеспечение также ищет на сайте AA. Авиакомпания утверждала, что программное обеспечение FareChase для веб-поиска проникло на серверы AA, когда оно собирало общедоступные данные. FareChase подала апелляцию в марте 2003 года. К июню FareChase и AA согласились на мировое соглашение, и апелляция была отклонена. [13]

Southwest Airlines также оспорила практику копирования экрана и привлекла FareChase и другую фирму, Outtask, к судебному иску. Southwest Airlines заявила, что копирование экрана является незаконным, поскольку это пример «компьютерного мошенничества и злоупотребления» и привело к «ущербу и потере» и «несанкционированному доступу» к сайту Southwest. Это также представляет собой «вмешательство в деловые отношения», «нарушение права владения» и «вредоносный доступ с помощью компьютера». Они также утверждали, что копирование экрана представляет собой то, что юридически известно как «незаконное присвоение и несправедливое обогащение», а также является нарушением пользовательского соглашения веб-сайта. Outtask отвергла все эти претензии, заявив, что преобладающим законом в данном случае должен быть закон США об авторском праве и что в соответствии с авторским правом копируемые фрагменты информации не будут подлежать защите авторских прав. Хотя эти дела так и не были разрешены в Верховном суде США , FareChase в конечном итоге была закрыта материнской компанией Yahoo! , а Outtask был куплен компанией по предоставлению туристических услуг Concur. [14] В 2012 году стартап под названием 3Taps удалил объявления о продаже жилья с Craigslist. Craigslist направил 3Taps письмо о прекращении противоправных действий и заблокировал их IP-адреса, а затем подал в суд в деле Craigslist против 3Taps . Суд постановил, что письма о прекращении противоправных действий и блокировки IP-адресов было достаточно для Craigslist, чтобы обоснованно заявить, что 3Taps нарушила Закон о компьютерном мошенничестве и злоупотреблениях (CFAA).

Хотя это ранние решения по скрапингу, и теории ответственности не являются единообразными, трудно игнорировать закономерность, что суды готовы защищать проприетарный контент на коммерческих сайтах от использования, которое нежелательно для владельцев таких сайтов. Однако степень защиты такого контента не урегулирована и будет зависеть от типа доступа, осуществляемого скрапером, объема информации, к которой получен доступ и которая скопирована, степени, в которой доступ негативно влияет на систему владельца сайта, а также типов и способов запретов на такое поведение. [15]

В то время как закон в этой области становится более устоявшимся, субъекты, рассматривающие возможность использования программ для парсинга для доступа к публичному веб-сайту, должны также рассмотреть, разрешено ли такое действие, проверив условия использования и другие условия или уведомления, размещенные на сайте или предоставленные через него. В постановлении 2010 года по делу Cvent, Inc. против Eventbrite, Inc. в окружном суде Соединенных Штатов по восточному округу Вирджинии суд постановил, что условия использования должны быть доведены до сведения пользователей для обеспечения соблюдения договора или лицензии на обертывание просмотра . [16] В деле 2014 года, поданном в окружной суд Соединенных Штатов по восточному округу Пенсильвании , [17] сайт электронной коммерции QVC возражал против «парсинга» сайта QVC, похожего на Pinterest, агрегатором покупок Resultly для получения данных о ценах в реальном времени. QVC утверждает, что Resultly «чрезмерно сканировал» розничный сайт QVC (якобы отправляя 200-300 поисковых запросов на сайт QVC в минуту, иногда до 36 000 запросов в минуту), что привело к сбою сайта QVC на два дня, что привело к потере продаж для QVC. [18] В жалобе QVC утверждается, что ответчик замаскировал свой веб-сканер, чтобы скрыть свой исходный IP-адрес, и таким образом помешал QVC быстро устранить проблему. Это особенно интересное дело о скрапинге, поскольку QVC требует возмещения ущерба за недоступность своего сайта, которая, по утверждению QVC, была вызвана Resultly.

На веб-сайте истца в период этого судебного разбирательства ссылка на условия использования отображалась среди всех ссылок сайта, в нижней части страницы, как и на большинстве сайтов в Интернете. Это решение противоречит ирландскому решению, описанному ниже. Суд также отклонил аргумент истца о том, что ограничения browse-wrap были применимы в связи с принятием Вирджинией Единообразного закона о компьютерных информационных транзакциях (UCITA) — единообразного закона, который, по мнению многих, благоприятствовал распространенным практикам заключения контрактов browse-wrap. [19]

В деле Facebook, Inc. против Power Ventures, Inc. окружной суд в 2012 году постановил, что Power Ventures не может собирать данные со страниц Facebook от имени пользователя Facebook. Дело находится на апелляции, и Electronic Frontier Foundation в 2015 году подала апелляцию с просьбой об отмене решения. [20] [21] В деле Associated Press против Meltwater US Holdings, Inc. суд в США признал Meltwater ответственной за сбор и повторную публикацию новостной информации из Associated Press, но суд в Соединенном Королевстве вынес решение в пользу Meltwater.

Девятый округ постановил в 2019 году, что веб-скрапинг не нарушает CFAA в деле hiQ Labs против LinkedIn . Дело было обжаловано в Верховном суде США , который вернул дело в Девятый округ для повторного рассмотрения в свете решения Верховного суда 2021 года по делу Van Buren против Соединенных Штатов , которое сузило применимость CFAA. [22] В этом обзоре Девятый округ подтвердил свое предыдущее решение. [23]

Архив Интернета собирает и распространяет значительное количество общедоступных веб-страниц, не считая это нарушением законов об авторских правах. [ необходима ссылка ]

Евросоюз

В феврале 2006 года Датский морской и торговый суд (Копенгаген) постановил, что систематическое сканирование, индексирование и создание глубоких ссылок порталом ofir.dk сайта недвижимости Home.dk не противоречит датскому законодательству или директиве Европейского Союза о базах данных. [24]

В деле, рассмотренном в феврале 2010 года в связи с вопросами юрисдикции, Высокий суд Ирландии вынес вердикт, иллюстрирующий незрелое состояние развития прецедентного права. В деле Ryanair Ltd против Billigfluege.de GmbH Высокий суд Ирландии постановил, что соглашение Ryanair « click-wrap » является юридически обязательным. В отличие от выводов Окружного суда США Восточного округа Вирджинии и Датского морского и коммерческого суда, судья Майкл Ханна постановил, что гиперссылка на условия и положения Ryanair была явно видна, и что возложение на пользователя бремени согласия с условиями и положениями для получения доступа к онлайн-услугам является достаточным для установления договорных отношений. [25] Решение находится на рассмотрении в Верховном суде Ирландии. [26]

30 апреля 2020 года Французский орган по защите данных (CNIL) опубликовал новые руководящие принципы по веб-скрапингу. [27] В руководящих принципах CNIL четко указано, что общедоступные данные по-прежнему являются персональными данными и не могут быть использованы повторно без ведома лица, которому принадлежат эти данные. [28]

Австралия

В Австралии Закон о спаме 2003 года запрещает некоторые формы веб-сбора, хотя это касается только адресов электронной почты. [29] [30]

Индия

Оставив несколько дел, связанных с нарушением прав интеллектуальной собственности, индийские суды не вынесли прямого решения о законности веб-скрейпинга. Однако, поскольку все распространенные формы электронных контрактов подлежат исполнению в Индии, нарушение условий использования, запрещающих скрейпинг данных, будет нарушением договорного права. Это также будет нарушением Закона об информационных технологиях 2000 года , который карает несанкционированный доступ к компьютерному ресурсу или извлечение данных из компьютерного ресурса.

Методы предотвращения веб-скрейпинга

Администратор веб-сайта может использовать различные меры, чтобы остановить или замедлить бота. Некоторые методы включают:

Смотрите также

Ссылки

  1. ^ Тапело, Цаоне Сваабоу; Намоше, Молалеца; Мацебе, Одуэтсе; Мотшегва, Чиамо; Бопапе, Мэри-Джейн Моронгва (28 июля 2021 г.). «SASSCAL WebSAPI: интерфейс прикладного программирования веб-скрапинга для поддержки доступа к данным о погоде SASSCAL». Журнал науки о данных . 20:24 . doi : 10.5334/dsj-2021-024 . ISSN  1683-1470. S2CID  237719804.
  2. ^ "Search Engine History.com". История поисковой системы . Получено 26 ноября 2019 г.
  3. ^ Song, Ruihua; Microsoft Research (14 сентября 2007 г.). "Совместная оптимизация генерации обертки и обнаружения шаблона" (PDF) . Труды 13-й международной конференции ACM SIGKDD по обнаружению знаний и добыче данных . стр. 894. doi :10.1145/1281192.1281287. ISBN 9781595936097. S2CID  833565. Архивировано из оригинала (PDF) 11 октября 2016 г.
  4. ^ Веб-скрапинг на основе семантических аннотаций
  5. ^ Рауш, Уэйд (25.07.2012). «Diffbot использует компьютерное зрение для переосмысления семантической паутины». www.xconomy.com . Получено 15.03.2013 .
  6. ^ Цехановски, Леон; Джемельняк, Дариуш; Глор, Питер А. (2020). «УЧЕБНОЕ ПОСОБИЕ: Исследования ИИ без кодирования: Искусство борьбы без борьбы: Наука о данных для качественных исследователей». Журнал бизнес-исследований . 117. Elsevier BV: 322–330. doi : 10.1016/j.jbusres.2020.06.012 . ISSN  0148-2963.
  7. ^ «Часто задаваемые вопросы о ссылках – Являются ли условия использования веб-сайта обязательными договорами?». www.chillingeffects.org. 2007-08-20. Архивировано из оригинала 2002-03-08 . Получено 2007-08-20 .
  8. ^ Кеннет, Хирши, Джеффри (01.01.2014). «Симбиотические отношения: прагматичное принятие сбора данных». Berkeley Technology Law Journal . 29 (4). doi : 10.15779/Z38B39B. ISSN  1086-3818.{{cite journal}}: CS1 maint: multiple names: authors list (link)
  9. ^ "Интернет-право, гл. 06: Посягательство на движимое имущество". www.tomwbell.com. 2007-08-20 . Получено 2007-08-20 .
  10. ^ «Каковы иски о «посягательстве на движимое имущество», выдвинутые некоторыми компаниями или владельцами веб-сайтов?». www.chillingeffects.org. 2007-08-20. Архивировано из оригинала 2002-03-08 . Получено 2007-08-20 .
  11. ^ "Ticketmaster Corp. против Tickets.com, Inc". 2007-08-20 . Получено 2007-08-20 .
  12. ^ "American Airlines v. FareChase" (PDF) . 2007-08-20. Архивировано из оригинала (PDF) 2011-07-23 . Получено 2007-08-20 .
  13. ^ "American Airlines, FareChase Settle Suit". Бесплатная библиотека. 2003-06-13. Архивировано из оригинала 2016-03-05 . Получено 2012-02-26 .
  14. ^ Imperva (2011). Обнаружение и блокировка атак с использованием скрейпинга сайтов. Белая книга Imperva.
  15. ^ Адлер, Кеннет А. (29.07.2003). «Споры вокруг «скрейперов»: программное обеспечение помогает пользователям получать доступ к веб-сайтам, но деятельность конкурентов подвергается пристальному вниманию». Архивировано из оригинала 11.02.2011 . Получено 27.10.2010 .
  16. ^ "QVC Inc. v. Resultly LLC, № 14-06714 (ED Pa. подано 24 ноября 2014 г.)" (PDF) . 2014-11-24. Архивировано из оригинала (PDF) 2013-09-21 . Получено 2015-11-05 .
  17. ^ "QVC Inc. v. Resultly LLC, № 14-06714 (ED Pa. подано 24 ноября 2014 г.)". Окружной суд США по Восточному округу Пенсильвании . Получено 5 ноября 2015 г.
  18. ^ Нойбургер, Джеффри Д. (5 декабря 2014 г.). «QVC подает в суд на приложение для покупок за веб-скрапинг, который якобы вызвал сбой на сайте». The National Law Review . Proskauer Rose LLP . Получено 5 ноября 2015 г.
  19. ^ «Поднял ли Икбал/Твомбли планку для заявлений Browsewrap?» (PDF) . 2010-09-17. Архивировано из оригинала (PDF) 2011-07-23 . Получено 2010-10-27 .
  20. ^ "Может ли парсинг контента, не нарушающего авторские права, стать нарушением авторских прав... из-за того, как работают парсеры? | Techdirt". Techdirt . 2009-06-10 . Получено 2016-05-24 .
  21. ^ "Facebook против Power Ventures". Electronic Frontier Foundation . Июль 2011. Получено 24.05.2016 .
  22. ^ Чанг, Эндрю (14 июня 2021 г.). «Верховный суд США возобновляет попытку LinkedIn защитить персональные данные». Reuters . Получено 14 июня 2021 г.
  23. ^ Уиттакер, Зак (18 апреля 2022 г.). «Веб-скрапинг законен, апелляционный суд США подтвердил». TechCrunch .
  24. ^ "UDSKRIFT AF SØ- & HANDELSRETTENS DOMBOG" (PDF) (на датском языке). bvhd.dk. 24 февраля 2006 г. Архивировано из оригинала (PDF) 12 октября 2007 г. Проверено 30 мая 2007 г.
  25. ^ "Решения Верховного суда Ирландии >> Ryanair Ltd -v- Billigfluege.de GMBH 2010 IEHC 47 (26 февраля 2010 г.)". Британский и ирландский институт правовой информации. 2010-02-26 . Получено 2012-04-19 .
  26. ^ Мэтьюз, Эйне (июнь 2010 г.). «Интеллектуальная собственность: Условия использования веб-сайта». Выпуск 26: июнь 2010 г. LK Shields Solicitors Update. стр. 03. Архивировано из оригинала 24-06-2012 . Получено 19-04-2012 .
  27. ^ «Повторное использование общедоступных средств, доступных на линии к концу рекламного рынка | CNIL» . www.cnil.fr (на французском языке) . Проверено 05 июля 2020 г.
  28. ^ FindDataLab.com (2020-06-09). «Можно ли продолжать выполнять веб-скрапинг с новыми рекомендациями CNIL?». Medium . Получено 2020-07-05 .
  29. ^ Национальное управление информационной экономики (февраль 2004 г.). «Закон о спаме 2003 г.: обзор для бизнеса». Австралийское управление по коммуникациям. стр. 6. Архивировано из оригинала 2019-12-03 . Получено 2017-12-07 .
  30. ^ Национальное управление информационной экономики (февраль 2004 г.). «Закон о спаме 2003 г.: практическое руководство для бизнеса» (PDF) . Австралийское управление связи. стр. 20. Получено 07.12.2017 .
  31. ^ "Веб-скрапинг для начинающих: руководство 2024". Proxyway . 2023-08-31 . Получено 2024-03-15 .
  32. ^ Mayank Dhiman Breaking Fraud & Bot Detection Solutions OWASP AppSec Cali' 2018 Получено 10 февраля 2018 г.