stringtranslate.com

Проект:Кроули

Crawlee — это бесплатная библиотека с открытым исходным кодом для веб-сканирования и автоматизации браузера, разработанная Apify. Первоначальная версия TypeScript была впервые выпущена в 2022 году, а версия Python была добавлена ​​в 2024 году.

Архитектура Crawlee построена вокруг модульных краулеров, отвечающих за извлечение данных с веб-сайтов. [1] . Библиотека следует декларативному подходу программирования , где пользователи определяют логику сканирования с помощью структурированного набора правил. Crawlee использует очереди для управления запросами; для каждого запроса выполняется определенная функция для извлечения данных или выполнения дальнейшей обработки [2] .

Crawlee поддерживает как сеансы headless-браузера (через Playwright и другое программное обеспечение для автоматизации браузера), так и простой сбор данных на основе HTTP-запросов.

Он также предоставляет различные утилиты, связанные с веб-скрапингом, такие как анализатор карты сайта [3] или автоматический менеджер HTTP-прокси .

Известные упоминания об использовании Crawlee в проектах веб-сканирования включают GPT Crawler от Builder.io [4] и различные проекты генеративного ИИ, поддерживаемые AWS Labs [5] .

История

Первая стабильная версия TypeScript была выпущена в 2021 году под названием Apify SDK [6] . Эта версия предлагала как фреймворк с открытым исходным кодом, так и фирменную реализацию хранилища для использования на платформе Apify.

В 2022 году была выпущена версия v3.0.0 [7] , переименовавшая библиотеку в Crawlee. Это обновление сделало Crawlee независимым от платформы Apify, переместив большинство функций, специфичных для Apify, в отдельный пакет (также называемый Apify SDK).

В 2024 году вышла бета-версия Crawlee для Python [8]

Ссылки

  1. ^ Кукемоер, Джекки. «Парсинг веб-страниц с помощью Crawlee: пошаговое руководство». Яркие данные .
  2. ^ Нечитайло, Елизавета. «Учебное пособие по Crawlee: простое парсинг веб-страниц и автоматизация браузера». oxylabs.io .
  3. ^ "Release v3.7.0 · apify/crawlee". GitHub . Получено 22 сентября 2024 г. .
  4. ^ "BuilderIO/gpt-crawler: сканирование сайта для генерации файлов знаний для создания собственного пользовательского GPT из URL". GitHub . Получено 21 сентября 2024 г. .
  5. ^ "awslabs/generative-ai-cdk-constructs: AWS Generative AI CDK Constructs — это примеры реализаций AWS CDK для распространенных шаблонов генеративного ИИ". GitHub . Amazon Web Services - Labs. 20 сентября 2024 г. . Получено 21 сентября 2024 г. .
  6. ^ "Выпуск v1.0.0 · apify/crawlee". GitHub .
  7. ^ "Выпуск v3.0.0 · apify/crawlee". GitHub .
  8. ^ «Представляем Crawlee для Python: теперь вы можете использовать Python для создания надежных веб-сканеров | Crawlee · Создавайте надежные веб-сканеры. Быстро». crawlee.dev . 5 июля 2024 г.