stringtranslate.com

Обычный ползать

Common Crawlнекоммерческая организация 501(c)(3) , которая сканирует Интернет и бесплатно предоставляет свои архивы и наборы данных общественности. [1] [2] Веб-архив Common Crawl состоит из петабайт данных, собранных с 2008 года. [3] Обычно он выполняет сканирование каждый месяц. [4]

Common Crawl был основан Джилом Элбазом . [5] Консультантами некоммерческой организации являются Питер Норвиг и Джой Ито . [6] Роботы организации соблюдают политики nofollow и robots.txt . Открытый исходный код для обработки набора данных Common Crawl находится в открытом доступе.

Набор данных Common Crawl включает в себя защищенную авторским правом работу и распространяется из США в соответствии с требованиями добросовестного использования . Исследователи в других странах использовали такие методы, как перетасовка предложений или ссылки на набор данных Common Crawl, чтобы обойти закон об авторском праве в других правовых юрисдикциях . [7]

Английский язык является основным языком для 46% документов в версии набора данных Common Crawl за март 2023 года. Следующими по распространенности основными языками являются немецкий, русский, японский, французский, испанский и китайский, каждый из которых содержит менее 6% документов. [8]

История

Amazon Web Services начал размещать архив Common Crawl через свою программу Public Data Sets в 2012 году. [9]

Организация начала публиковать файлы метаданных и текстовые выходные данные сканеров вместе с файлами .arc в июле 2012 года. [10] Ранее архивы Common Crawl включали только файлы .arc. [10]

В декабре 2012 года blekko пожертвовал поисковой системе Common Crawl метаданные, которые blekko собрал в ходе сканирования, проведенного с февраля по октябрь 2012 года. [11] Пожертвованные данные помогли Common Crawl «улучшить сканирование, избежав при этом спама, порнографии и влияния чрезмерного SEO ». [11]

В 2013 году Common Crawl начал использовать веб-сканер Nutch от Apache Software Foundation вместо пользовательского сканера. [12] Common Crawl перешел с использования файлов .arc на файлы .warc в своем сканировании в ноябре 2013 года. [13]

Отфильтрованная версия Common Crawl использовалась для обучения языковой модели GPT-3 компании OpenAI , анонсированной в 2020 году. [14]

Хронология данных Common Crawl

Следующие данные были собраны из официального блога Common Crawl [15] и API Common Crawl. [16]

Премия Норвига в области науки о веб-данных

В сотрудничестве с SURFsara , Common Crawl спонсирует премию Norvig Web Data Science Award, открытый конкурс для студентов и исследователей из стран Бенилюкса . [17] [18] Премия названа в честь Питера Норвига , который также возглавляет жюри премии. [17]

Колоссальный чистый ползающий корпус

Версия Common Crawl от Google называется Colossal Clean Crawled Corpus, или сокращенно C4. Она была создана для обучения серии языковых моделей T5 в 2019 году. [19] Существуют некоторые опасения по поводу контента, защищенного авторским правом, в C4. [20]

Ссылки

  1. Розанна Ся (5 февраля 2012 г.). «Технологический предприниматель Жиль Эльбаз добился успеха в Лос-Анджелесе» Los Angeles Times . Получено 31 июля 2014 г.
  2. ^ "Gil Elbaz and Common Crawl". NBC News . 4 апреля 2013 г. Получено 31 июля 2014 г.
  3. ^ "Итак, вы готовы начать". Common Crawl . Получено 9 июня 2023 г. .
  4. ^ Лиза Грин (8 января 2014 г.). «Данные сканирования за зиму 2013 г. теперь доступны» . Получено 2 июня 2018 г.
  5. ^ "Стартапы - Жиль Эльбаз и Нова Спивак из Common Crawl - TWiST #222". Эта неделя в стартапах. 10 января 2012 г.
  6. Том Саймонайт (23 января 2013 г.). «Бесплатная база данных всего Интернета может породить следующий Google». MIT Technology Review. Архивировано из оригинала 26 июня 2014 г. Получено 31 июля 2014 г.
  7. ^ Шефер, Роланд (май 2016 г.). «CommonCOW: Огромные веб-корпуса из данных CommonCrawl и метод их свободного распространения в соответствии с ограничительными законами ЕС об авторском праве». Труды Десятой международной конференции по языковым ресурсам и оценке (LREC'16) . Порторож, Словения: Европейская ассоциация языковых ресурсов (ELRA): 4501.
  8. ^ "Статистика ежемесячных архивов Common Crawl от commoncrawl". commoncrawl.github.io . Получено 2023-04-02 .
  9. ^ Дженнифер Зайно (13 марта 2012 г.). «Common Crawl to Add New Data in Amazon Web Services Bucket». Semantic Web. Архивировано из оригинала 1 июля 2014 г. Получено 31 июля 2014 г.
  10. ^ ab Jennifer Zaino (16 июля 2012 г.). «Обновление Common Crawl Corpus делает данные веб-сканирования более эффективными и доступными для изучения пользователями». Semantic Web. Архивировано из оригинала 12 августа 2014 г. Получено 31 июля 2014 г.
  11. ^ ab Jennifer Zaino (18 декабря 2012 г.). «Blekko Data Donation Is s Big Benefit to Common Crawl». Semantic Web. Архивировано из оригинала 12 августа 2014 г. Получено 31 июля 2014 г.
  12. ^ Джордан Мендельсон (20 февраля 2014 г.). «Common Crawl's Move to Nutch». Common Crawl . Получено 31 июля 2014 г.
  13. Jordan Mendelson (27 ноября 2013 г.). «Новые данные сканирования доступны!». Common Crawl . Получено 31 июля 2014 г. .
  14. ^ Браун, Том; Манн, Бенджамин; Райдер, Ник; Суббиа, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Шастри, Гириш; Аскелл, Аманда; Агарвал, Сандхини (01.06.2020). «Языковые модели — это малоопытные ученики». стр. 14. arXiv : 2005.14165 [cs.CL]. Большая часть наших данных получена из необработанного Common Crawl только с фильтрацией на основе качества.
  15. ^ «Блог – Common Crawl».
  16. ^ "Информация о коллекции - Common Crawl".
  17. ^ ab Lisa Green (15 ноября 2012 г.). "The Norvig Web Data Science Award". Common Crawl . Получено 31 июля 2014 г. .
  18. ^ "Norvig Web Data Science Award 2014". Голландский технический центр по наукам о жизни. Архивировано из оригинала 15 августа 2014 г. Получено 31 июля 2014 г.
  19. ^ Раффель, Колин; Шазир, Ноам; Робертс, Адам; Ли, Кэтрин; Наранг, Шаран; Матена, Майкл; Чжоу, Яньци; Ли, Вэй; Лю, Питер Дж. (2020). «Изучение пределов трансферного обучения с помощью унифицированного преобразователя текста в текст». Журнал исследований машинного обучения . 21 (140): 1–67. ISSN  1533-7928.
  20. ^ Херн, Алекс (2023-04-20). «Новые опасения по поводу источников учебных материалов для систем ИИ». The Guardian . ISSN  0261-3077 . Получено 2023-04-21 .

Внешние ссылки