Обычный ползать

Common Crawl — некоммерческая организация 501(c)(3) , которая сканирует Интернет и бесплатно предоставляет свои архивы и наборы данных общественности. ^[1]^[2]Веб-архив Common Crawl состоит из петабайт данных, собранных с 2008 года. ^[3] Обычно он выполняет сканирование каждый месяц. ^[4]

Common Crawl был основан Джилом Элбазом . ^[5] Консультантами некоммерческой организации являются Питер Норвиг и Джой Ито . ^[6] Роботы организации соблюдают политики nofollow и robots.txt . Открытый исходный код для обработки набора данных Common Crawl находится в открытом доступе.

Набор данных Common Crawl включает в себя защищенную авторским правом работу и распространяется из США в соответствии с требованиями добросовестного использования . Исследователи в других странах использовали такие методы, как перетасовка предложений или ссылки на набор данных Common Crawl, чтобы обойти закон об авторском праве в других правовых юрисдикциях . ^[7]

Английский язык является основным языком для 46% документов в версии набора данных Common Crawl за март 2023 года. Следующими по распространенности основными языками являются немецкий, русский, японский, французский, испанский и китайский, каждый из которых содержит менее 6% документов. ^[8]

История

Amazon Web Services начал размещать архив Common Crawl через свою программу Public Data Sets в 2012 году. ^[9]

Организация начала публиковать файлы метаданных и текстовые выходные данные сканеров вместе с файлами .arc в июле 2012 года. ^[10] Ранее архивы Common Crawl включали только файлы .arc. ^[10]

В декабре 2012 года blekko пожертвовал поисковой системе Common Crawl метаданные, которые blekko собрал в ходе сканирования, проведенного с февраля по октябрь 2012 года. ^[11] Пожертвованные данные помогли Common Crawl «улучшить сканирование, избежав при этом спама, порнографии и влияния чрезмерного SEO ». ^[11]

В 2013 году Common Crawl начал использовать веб-сканер Nutch от Apache Software Foundation вместо пользовательского сканера. ^[12] Common Crawl перешел с использования файлов .arc на файлы .warc в своем сканировании в ноябре 2013 года. ^[13]

Отфильтрованная версия Common Crawl использовалась для обучения языковой модели GPT-3 компании OpenAI , анонсированной в 2020 году. ^[14]

Хронология данных Common Crawl

Следующие данные были собраны из официального блога Common Crawl ^[15] и API Common Crawl. ^[16]

Премия Норвига в области науки о веб-данных

В сотрудничестве с SURFsara , Common Crawl спонсирует премию Norvig Web Data Science Award, открытый конкурс для студентов и исследователей из стран Бенилюкса . ^[17]^[18] Премия названа в честь Питера Норвига , который также возглавляет жюри премии. ^[17]

Колоссальный чистый ползающий корпус

Версия Common Crawl от Google называется Colossal Clean Crawled Corpus, или сокращенно C4. Она была создана для обучения серии языковых моделей T5 в 2019 году. ^[19] Существуют некоторые опасения по поводу контента, защищенного авторским правом, в C4. ^[20]

Ссылки

↑ Розанна Ся (5 февраля 2012 г.). «Технологический предприниматель Жиль Эльбаз добился успеха в Лос-Анджелесе» Los Angeles Times . Получено 31 июля 2014 г.
^ "Gil Elbaz and Common Crawl". NBC News . 4 апреля 2013 г. Получено 31 июля 2014 г.
^ "Итак, вы готовы начать". Common Crawl . Получено 9 июня 2023 г. .
^ Лиза Грин (8 января 2014 г.). «Данные сканирования за зиму 2013 г. теперь доступны» . Получено 2 июня 2018 г.
^ "Стартапы - Жиль Эльбаз и Нова Спивак из Common Crawl - TWiST #222". Эта неделя в стартапах. 10 января 2012 г.
↑ Том Саймонайт (23 января 2013 г.). «Бесплатная база данных всего Интернета может породить следующий Google». MIT Technology Review. Архивировано из оригинала 26 июня 2014 г. Получено 31 июля 2014 г.
^ Шефер, Роланд (май 2016 г.). «CommonCOW: Огромные веб-корпуса из данных CommonCrawl и метод их свободного распространения в соответствии с ограничительными законами ЕС об авторском праве». Труды Десятой международной конференции по языковым ресурсам и оценке (LREC'16) . Порторож, Словения: Европейская ассоциация языковых ресурсов (ELRA): 4501.
^ "Статистика ежемесячных архивов Common Crawl от commoncrawl". commoncrawl.github.io . Получено 2023-04-02 .
^ Дженнифер Зайно (13 марта 2012 г.). «Common Crawl to Add New Data in Amazon Web Services Bucket». Semantic Web. Архивировано из оригинала 1 июля 2014 г. Получено 31 июля 2014 г.
^ ab Jennifer Zaino (16 июля 2012 г.). «Обновление Common Crawl Corpus делает данные веб-сканирования более эффективными и доступными для изучения пользователями». Semantic Web. Архивировано из оригинала 12 августа 2014 г. Получено 31 июля 2014 г.
^ ab Jennifer Zaino (18 декабря 2012 г.). «Blekko Data Donation Is s Big Benefit to Common Crawl». Semantic Web. Архивировано из оригинала 12 августа 2014 г. Получено 31 июля 2014 г.
^ Джордан Мендельсон (20 февраля 2014 г.). «Common Crawl's Move to Nutch». Common Crawl . Получено 31 июля 2014 г.
↑ Jordan Mendelson (27 ноября 2013 г.). «Новые данные сканирования доступны!». Common Crawl . Получено 31 июля 2014 г. .
^ Браун, Том; Манн, Бенджамин; Райдер, Ник; Суббиа, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Шастри, Гириш; Аскелл, Аманда; Агарвал, Сандхини (01.06.2020). «Языковые модели — это малоопытные ученики». стр. 14. arXiv : 2005.14165 [cs.CL]. Большая часть наших данных получена из необработанного Common Crawl только с фильтрацией на основе качества.
^ «Блог – Common Crawl».
^ "Информация о коллекции - Common Crawl".
^ ab Lisa Green (15 ноября 2012 г.). "The Norvig Web Data Science Award". Common Crawl . Получено 31 июля 2014 г. .
^ "Norvig Web Data Science Award 2014". Голландский технический центр по наукам о жизни. Архивировано из оригинала 15 августа 2014 г. Получено 31 июля 2014 г.
^ Раффель, Колин; Шазир, Ноам; Робертс, Адам; Ли, Кэтрин; Наранг, Шаран; Матена, Майкл; Чжоу, Яньци; Ли, Вэй; Лю, Питер Дж. (2020). «Изучение пределов трансферного обучения с помощью унифицированного преобразователя текста в текст». Журнал исследований машинного обучения . 21 (140): 1–67. ISSN 1533-7928.
^ Херн, Алекс (2023-04-20). «Новые опасения по поводу источников учебных материалов для систем ИИ». The Guardian . ISSN 0261-3077 . Получено 2023-04-21 .

Внешние ссылки

Обыкновенный ползун в Калифорнии, США
Репозиторий Common Crawl GitHub с поисковым роботом, библиотеками и примером кода
Группа обсуждения Common Crawl
Блог Common Crawl