Некоммерческая организация, занимающаяся веб-сканированием и архивированием
Common Crawl — некоммерческая организация 501(c)(3) , которая сканирует Интернет и бесплатно предоставляет свои архивы и наборы данных общественности. [1] [2] Веб-архив Common Crawl состоит из петабайт данных, собранных с 2008 года. [3] Обычно он выполняет сканирование каждый месяц. [4]
Common Crawl был основан Джилом Элбазом . [5] Консультантами некоммерческой организации являются Питер Норвиг и Джой Ито . [6] Роботы организации соблюдают политики nofollow и robots.txt . Открытый исходный код для обработки набора данных Common Crawl находится в открытом доступе.
Набор данных Common Crawl включает в себя защищенную авторским правом работу и распространяется из США в соответствии с требованиями добросовестного использования . Исследователи в других странах использовали такие методы, как перетасовка предложений или ссылки на набор данных Common Crawl, чтобы обойти закон об авторском праве в других правовых юрисдикциях . [7]
Английский язык является основным языком для 46% документов в версии набора данных Common Crawl за март 2023 года. Следующими по распространенности основными языками являются немецкий, русский, японский, французский, испанский и китайский, каждый из которых содержит менее 6% документов. [8]
История
Amazon Web Services начал размещать архив Common Crawl через свою программу Public Data Sets в 2012 году. [9]
Организация начала публиковать файлы метаданных и текстовые выходные данные сканеров вместе с файлами .arc в июле 2012 года. [10] Ранее архивы Common Crawl включали только файлы .arc. [10]
В декабре 2012 года blekko пожертвовал поисковой системе Common Crawl метаданные, которые blekko собрал в ходе сканирования, проведенного с февраля по октябрь 2012 года. [11] Пожертвованные данные помогли Common Crawl «улучшить сканирование, избежав при этом спама, порнографии и влияния чрезмерного SEO ». [11]
В 2013 году Common Crawl начал использовать веб-сканер Nutch от Apache Software Foundation вместо пользовательского сканера. [12] Common Crawl перешел с использования файлов .arc на файлы .warc в своем сканировании в ноябре 2013 года. [13]
Отфильтрованная версия Common Crawl использовалась для обучения языковой модели GPT-3 компании OpenAI , анонсированной в 2020 году. [14]
Хронология данных Common Crawl
Следующие данные были собраны из официального блога Common Crawl [15]
и API Common Crawl. [16]
Премия Норвига в области науки о веб-данных
В сотрудничестве с SURFsara , Common Crawl спонсирует премию Norvig Web Data Science Award, открытый конкурс для студентов и исследователей из стран Бенилюкса . [17] [18] Премия названа в честь Питера Норвига , который также возглавляет жюри премии. [17]
Колоссальный чистый ползающий корпус
Версия Common Crawl от Google называется Colossal Clean Crawled Corpus, или сокращенно C4. Она была создана для обучения серии языковых моделей T5 в 2019 году. [19] Существуют некоторые опасения по поводу контента, защищенного авторским правом, в C4. [20]
Ссылки
- ↑ Розанна Ся (5 февраля 2012 г.). «Технологический предприниматель Жиль Эльбаз добился успеха в Лос-Анджелесе» Los Angeles Times . Получено 31 июля 2014 г.
- ^ "Gil Elbaz and Common Crawl". NBC News . 4 апреля 2013 г. Получено 31 июля 2014 г.
- ^ "Итак, вы готовы начать". Common Crawl . Получено 9 июня 2023 г. .
- ^ Лиза Грин (8 января 2014 г.). «Данные сканирования за зиму 2013 г. теперь доступны» . Получено 2 июня 2018 г.
- ^ "Стартапы - Жиль Эльбаз и Нова Спивак из Common Crawl - TWiST #222". Эта неделя в стартапах. 10 января 2012 г.
- ↑ Том Саймонайт (23 января 2013 г.). «Бесплатная база данных всего Интернета может породить следующий Google». MIT Technology Review. Архивировано из оригинала 26 июня 2014 г. Получено 31 июля 2014 г.
- ^ Шефер, Роланд (май 2016 г.). «CommonCOW: Огромные веб-корпуса из данных CommonCrawl и метод их свободного распространения в соответствии с ограничительными законами ЕС об авторском праве». Труды Десятой международной конференции по языковым ресурсам и оценке (LREC'16) . Порторож, Словения: Европейская ассоциация языковых ресурсов (ELRA): 4501.
- ^ "Статистика ежемесячных архивов Common Crawl от commoncrawl". commoncrawl.github.io . Получено 2023-04-02 .
- ^ Дженнифер Зайно (13 марта 2012 г.). «Common Crawl to Add New Data in Amazon Web Services Bucket». Semantic Web. Архивировано из оригинала 1 июля 2014 г. Получено 31 июля 2014 г.
- ^ ab Jennifer Zaino (16 июля 2012 г.). «Обновление Common Crawl Corpus делает данные веб-сканирования более эффективными и доступными для изучения пользователями». Semantic Web. Архивировано из оригинала 12 августа 2014 г. Получено 31 июля 2014 г.
- ^ ab Jennifer Zaino (18 декабря 2012 г.). «Blekko Data Donation Is s Big Benefit to Common Crawl». Semantic Web. Архивировано из оригинала 12 августа 2014 г. Получено 31 июля 2014 г.
- ^ Джордан Мендельсон (20 февраля 2014 г.). «Common Crawl's Move to Nutch». Common Crawl . Получено 31 июля 2014 г.
- ↑ Jordan Mendelson (27 ноября 2013 г.). «Новые данные сканирования доступны!». Common Crawl . Получено 31 июля 2014 г. .
- ^ Браун, Том; Манн, Бенджамин; Райдер, Ник; Суббиа, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Шастри, Гириш; Аскелл, Аманда; Агарвал, Сандхини (01.06.2020). «Языковые модели — это малоопытные ученики». стр. 14. arXiv : 2005.14165 [cs.CL].
Большая часть наших данных получена из необработанного Common Crawl только с фильтрацией на основе качества.
- ^ «Блог – Common Crawl».
- ^ "Информация о коллекции - Common Crawl".
- ^ ab Lisa Green (15 ноября 2012 г.). "The Norvig Web Data Science Award". Common Crawl . Получено 31 июля 2014 г. .
- ^ "Norvig Web Data Science Award 2014". Голландский технический центр по наукам о жизни. Архивировано из оригинала 15 августа 2014 г. Получено 31 июля 2014 г.
- ^ Раффель, Колин; Шазир, Ноам; Робертс, Адам; Ли, Кэтрин; Наранг, Шаран; Матена, Майкл; Чжоу, Яньци; Ли, Вэй; Лю, Питер Дж. (2020). «Изучение пределов трансферного обучения с помощью унифицированного преобразователя текста в текст». Журнал исследований машинного обучения . 21 (140): 1–67. ISSN 1533-7928.
- ^ Херн, Алекс (2023-04-20). «Новые опасения по поводу источников учебных материалов для систем ИИ». The Guardian . ISSN 0261-3077 . Получено 2023-04-21 .
Внешние ссылки
- Обыкновенный ползун в Калифорнии, США
- Репозиторий Common Crawl GitHub с поисковым роботом, библиотеками и примером кода
- Группа обсуждения Common Crawl
- Блог Common Crawl