ЛАИОН

LAION (аббревиатура от Large-scale Artificial Intelligence Open Network ) — немецкая некоммерческая организация, которая создает модели и наборы данных искусственного интеллекта с открытым исходным кодом . ^[1] Он наиболее известен тем, что выпустил ряд больших наборов данных изображений и подписей, извлеченных из Интернета, которые использовались для обучения ряда громких моделей преобразования текста в изображение , включая Stable Diffusion и Imagen . ^[2]^[3]

В феврале 2023 года LAION была упомянута в иске Getty Images против Stable Diffusion как беспартийная организация. ^[4] В апреле 2023 года на LAION подал в суд прямой немецкий фотограф, который хотел удалить свои изображения из обучающей выборки. ^[5]

15 апреля 2023 года LAION и участники опубликовали чат-бота-помощника с открытым исходным кодом OpenAssistant .

Наборы данных изображений

LAION публично опубликовал ряд больших наборов данных пар изображений и подписей, которые широко используются исследователями искусственного интеллекта. Данные получены из Common Crawl — набора данных очищенных веб-страниц. Разработчики искали <img>теги в просканированном HTML-коде и рассматривали их атрибуты alt как заголовки. Они использовали CLIP для идентификации и удаления изображений, содержание которых не соответствовало подписям. ^[6] LAION не хранит содержимое самих извлеченных изображений; скорее, набор данных содержит URL-адреса , указывающие на изображения, которые исследователи должны загрузить самостоятельно. ^[7]

Первый такой набор данных, LAION-400M, был выпущен в августе 2021 года и состоял из 400 миллионов пар изображений и подписей. Пары были извлечены из случайного подмножества веб-страниц, обработанных Common Crawl в период с 2014 по 2021 год. ^[8] Это была попытка воссоздать процесс, используемый OpenAI для сбора 400 миллионов пар изображений и подписей, которые они использовали для обучения модели CLIP. компания решила открыть исходный код модели и веса, но не набор обучающих данных. ^[6] Imagen , модель преобразования текста в изображение, анонсированная Google Brain в 2022 году, была обучена на LAION-400M в сочетании с частными внутренними наборами данных. ^[9]

Преемник более чем 5 миллиардов пар, LAION-5B, был выпущен в марте 2022 года. ^[10] На момент выпуска это был самый большой из существующих свободно доступных наборов данных пар изображений и подписей. ^[6] Его создание финансировалось Doodlebot, Hugging Face и Stability AI, ИИ-компанией, которая финансировала модель преобразования текста в изображение Stable Diffusion , которая была обучена на ней. ^[11]

Критика

Некоторые исследования показывают, что изображения в LAION-5B содержат проблемные изображения и текстовые пары, посвященные изнасилованиям, порнографии, злонамеренным стереотипам, расистским и этническим оскорблениям, а также другой крайне проблемный контент. ^[12]^[13]

Расследование Bayerischer Rundfunk показало, что наборы данных LAION, размещенные на Hugging Face, содержат большое количество частных и конфиденциальных данных. ^[14]

В декабре 2023 года Стэнфордская интернет-обсерватория опубликовала отчет о LAION-5B, в котором обнаружено 3226 предполагаемых случаев ссылок на материалы о сексуальном насилии над детьми , 1008 из которых прошли внешнюю проверку. В ответ LAION временно удалила LAION-5B и LAION-400M, сославшись на свою «политику нулевой терпимости к незаконному контенту» и «чрезвычайную осторожность». ^[15]

OpenAssistant

OpenAssistant — это помощник на основе чата с открытым исходным кодом , основанный на искусственном интеллекте (ИИ) , который понимает задачи, может взаимодействовать со сторонними системами и для этого динамически получать информацию. Проект разработан группой волонтеров совместно с LAION. Одна из целей разработки включает свободный доступ к большим языковым моделям , которые можно запускать локально на потребительском оборудовании. ^[16]^[17] Проект поддерживается всемирным краудсорсинговым проектом с участием более 13 500 добровольцев, которые создали 600 тысяч точек данных, созданных человеком. ^[17]^[18]

ЛАИОН

Наборы данных изображений

Критика

OpenAssistant

Рекомендации