stringtranslate.com

ЛАИОН

LAION (аббревиатура от Large-scale Artificial Intelligence Open Network ) — немецкая некоммерческая организация, которая создает модели и наборы данных искусственного интеллекта с открытым исходным кодом . [1] Он наиболее известен тем, что выпустил ряд больших наборов данных изображений и подписей, извлеченных из Интернета, которые использовались для обучения ряда громких моделей преобразования текста в изображение , включая Stable Diffusion и Imagen . [2] [3]

В феврале 2023 года LAION была упомянута в иске Getty Images против Stable Diffusion как беспартийная организация. [4] В апреле 2023 года на LAION подал в суд прямой немецкий фотограф, который хотел удалить свои изображения из обучающей выборки. [5]

15 апреля 2023 года LAION и участники опубликовали чат-бота-помощника с открытым исходным кодом OpenAssistant .

Наборы данных изображений

LAION публично опубликовал ряд больших наборов данных пар изображений и подписей, которые широко используются исследователями искусственного интеллекта. Данные получены из Common Crawl — набора данных очищенных веб-страниц. Разработчики искали <img>теги в просканированном HTML-коде и рассматривали их атрибуты alt как заголовки. Они использовали CLIP для идентификации и удаления изображений, содержание которых не соответствовало подписям. [6] LAION не хранит содержимое самих извлеченных изображений; скорее, набор данных содержит URL-адреса , указывающие на изображения, которые исследователи должны загрузить самостоятельно. [7]

Первый такой набор данных, LAION-400M, был выпущен в августе 2021 года и состоял из 400 миллионов пар изображений и подписей. Пары были извлечены из случайного подмножества веб-страниц, обработанных Common Crawl в период с 2014 по 2021 год. [8] Это была попытка воссоздать процесс, используемый OpenAI для сбора 400 миллионов пар изображений и подписей, которые они использовали для обучения модели CLIP. компания решила открыть исходный код модели и веса, но не набор обучающих данных. [6] Imagen , модель преобразования текста в изображение, анонсированная Google Brain в 2022 году, была обучена на LAION-400M в сочетании с частными внутренними наборами данных. [9]

Преемник более чем 5 миллиардов пар, LAION-5B, был выпущен в марте 2022 года. [10] На момент выпуска это был самый большой из существующих свободно доступных наборов данных пар изображений и подписей. [6] Его создание финансировалось Doodlebot, Hugging Face и Stability AI, ИИ-компанией, которая финансировала модель преобразования текста в изображение Stable Diffusion , которая была обучена на ней. [11]

Критика

Некоторые исследования показывают, что изображения в LAION-5B содержат проблемные изображения и текстовые пары, посвященные изнасилованиям, порнографии, злонамеренным стереотипам, расистским и этническим оскорблениям, а также другой крайне проблемный контент. [12] [13]

Расследование Bayerischer Rundfunk показало, что наборы данных LAION, размещенные на Hugging Face, содержат большое количество частных и конфиденциальных данных. [14]

В декабре 2023 года Стэнфордская интернет-обсерватория опубликовала отчет о LAION-5B, в котором обнаружено 3226 предполагаемых случаев ссылок на материалы о сексуальном насилии над детьми , 1008 из которых прошли внешнюю проверку. В ответ LAION временно удалила LAION-5B и LAION-400M, сославшись на свою «политику нулевой терпимости к незаконному контенту» и «чрезвычайную осторожность». [15]

OpenAssistant

OpenAssistant — это помощник на основе чата с открытым исходным кодом , основанный на искусственном интеллекте (ИИ) , который понимает задачи, может взаимодействовать со сторонними системами и для этого динамически получать информацию. Проект разработан группой волонтеров совместно с LAION. Одна из целей разработки включает свободный доступ к большим языковым моделям , которые можно запускать локально на потребительском оборудовании. [16] [17] Проект поддерживается всемирным краудсорсинговым проектом с участием более 13 500 добровольцев, которые создали 600 тысяч точек данных, созданных человеком. [17] [18]

Рекомендации

  1. ^ «О» . ЛАИОН.ai . Проверено 26 сентября 2022 г.
  2. Эдвардс, Бендж (15 сентября 2022 г.). «Усвоили ли генераторы изображений искусственного интеллекта ваше искусство? Новый инструмент позволяет проверить». Арс Техника .
  3. ^ Ньюман, Марисса; Кантрилл, Агги (24 апреля 2023 г.). «Будущее искусственного интеллекта зависит от бесплатной базы данных учителей средней школы». Новости Блумберга . Проверено 24 апреля 2023 г.
  4. ^ «Getty Images (США), Inc. против Stability AI, Inc., 1:23-cv-00135» . Слушатель суда . Проверено 8 февраля 2023 г.
  5. ^ «Фотограф пытался удалить свои фотографии из набора данных AI. Вместо этого он получил счет» . Порок . Проверено 4 мая 2023 г.
  6. ↑ abc Алфорд, Энтони (17 мая 2022 г.). «LAION выпускает набор данных LAION-5B из пяти миллиардов пар изображений и текста» . ИнфоQ .
  7. Эдвардс, Бендж (21 сентября 2022 г.). «Художник находит фотографии частных медицинских записей в популярном наборе данных для обучения ИИ» . Арс Техника .
  8. Шуман, Кристоф (8 августа 2021 г.). «Набор открытых данных LAION-400-Million». Блог ЛАИОН . Проверено 26 сентября 2022 г.
  9. ^ Сахария, Читван; Чан, Уильям; Саксена, Саураб; Ли, Лала; Ванг, Джей; Дентон, Эмили; Камьяр Сейед Гасемипур, Сейед; Карагол Аян, Бурджу; Сара Махдави, С.; Гонтихо Лопес, Рафа; Салиманс, Тим; Эй, Джонатан; Дж. Флит, Дэвид; Норузи, Мохаммед (23 мая 2022 г.). «Фотореалистичные модели распространения текста в изображение с глубоким пониманием языка». arXiv : 2205.11487 [cs.CV].
  10. Бомонт, Ромен (3 марта 2022 г.). «LAION-5B: Новая эра открытых крупномасштабных мультимодальных наборов данных». Блог ЛАИОН .
  11. Виггерс, Кайл (12 августа 2022 г.). «Этот стартап освобождает ИИ, подобный DALL-E 2, к черту последствия». ТехКранч .
  12. ^ Бирхане, Абеба; Прабху, Винай Удай; Кахембве, Эммануэль (2021). «Мультимодальные наборы данных: женоненавистничество, порнография и злокачественные стереотипы». arXiv : 2110.01963 . {{cite journal}}: Требуется цитировать журнал |journal=( помощь )
  13. ^ Бирхане, Абеба; Прабху, Винай; Хан, Санг; Боддети, Вишну Нареш; Луччиони, Александра Саша (06.11.2023), В логово LAION: исследование ненависти в мультимодальных наборах данных , arXiv : 2311.03449
  14. ^ Бруннер, Катарина; Харлан, Элиза. «Мы все — сырье для искусственного интеллекта». Баварский Рундфунк .
  15. Коул, Саманта (20 декабря 2023 г.). «Самый большой набор данных, на котором основаны изображения искусственного интеллекта, удален после обнаружения материалов о сексуальном насилии над детьми» . 404 Медиа . Проверено 22 декабря 2023 г.
  16. ^ Открытый помощник, LAION AI, 9 марта 2023 г. , получено 9 марта 2023 г.
  17. ^ Аб Кёпф, Андреас; Килчер, Янник; фон Рютте, Дмитрий; Анагностидис, Сотирис; Там, Жи-Руй; Стивенс, Кейт; Бархум, Абдулла; Дык, Нгуен Минь; Стэнли, Оливер; Надьфи, Ричард; ES, Шахул; Сури, Самир; Глушков, Давид; Дантулури, Арнав; Магуайр, Эндрю (14 апреля 2023 г.). «Беседы OpenAssistant - Демократизация согласования модели большого языка». arXiv : 2304.07327 [cs.CL].
  18. ^ «Открытый помощник: изучите возможности открытой и совместной разработки чат-ботов» . КДнаггетс . Проверено 5 мая 2023 г.