stringtranslate.com

Модель фундамента

Фундаментальная модель , также известная как большая модель ИИ , представляет собой модель машинного обучения или глубокого обучения , которая обучается на огромных наборах данных, поэтому ее можно применять в широком спектре вариантов использования. [1] Генеративные приложения ИИ , такие как большие языковые модели, часто являются примерами фундаментальных моделей. [1]

Создание базовых моделей часто требует больших ресурсов, при этом самые дорогие модели обходятся в сотни миллионов долларов на оплату базовых данных и необходимых вычислений. [2] Напротив, адаптация существующей базовой модели для конкретной задачи или ее прямое использование обходится гораздо дешевле.

Ранними примерами фундаментальных моделей являются языковые модели (LM), такие как серия GPT OpenAI и BERT Google . [ 3] [4] Помимо текста, фундаментальные модели были разработаны в различных модальностях, включая DALL-E и Flamingo [5] для изображений, MusicGen [6] для музыки и RT-2 [7] для управления роботами. Фундаментальные модели также разрабатываются для таких областей, как астрономия, [8] радиология, [9] геномика, [10] музыка, [11] кодирование, [12] прогнозирование временных рядов , [13] математика, [14] и химия. [15]

Определения

Центр исследований фундаментальных моделей (CRFM) Стэнфордского института искусственного интеллекта, ориентированного на человека (HAI), ввел термин «фундаментальная модель» в августе 2021 года [16] для обозначения «любой модели, которая обучается на широких данных (обычно с использованием самоконтроля в масштабе), которая может быть адаптирована (например, точно настроена) для широкого спектра последующих задач». [17] Это было основано на их наблюдении, что уже существующие термины, хотя и перекрывались, были неадекватными, заявив, что « (большая) языковая модель » была слишком узка, учитывая, что [в центре] внимания находится не только язык; «самоконтролируемая модель» была слишком специфична для цели обучения; а «предварительно обученная модель» предполагала, что все заслуживающие внимания действия произошли после «предварительного обучения». [18] Термин «фундаментальная модель» был выбран вместо «фундаментальной модели» [19], потому что «фундаментальный» подразумевает, что эти модели предоставляют фундаментальные принципы таким образом, как «фундамент» этого не делает. [20]

Поскольку правительства регулируют модели фондов, появились новые юридические определения.

Определения США единственные, которые ссылаются на размер базовой модели, и отличаются по величине. Определение Бейера и Эшу также указывает, что базовые модели должны достичь уровня производительности, чтобы быть потенциально опасными. Напротив, определение ЕС требует, чтобы модель была разработана для общности выходных данных. Все определения сходятся в том, что базовые модели должны обучаться на широком диапазоне данных с потенциальными приложениями во многих областях.

История

Технологически, фундаментальные модели строятся с использованием устоявшихся методов машинного обучения, таких как глубокие нейронные сети , трансферное обучение и самоконтролируемое обучение . Фундаментальные модели отличаются от предыдущих методов тем, что они являются моделями общего назначения, функционирующими как повторно используемая инфраструктура, а не индивидуальными и одноразовыми моделями для конкретных задач.

Достижения в области компьютерного параллелизма (например, графические процессоры CUDA ) и новые разработки в архитектуре нейронных сетей (например, Transformers ), а также более широкое использование данных для обучения с минимальным контролем — все это способствовало росту фундаментальных моделей. Фундаментальные модели начали материализоваться как последняя волна моделей глубокого обучения в конце 2010-х годов. [23] По сравнению с большинством предыдущих работ по глубокому обучению эти языковые модели продемонстрировали потенциал обучения на гораздо больших наборах данных из веб-источников с использованием самоконтролируемых целей (например, предсказание следующего слова в большом корпусе текста). Эти подходы, которые опираются на более ранние работы, такие как word2vec и GloVe , отклонились от предыдущих контролируемых подходов, которые требовали аннотированных данных (например, краудсорсинговых меток).

Выпуски Stable Diffusion и ChatGPT в 2022 году (изначально работавшие на основе модели GPT-3.5) привели к тому, что модели фундамента и генеративный ИИ вошли в широкий публичный дискурс. Кроме того, выпуски LLaMA , Llama 2 и Mistral в 2023 году способствовали большему акценту на том, как выпускаются модели фундамента, а открытые модели фундамента получили большую поддержку [24] и пристальное внимание. [25]

Связанные концепции

Модели пограничья

Некоторые высокоразвитые модели фундамента называются «пограничными моделями», которые потенциально могут «обладать опасными возможностями, достаточными для того, чтобы представлять серьезную угрозу общественной безопасности». [26] Эти «опасные возможности» возникают из-за случайного или преднамеренного неправильного использования таких моделей, что в сочетании с их мощной природой может привести к серьезному вреду. Поскольку модели фундамента продолжают совершенствоваться, некоторые исследователи ИИ предполагают, что почти все модели фундамента следующего поколения будут считаться пограничными моделями.

Поскольку концепция опасных возможностей по своей сути субъективна, не существует строгого обозначения того, какие модели фундамента считаются пограничными моделями. Однако некоторые общепринятые идеи относительно достаточно опасных возможностей включают:

Из-за уникальных возможностей пограничных моделей сложно эффективно регулировать их разработку и развертывание. Из-за их эмерджентной природы новые опасные возможности могут появляться сами по себе в пограничных моделях, как на этапе разработки, так и после развертывания. [26] Кроме того, поскольку пограничные модели продолжают адаптироваться после развертывания, по-прежнему сложно смягчить весь вред, который возникает из-за уже развернутых моделей. Если пограничная модель оказывается с открытым исходным кодом или выкладывается в сеть, она также может быстро распространяться, еще больше затрудняя работу регулирующих органов, создавая отсутствие подотчетности.

ИИ общего назначения

В связи с их адаптивностью к широкому спектру вариантов использования, базовые модели иногда считаются примерами универсального ИИ. При разработке Закона ЕС об ИИ Европейский парламент заявил, что новая волна универсальных технологий ИИ формирует общую экосистему ИИ. [31] Более полная структура экосистемы, в дополнение к свойствам конкретных универсальных систем ИИ, влияет на разработку политики и исследований в области ИИ. [32] Универсальные системы ИИ также часто появляются в повседневной жизни людей через приложения и инструменты, такие как ChatGPT или DALL-E .

Правительственные учреждения, такие как парламент ЕС, определили регулирование ИИ общего назначения, например, фундаментальные модели, как высокоприоритетную задачу. Системы ИИ общего назначения часто характеризуются большим размером, непрозрачностью и потенциалом для возникновения, все из которых могут создавать непреднамеренный вред. Такие системы также сильно влияют на последующие приложения, что еще больше усугубляет необходимость регулирования. Что касается важного законодательства, ряд заинтересованных сторон настаивали на том, чтобы Закон ЕС об ИИ включал ограничения на системы ИИ общего назначения, все из которых также будут применяться к фундаментальным моделям.

Технические подробности

Моделирование

Для того, чтобы фундаментальная модель эффективно обобщала, она должна получить богатые представления обучающих данных. В результате, выразительные архитектуры моделей, которые эффективно обрабатывают крупномасштабные данные, часто являются предпочтительными при построении фундаментальных моделей. [17] В настоящее время архитектура Transformer является фактическим выбором для построения фундаментальных моделей в диапазоне модальностей. [33]

Обучение

Базовые модели строятся путем оптимизации цели(ей) обучения, которая является математической функцией, определяющей, как параметры модели обновляются на основе прогнозов модели на данных обучения. [34] Языковые модели часто обучаются с целью прогнозирования следующих токенов, которая относится к степени, в которой модель способна предсказать следующий токен в последовательности. Модели изображений обычно обучаются с помощью целей контрастного обучения или диффузионного обучения. Для контрастного обучения изображения случайным образом дополняются перед оценкой на основе полученного сходства представлений модели. Для диффузионных моделей изображения зашумляются, и модель учится постепенно устранять шум с помощью цели. Существуют также мультимодальные цели обучения, при этом некоторые разделяют изображения и текст во время обучения, в то время как другие изучают их одновременно. [35] В целом, цели обучения для базовых моделей способствуют обучению широко полезным представлениям данных.

С ростом числа моделей фундамента и более крупных наборов данных, которые их поддерживают, цель обучения должна иметь возможность анализировать данные в масштабе Интернета для значимых точек данных. Кроме того, поскольку модели фундамента предназначены для решения общего спектра задач, цели обучения должны быть полными для домена или способны решать широкий набор возможностей нижестоящего уровня в пределах заданного домена. Наконец, цели обучения модели фундамента должны стремиться к хорошему масштабированию и быть вычислительно эффективными. Поскольку размер модели и вычислительная мощность являются соответствующими ограничениями, цель обучения должна иметь возможность преодолевать такие узкие места.

Данные

Модели Foundation обучаются на большом количестве данных, работая по принципу «чем больше данных, тем лучше». [36] Оценка производительности показывает, что больше данных, как правило, приводит к лучшей производительности, но по мере роста количества данных возникают и другие проблемы. Такие задачи, как управление набором данных, интеграция данных в новые приложения, обеспечение соблюдения лицензий на данные и поддержание качества данных, становятся все более сложными по мере роста размера данных. Конкретные требования моделей Foundation только усугубили такие проблемы, поскольку для больших моделей Foundation по-прежнему нормой остается использование общедоступных данных, полученных из веб-браузеров. Модели Foundation также включают данные поисковых систем и данные метатегов SEO. Публичные веб-данные остаются обильным ресурсом, но они также требуют строгой модерации и обработки данных от разработчиков моделей Foundation, прежде чем они смогут быть успешно интегрированы в конвейер обучения. [37]

Обучение моделей фундамента часто сопряжено с риском нарушения конфиденциальности пользователя, поскольку личные данные могут быть раскрыты, собраны или использованы способами, выходящими за рамки заявленной области. Даже если не происходит утечки личных данных, модели все равно могут непреднамеренно поставить под угрозу безопасность посредством изученного поведения в полученной модели фундамента. [38] Качество данных является еще одним ключевым моментом, поскольку данные, полученные из веб-скрапа, часто содержат предвзятый, дублирующий и токсичный материал. После развертывания моделей фундамента обеспечение высокого качества данных по-прежнему остается проблемой, поскольку нежелательное поведение все еще может возникать из небольших подмножеств данных.

Системы

Размер фундаментальных моделей также вызывает проблемы с компьютерными системами, на которых они работают. Средняя фундаментальная модель слишком велика для запуска в памяти одного ускорителя, а начальный процесс обучения требует дорогостоящего количества ресурсов. [39] Прогнозируется, что такие проблемы еще больше обострятся в будущем, поскольку фундаментальные модели вырастут до новых высот. Из-за этого ограничения исследователи начали изучать возможность сжатия размера модели посредством жесткого вывода модели.

Графические процессоры являются наиболее распространенным выбором вычислительного оборудования для машинного обучения из-за большого объема памяти и высокой мощности. Типичное обучение базовой модели требует множества графических процессоров, все из которых подключены параллельно с помощью быстрых межсоединений. Приобретение достаточного количества графических процессоров с необходимой вычислительной эффективностью является проблемой для многих разработчиков базовой модели, что привело к растущей дилемме в этой области. Более крупные модели требуют большей вычислительной мощности, но часто за счет повышения вычислительной эффективности. Поскольку обучение остается трудоемким и дорогим, компромисс между вычислительной мощностью и вычислительной эффективностью привел к тому, что лишь немногие избранные компании смогли позволить себе производственные затраты на большие современные базовые модели. Некоторые методы, такие как сжатие и дистилляция, могут сделать вывод более доступным, но они не могут полностью устранить этот недостаток.

Масштабирование

Точность и возможности базовых моделей часто масштабируются предсказуемо с размером модели и объемом обучающих данных. В частности, были обнаружены законы масштабирования, которые являются эмпирическими тенденциями на основе данных, связывающими ресурсы (данные, размер модели, использование вычислений) с возможностями модели. В частности, масштаб модели определяется вычислением, размером набора данных и количеством параметров, все из которых демонстрируют степенную зависимость с конечной производительностью.

Однако были обнаружены нарушенные законы масштабирования [40] , в которых эта связь плавно переходит (в точках, называемых разрывом(ами) ) от степенного закона с одним показателем к степенному закону с другим (иным) показателем. Если не собирать никаких точек вблизи (или после) разрыва(ов), может быть сложно получить точную экстраполяцию.

Приспособление

Модели Foundation по своей сути многоцелевые: для использования этих моделей в определенном случае использования требуется некоторая форма адаптации. Как минимум, модели должны быть адаптированы для выполнения интересующей задачи (спецификация задачи), но часто более высокой производительности можно добиться путем более обширной адаптации к интересующей области (специализация области).

Различные методы (например , подсказки , контекстное обучение , тонкая настройка , LoRA ) обеспечивают различные компромиссы между затратами на адаптацию и степенью специализации моделей. Некоторые основные аспекты, которые следует учитывать при адаптации базовой модели, — это бюджет вычислений и доступность данных. Базовые модели могут быть очень большими, до триллионов параметров по размеру, поэтому адаптация всей базовой модели может быть вычислительно затратной. Поэтому разработчики иногда адаптируют только последний нейронный слой или только векторы смещения, чтобы сэкономить время и пространство. [41] Для особо узкоспециализированных приложений определенные данные также могут быть недоступны для достаточной адаптации базовой модели. В таких обстоятельствах данные должны быть вручную размечены, что является дорогостоящим и может потребовать экспертных знаний.

Оценка

Оценка является ключевой частью разработки базовых моделей. Оценка не только позволяет отслеживать прогресс высокопроизводительных моделей, но и создает ориентиры для будущей разработки моделей. Заинтересованные стороны полагаются на оценки, чтобы понять поведение моделей и получить представление об их различных атрибутах. Традиционно базовые модели оцениваются относительно друг друга с помощью стандартизированных контрольных показателей, таких как MMLU , [42] MMMU, [43] HumanEval, [44] и GSM8K. [45] Учитывая, что базовые модели являются многоцелевыми, все чаще разрабатываются мета-контрольные показатели, которые объединяют различные базовые контрольные показатели. Примерами являются LM-Harness, [46] BIG-Bench, [47] HELM, [48] OpenLLM Leaderboard, [49] DecodingTrust, [50] и HEIM. [51]

Поскольку полезность моделей фундамента зависит от их собственных общих возможностей и производительности тонко настроенных приложений, оценка должна охватывать обе метрики. Правильная оценка изучает как нисходящие приложения модели фундамента в совокупности, так и прямые свойства, которые содержит модель фундамента. Для обеспечения дальнейшего равенства при оценке некоторые существующие оценочные структуры учитывают все ресурсы адаптации, что приводит к более обоснованному анализу на благо всех заинтересованных сторон. [52]

Цепочка поставок

Общие возможности моделей Foundation позволяют им выполнять уникальную роль в экосистеме ИИ, [53] подпитываемую многими восходящими и нисходящими технологиями. [1] Обучение модели Foundation требует нескольких ресурсов (например, данных, вычислений, рабочей силы, оборудования, кода), при этом модели Foundation часто включают огромные объемы данных и вычислений (также называемые вычислительной мощностью). Из-за больших затрат на разработку моделей Foundation и недорогих требований к адаптации ландшафт ИИ сместился в сторону небольшого подмножества компаний ИИ, создающих модели Foundation для адаптации Downstream. [54] Таким образом, большинство компаний, разрабатывающих модели Foundation, передают этот шаг на аутсорсинг специализированным поставщикам данных (например, Scale AI, [55] Surge [56] ) и поставщикам вычислений (например, Amazon Web Services , Google Cloud , Microsoft Azure ).

Инвестиции в вычислительные мощности для обучения более крупных моделей ИИ быстро возросли. [57]

Затем сам разработчик базовой модели возьмет данные и использует предоставленные вычисления для фактического обучения базовой модели. После того, как базовая модель будет полностью построена, большая часть данных и требований к рабочей силе снизится. В этом процессе разработки оборудование и вычисления являются наиболее необходимыми, а также наиболее эксклюзивными ресурсами. Для обучения более крупного и сложного ИИ ключевым является достаточный объем вычислений. Однако вычисления консолидированы в руках нескольких избранных субъектов, от которых зависит большинство разработчиков базовой модели. Таким образом, конвейер базовой модели в значительной степени сконцентрирован вокруг этих поставщиков. Вычисления также являются дорогостоящими; в 2023 году компании ИИ потратили более 80% от общего капитала на вычислительные ресурсы. [58]

Модели фундамента требуют большого количества общих данных для обеспечения своих возможностей. Ранние модели фундамента собирали данные из подмножеств интернета, чтобы предоставить эту информацию. По мере роста размера и сферы охвата моделей фундамента становится необходимым все большее количество сбора данных из интернета, что приводит к более высокой вероятности предвзятых или токсичных данных. Эти токсичные или предвзятые данные могут непропорционально навредить маргинализированным группам и усугубить существующие предрассудки. [59]

Чтобы решить эту проблему с некачественными данными, возникшую при неконтролируемом обучении, некоторые разработчики фундаментальных моделей обратились к ручной фильтрации. Эта практика, известная как работа с данными, имеет свой собственный набор проблем. [60] Такая ручная детоксикация данных часто передается на аутсорсинг для снижения затрат на рабочую силу, при этом некоторые работники зарабатывают менее 2 долларов в час. [61]

Затем базовая модель будет размещена в сети либо через разработчика, либо через внешнюю организацию. После выпуска другие стороны могут создавать приложения на основе базовой модели, будь то путем тонкой настройки или совершенно новых целей. Затем люди могут получить доступ к этим приложениям для обслуживания своих различных средств, позволяя одной базовой модели работать и охватывать широкую аудиторию.

Стратегии выпуска

После того, как фундаментальная модель создана, ее можно выпустить одним из многих способов. Выпуск имеет много аспектов: сам актив, кто имеет доступ, как доступ меняется со временем и условия использования. [62] Все эти факторы влияют на то, как фундаментальная модель повлияет на последующие приложения. [63] В частности, две наиболее распространенные формы выпуска фундаментальной модели — через API и прямые загрузки моделей.

Когда модель выпускается через API , пользователи могут запрашивать модель и получать ответы, но не могут напрямую получить доступ к самой модели. Для сравнения, модель может быть напрямую загружена пользователями для доступа и изменения. Обе стратегии выпуска часто классифицируются как открытый выпуск. Точное определение открытого выпуска оспаривается, но общепринятые требования предоставляются Open Source Initiative .

Некоторые модели открытого фундамента: PaLM 2 , Llama 2 , Granite и Mistral . Хотя модели открытого фундамента могут способствовать дальнейшему исследованию и разработке более легко, они также более подвержены неправильному использованию. Модели открытого фундамента может загрузить любой, и особенно мощные модели могут быть настроены на преднамеренное или непреднамеренное причинение вреда.

Во время закрытого выпуска базовая модель не может быть доступна общественности, но используется внутри организации. Такие выпуски считаются более безопасными, но не несут никакой дополнительной ценности для исследовательского сообщества или общественности в целом.

Некоторые базовые модели, такие как Flamingo от Google DeepMind [64] , полностью закрыты, то есть они доступны только разработчику модели; другие, такие как GPT-4 от OpenAI , имеют ограниченный доступ и доступны публике, но только в виде черного ящика ; а третьи, такие как Llama 2 от Meta , открыты, с общедоступными весами моделей, что позволяет вносить изменения и проводить проверку на последующих этапах.

Ссылки

  1. ^ abcd Управление по конкуренции и рынкам (2023). Модели AI Foundation: Первоначальный отчет . Доступно по адресу: https://assets.publishing.service.gov.uk/media/65081d3aa41cc300145612c0/Full_report_.pdf
  2. ^ Нестор Маслей, Лоредана Фатторини, Эрик Бриньолфссон, Джон Этчеменди, Катрина Лигетт, Терах Лайонс, Джеймс Маньяка, Хелен Нго, Хуан Карлос Ниблес, Ванесса Парли, Йоав Шохам, Рассел Уолд, Джек Кларк и Рэймон Перро, «Ежегодный отчет по индексу ИИ 2023», Руководящий комитет индекса ИИ, Институт ИИ, ориентированного на человека, Стэнфордский университет, Стэнфорд, Калифорния, апрель 2023 г.
  3. ^ Роджерс, Анна; Ковалева, Ольга; Румшиски, Анна (2020). «Учебник по BERTологии: что мы знаем о том, как работает BERT». arXiv : 2002.12327 [cs.CL].
  4. ^ Хаддад, Мохаммед. «Как работает GPT-4 и как начать использовать его в ChatGPT?». Al Jazeera . Получено 20 октября 2024 г.
  5. ^ Решение нескольких задач с помощью единой визуальной языковой модели, 28 апреля 2022 г. , получено 13 июня 2022 г.
  6. ^ Копет, Джейд; Кройк, Феликс; Гат, Итай; Ремез, Таль; Кант, Дэвид; Синнев, Габриэль; Ади, Йосси; Дефосс, Александр (7 ноября 2023 г.). «Простое и управляемое создание музыки». arXiv : 2306.05284 [cs.SD].
  7. ^ «Говорящий робот: наша новая модель ИИ переводит зрение и язык в действия робота». Google . 28 июля 2023 г. . Получено 11 декабря 2023 г. .
  8. ^ Нгуен, Туан Зунг; Тинг, Юань-Сен; Чука, Иоана; О'Нил, Чарли; Сан, Зе-Чанг; Яблонска, Майя; Крук, Шандор; Перковски, Эрнест; Миллер, Джек (12 сентября 2023 г.). «AstroLLaMA: На пути к специализированным фундаментальным моделям в астрономии». arXiv : 2309.06126 [astro-ph.IM].
  9. ^ Ту, Тао; Азизи, Шекуфе; Дрисс, Дэнни; Шекерманн, Майк; Амин, Мохамед; Чанг, Пи-Чуан; Кэрролл, Эндрю; Лау, Чак; Танно, Рютаро (26 июля 2023 г.). «На пути к универсальному биомедицинскому искусственному интеллекту». arXiv : 2307.14334 [cs.CL].
  10. ^ Звягин, Максим; Брейс, Александр; Хиппе, Кайл; Дэн, Юньтянь; Чжан, Бин; Бохоркес, Синди Ороско; Клайд, Остин; Кейл, Бхарат; Перес-Ривера, Данило (11 октября 2022 г.). «GenSLMs: модели языка в масштабе генома раскрывают эволюционную динамику SARS-CoV-2». bioRxiv 10.1101/2022.10.10.511571 . 
  11. ^ Engineering, Spotify (13 октября 2023 г.). "LLark: Мультимодальная модель фундамента для музыки". Spotify Research . Получено 11 декабря 2023 г. .
  12. ^ Ли, Раймонд; Аллал, Лубна Бен; Цзы, Янтянь; Мюннигофф, Никлас; Кочетков, Денис; Моу, Чэнхао; Мароне, Марк; Акики, Кристофер; Ли, Цзя (9 мая 2023 г.). «StarCoder: да пребудет с вами источник!». arXiv : 2305.06161 [cs.CL].
  13. Se, Ksenia; Spektor, Ian (5 апреля 2024 г.). «Революция в прогнозировании временных рядов: интервью с создателями TimeGPT». Turing Post . Получено 11 апреля 2024 г.
  14. ^ Азербаев, Жангир; Шелькопф, Хейли; Пастер, Кейран; Сантос, Марко Дос; Макалир, Стивен; Цзян, Альберт К.; Дэн, Цзя; Бидерман, Стелла; Веллек, Шон (30 ноября 2023 г.). «Ллемма: модель открытого языка для математики». arXiv : 2310.10631 [cs.CL].
  15. ^ «Орбитальный».
  16. ^ «Представляем Центр исследований фундаментальных моделей (CRFM)». Стэнфордский институт прикладных исследований . 18 августа 2021 г. Получено 11 июня 2022 г.
  17. ^ ab Bommasani, Rishi; et al. (18 августа 2021 г.). О возможностях и рисках моделей фундамента (отчет). arXiv : 2108.07258 .
  18. ^ «Размышления о фундаментальных моделях». Стэнфордский институт прикладных наук . 18 октября 2021 г. Получено 22 мая 2023 г.
  19. ^ Bommasani, Rishi; Liang, Percy (18 октября 2021 г.). «Размышления о моделях фундамента». Stanford CRFM . Получено 11 декабря 2023 г.
  20. ^ Маркус, Гэри (11 сентября 2021 г.). «Нашел ли ИИ новый фундамент?». The Gradient . Получено 11 декабря 2023 г.
  21. House, The White (30 октября 2023 г.). «Исполнительный указ о безопасной, надежной и заслуживающей доверия разработке и использовании искусственного интеллекта». The White House . Получено 12 февраля 2024 г.
  22. ^ «Закон о прозрачности модели Фонда ИИ» (PDF) .
  23. ^ Лян, Перси; Боммасани, Риши; Ли, Тони; Ципрас, Димитрис; Сойлу, Дилара; Ясунага, Митихиро; Чжан, Ян; Нараянан, Дипак; Ву, Юхуай (1 октября 2023 г.), «Целостная оценка языковых моделей», Анналы Нью-Йоркской академии наук , 1525 (1): 140–146, arXiv : 2211.09110 , Bibcode : 2023NYASA1525..140B, doi :10.1111/nyas.15007, PMID  37230490
  24. ^ «Совместное заявление о безопасности и открытости ИИ». Mozilla . 31 октября 2023 г. Получено 12 февраля 2024 г.
  25. ^ «Хоули и Блюменталь требуют ответов от Meta, предупреждают о злоупотреблении после «утечки» модели искусственного интеллекта Meta». Сенатор Джош Хоули . 6 июня 2023 г. Получено 12 февраля 2024 г.
  26. ^ ab Anderljung, Markus; Barnhart, Joslyn; Korinek, Anton; Leung, Jade ; O'Keefe, Cullen; Whittlestone, Jess; Avin, Shahar; Brundage, Miles; Bullock, Justin (7 ноября 2023 г.), Frontier AI Regulation: Managing Emerging Risks to Public Safety , arXiv : 2307.03718
  27. ^ Сингхал, Каран; Азизи, Шекуфе; Ту, Дао; Махдави, С. Сара; Вэй, Джейсон; Чунг, Хён Вон; Весы, Натан; Танвани, Аджай; Коул-Льюис, Хизер; Пфол, Стивен; Пейн, Перри; Сеневиратне, Мартин; Гэмбл, Пол; Келли, Крис; Бабикер, Абубакр (август 2023 г.). «Большие языковые модели кодируют клинические знания». Природа . 620 (7972): 172–180. arXiv : 2212.13138 . Бибкод : 2023Natur.620..172S. дои : 10.1038/s41586-023-06291-2. ISSN  1476-4687. PMC 10396962. PMID  37438534 . 
  28. ^ Нори, Харша; Кинг, Николас; МакКинни, Скотт Майер; Кариньян, Дин; Хорвиц, Эрик (12 апреля 2023 г.), Возможности GPT-4 при решении медицинских проблем , arXiv : 2303.13375
  29. ^ Симшоу, Дрю (22 апреля 2022 г.). «Доступ к правосудию на основе искусственного интеллекта: как избежать несправедливой двухуровневой системы юридических услуг». Электронный журнал SSRN .
  30. ^ Арбель, Йонатан А.; Бехер, Шмуэль И. (2020). «Контракты в эпоху умных читателей». Geo. Washington. L. Rev. 90 : 83. doi : 10.2139/ssrn.3740356. S2CID  229386991.
  31. ^ "Искусственный интеллект общего назначения | Think Tank | Европейский парламент". www.europarl.europa.eu . Получено 12 февраля 2024 г. .
  32. ^ Bommasani, Rishi; Soylu, Dilara; Liao, Thomas I.; Creel, Kathleen A.; Liang, Percy (28 марта 2023 г.), Ecosystem Graphs: The Social Footprint of Foundation Models , arXiv : 2303.15772
  33. ^ Bommasani, Rishi; Klyman, Kevin; Longpre, Shayne; Kapoor, Sayash; Maslej, Nestor; Xiong, Betty; Zhang, Daniel; Liang, Percy (19 октября 2023 г.), Индекс прозрачности модели Foundation , arXiv : 2310.12941
  34. ^ Клод Элвуд, Шеннон (июль 1948 г.). "Математическая теория связи" (PDF) . Bell System Technical Journal .
  35. ^ Рэдфорд, Алек; Ким, Чон Ук; Халласи, Крис; Рамеш, Адитья; Го, Габриэль; Агарвал, Сандхини; Шастри, Гириш; Аскелл, Аманда; Мишкин, Памела (26 февраля 2021 г.), Изучение переносимых визуальных моделей с помощью надзора за естественным языком , arXiv : 2103.00020
  36. ^ Каплан, Джаред; МакКэндлиш, Сэм; Хениган, Том; Браун, Том Б.; Чесс, Бенджамин; Чайлд, Ревон; Грей, Скотт; Рэдфорд, Алек; Ву, Джеффри (22 января 2020 г.), Законы масштабирования для нейронных языковых моделей , arXiv : 2001.08361
  37. ^ Джо, Ын Со; Гебру, Тимнит (27 января 2020 г.). «Уроки архивов: стратегии сбора социокультурных данных в машинном обучении». Труды конференции 2020 года по справедливости, подотчетности и прозрачности . стр. 306–316. arXiv : 1912.10389 . doi :10.1145/3351095.3372829. ISBN 978-1-4503-6936-7.
  38. ^ Бендер, Эмили М.; Гебру, Тимнит; Макмиллан-Мейджор, Анджелина; Шмитчелл, Шмаргарет (1 марта 2021 г.). «Об опасностях стохастических попугаев: могут ли языковые модели быть слишком большими? 🦜». Труды конференции ACM 2021 года по справедливости, подотчетности и прозрачности . FAccT '21. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 610–623. doi : 10.1145/3442188.3445922. ISBN 978-1-4503-8309-7.
  39. ^ Браун, Том Б.; Манн, Бенджамин; Райдер, Ник; Суббиа, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Шастри, Гириш (22 июля 2020 г.), Языковые модели — это ученики с небольшим количеством попыток , arXiv : 2005.14165
  40. ^ Кабальеро, Итан; Гупта, Кшитидж; Риш, Ирина; Крюгер, Дэвид (2022). «Нарушенные законы нейронного масштабирования». Международная конференция по представлениям обучения (ICLR), 2023.
  41. ^ Закен, Элад Бен; Равфогель, Шаули; Голдберг, Йоав (5 сентября 2022 г.), BitFit: простая параметрически эффективная тонкая настройка для моделей маскированного языка на основе трансформатора , arXiv : 2106.10199
  42. ^ "Papers with Code - MMLU Benchmark (Multi-task Language Understanding)". paperswithcode.com . Получено 21 апреля 2024 г. .
  43. ^ Юэ, Сян; Ни, Юаньшэн; Чжан, Кай; Чжэн, Тяньюй; Лю, Руоци; Чжан, Ге; Стивенс, Сэмюэл; Цзян, Дунфу; Рен, Вейминг (20 декабря 2023 г.), MMMU: масштабный междисциплинарный мультимодальный тест для понимания и рассуждения для экспертного AGI , arXiv : 2311.16502
  44. ^ "Papers with Code - HumanEval Benchmark (Code Generation)". paperswithcode.com . Получено 21 апреля 2024 г. .
  45. ^ "Papers with Code - GSM8K Benchmark (Арифметическое рассуждение)". paperswithcode.com . Получено 21 апреля 2024 г. .
  46. ^ EleutherAI/lm-evaluation-harness, EleutherAI, 21 апреля 2024 г. , получено 21 апреля 2024 г.
  47. ^ Шривастава, Аарохи; Растоги, Абхинав; Рао, Абхишек; Шоеб, Абу Авал Мд; Абид, Абубакар; Фиш, Адам; Браун, Адам Р.; Санторо, Адам; Гупта, Адитья (12 июня 2023 г.), За пределами имитационной игры: количественная оценка и экстраполяция возможностей языковых моделей , arXiv : 2206.04615
  48. ^ "Комплексная оценка языковых моделей (HELM)". crfm.stanford.edu . Получено 21 апреля 2024 г. .
  49. ^ "open-llm-leaderboard (Открытая таблица лидеров LLM)". huggingface.co . 9 ноября 2023 г. . Получено 21 апреля 2024 г. .
  50. ^ "DecodingTrust Benchmark". decodingtrust.github.io . Получено 21 апреля 2024 г. .
  51. ^ "Комплексная оценка моделей изображений (HEIM)". crfm.stanford.edu . Получено 21 апреля 2024 г. .
  52. ^ Linzen, Tal (июль 2020 г.). Jurafsky, Dan; Chai, Joyce; Schluter, Natalie; Tetreault, Joel (ред.). «Как мы можем ускорить прогресс в направлении лингвистического обобщения, подобного человеческому?». Труды 58-го ежегодного собрания Ассоциации компьютерной лингвистики . Онлайн: Ассоциация компьютерной лингвистики: 5210–5217. arXiv : 2005.00955 . doi : 10.18653/v1/2020.acl-main.465.
  53. ^ "Экосистемные графики для фундаментальных моделей". crfm.stanford.edu . Получено 13 февраля 2024 г. .
  54. ^ Випра, Джай; Коринек, Антон (2 ноября 2023 г.), Влияние моделей фундамента на концентрацию рынка , arXiv : 2311.01550
  55. ^ "Ускорение разработки приложений ИИ | Масштабирование ИИ". scale.com . Получено 21 апреля 2024 г. .
  56. ^ "Surge AI | Самая мощная в мире платформа маркировки данных". www.surgehq.ai . Получено 21 апреля 2024 г.
  57. ^ «Индекс ИИ 2024 г. — глава 1» (PDF) . 15 апреля 2024 г. стр. 37–39.
  58. ^ pnp (27 сентября 2023 г.). «Вычислительная мощность и ИИ». AI Now Institute . Получено 13 февраля 2024 г.
  59. ^ Тику, Ниташа; Шауль, Кевин; Чен, Сзу Ю. «Эти фейковые изображения показывают, как ИИ усиливает наши худшие стереотипы». Washington Post . Получено 13 февраля 2024 г.
  60. ^ «Как индустрия ИИ получает прибыль от катастрофы». MIT Technology Review . Получено 13 февраля 2024 г.
  61. ^ "Эксклюзив: Работники с зарплатой 2 доллара в час, которые сделали ChatGPT безопаснее". TIME . 18 января 2023 г. Получено 13 февраля 2024 г.
  62. ^ Лян, Перси; Боммасани, Риши; Крил, Кэтлин (17 мая 2022 г.). «Настало время разработать общественные нормы для выпуска моделей фундамента». Стэнфордский CRFM .
  63. ^ Солайман, Ирен (5 февраля 2023 г.), Градиент выпуска генеративного ИИ: методы и соображения , arXiv : 2302.04844
  64. ^ Алейрак, Жан-Батист; Донахью, Джефф; Люк, Полин; Мих, Антуан; Барр, Иэн; Хассон, Яна; Ленц, Карел; Менш, Артур; Милликан, Кэти (15 ноября 2022 г.), Фламинго: визуальная языковая модель для быстрого обучения , arXiv : 2204.14198