Фундаментальная модель , также известная как большая модель ИИ , представляет собой модель машинного обучения или глубокого обучения , которая обучается на огромных наборах данных, поэтому ее можно применять в широком спектре вариантов использования. [1] Генеративные приложения ИИ , такие как большие языковые модели, часто являются примерами фундаментальных моделей. [1]
Создание базовых моделей часто требует больших ресурсов, при этом самые дорогие модели обходятся в сотни миллионов долларов на оплату базовых данных и необходимых вычислений. [2] Напротив, адаптация существующей базовой модели для конкретной задачи или ее прямое использование обходится гораздо дешевле.
Ранними примерами фундаментальных моделей являются языковые модели (LM), такие как серия GPT OpenAI и BERT Google . [ 3] [4] Помимо текста, фундаментальные модели были разработаны в различных модальностях, включая DALL-E и Flamingo [5] для изображений, MusicGen [6] для музыки и RT-2 [7] для управления роботами. Фундаментальные модели также разрабатываются для таких областей, как астрономия, [8] радиология, [9] геномика, [10] музыка, [11] кодирование, [12] прогнозирование временных рядов , [13] математика, [14] и химия. [15]
Центр исследований фундаментальных моделей (CRFM) Стэнфордского института искусственного интеллекта, ориентированного на человека (HAI), ввел термин «фундаментальная модель» в августе 2021 года [16] для обозначения «любой модели, которая обучается на широких данных (обычно с использованием самоконтроля в масштабе), которая может быть адаптирована (например, точно настроена) для широкого спектра последующих задач». [17] Это было основано на их наблюдении, что уже существующие термины, хотя и перекрывались, были неадекватными, заявив, что « (большая) языковая модель » была слишком узка, учитывая, что [в центре] внимания находится не только язык; «самоконтролируемая модель» была слишком специфична для цели обучения; а «предварительно обученная модель» предполагала, что все заслуживающие внимания действия произошли после «предварительного обучения». [18] Термин «фундаментальная модель» был выбран вместо «фундаментальной модели» [19], потому что «фундаментальный» подразумевает, что эти модели предоставляют фундаментальные принципы таким образом, как «фундамент» этого не делает. [20]
Поскольку правительства регулируют модели фондов, появились новые юридические определения.
Определения США единственные, которые ссылаются на размер базовой модели, и отличаются по величине. Определение Бейера и Эшу также указывает, что базовые модели должны достичь уровня производительности, чтобы быть потенциально опасными. Напротив, определение ЕС требует, чтобы модель была разработана для общности выходных данных. Все определения сходятся в том, что базовые модели должны обучаться на широком диапазоне данных с потенциальными приложениями во многих областях.
Технологически, фундаментальные модели строятся с использованием устоявшихся методов машинного обучения, таких как глубокие нейронные сети , трансферное обучение и самоконтролируемое обучение . Фундаментальные модели отличаются от предыдущих методов тем, что они являются моделями общего назначения, функционирующими как повторно используемая инфраструктура, а не индивидуальными и одноразовыми моделями для конкретных задач.
Достижения в области компьютерного параллелизма (например, графические процессоры CUDA ) и новые разработки в архитектуре нейронных сетей (например, Transformers ), а также более широкое использование данных для обучения с минимальным контролем — все это способствовало росту фундаментальных моделей. Фундаментальные модели начали материализоваться как последняя волна моделей глубокого обучения в конце 2010-х годов. [23] По сравнению с большинством предыдущих работ по глубокому обучению эти языковые модели продемонстрировали потенциал обучения на гораздо больших наборах данных из веб-источников с использованием самоконтролируемых целей (например, предсказание следующего слова в большом корпусе текста). Эти подходы, которые опираются на более ранние работы, такие как word2vec и GloVe , отклонились от предыдущих контролируемых подходов, которые требовали аннотированных данных (например, краудсорсинговых меток).
Выпуски Stable Diffusion и ChatGPT в 2022 году (изначально работавшие на основе модели GPT-3.5) привели к тому, что модели фундамента и генеративный ИИ вошли в широкий публичный дискурс. Кроме того, выпуски LLaMA , Llama 2 и Mistral в 2023 году способствовали большему акценту на том, как выпускаются модели фундамента, а открытые модели фундамента получили большую поддержку [24] и пристальное внимание. [25]
Некоторые высокоразвитые модели фундамента называются «пограничными моделями», которые потенциально могут «обладать опасными возможностями, достаточными для того, чтобы представлять серьезную угрозу общественной безопасности». [26] Эти «опасные возможности» возникают из-за случайного или преднамеренного неправильного использования таких моделей, что в сочетании с их мощной природой может привести к серьезному вреду. Поскольку модели фундамента продолжают совершенствоваться, некоторые исследователи ИИ предполагают, что почти все модели фундамента следующего поколения будут считаться пограничными моделями.
Поскольку концепция опасных возможностей по своей сути субъективна, не существует строгого обозначения того, какие модели фундамента считаются пограничными моделями. Однако некоторые общепринятые идеи относительно достаточно опасных возможностей включают:
Из-за уникальных возможностей пограничных моделей сложно эффективно регулировать их разработку и развертывание. Из-за их эмерджентной природы новые опасные возможности могут появляться сами по себе в пограничных моделях, как на этапе разработки, так и после развертывания. [26] Кроме того, поскольку пограничные модели продолжают адаптироваться после развертывания, по-прежнему сложно смягчить весь вред, который возникает из-за уже развернутых моделей. Если пограничная модель оказывается с открытым исходным кодом или выкладывается в сеть, она также может быстро распространяться, еще больше затрудняя работу регулирующих органов, создавая отсутствие подотчетности.
В связи с их адаптивностью к широкому спектру вариантов использования, базовые модели иногда считаются примерами универсального ИИ. При разработке Закона ЕС об ИИ Европейский парламент заявил, что новая волна универсальных технологий ИИ формирует общую экосистему ИИ. [31] Более полная структура экосистемы, в дополнение к свойствам конкретных универсальных систем ИИ, влияет на разработку политики и исследований в области ИИ. [32] Универсальные системы ИИ также часто появляются в повседневной жизни людей через приложения и инструменты, такие как ChatGPT или DALL-E .
Правительственные учреждения, такие как парламент ЕС, определили регулирование ИИ общего назначения, например, фундаментальные модели, как высокоприоритетную задачу. Системы ИИ общего назначения часто характеризуются большим размером, непрозрачностью и потенциалом для возникновения, все из которых могут создавать непреднамеренный вред. Такие системы также сильно влияют на последующие приложения, что еще больше усугубляет необходимость регулирования. Что касается важного законодательства, ряд заинтересованных сторон настаивали на том, чтобы Закон ЕС об ИИ включал ограничения на системы ИИ общего назначения, все из которых также будут применяться к фундаментальным моделям.
Для того, чтобы фундаментальная модель эффективно обобщала, она должна получить богатые представления обучающих данных. В результате, выразительные архитектуры моделей, которые эффективно обрабатывают крупномасштабные данные, часто являются предпочтительными при построении фундаментальных моделей. [17] В настоящее время архитектура Transformer является фактическим выбором для построения фундаментальных моделей в диапазоне модальностей. [33]
Базовые модели строятся путем оптимизации цели(ей) обучения, которая является математической функцией, определяющей, как параметры модели обновляются на основе прогнозов модели на данных обучения. [34] Языковые модели часто обучаются с целью прогнозирования следующих токенов, которая относится к степени, в которой модель способна предсказать следующий токен в последовательности. Модели изображений обычно обучаются с помощью целей контрастного обучения или диффузионного обучения. Для контрастного обучения изображения случайным образом дополняются перед оценкой на основе полученного сходства представлений модели. Для диффузионных моделей изображения зашумляются, и модель учится постепенно устранять шум с помощью цели. Существуют также мультимодальные цели обучения, при этом некоторые разделяют изображения и текст во время обучения, в то время как другие изучают их одновременно. [35] В целом, цели обучения для базовых моделей способствуют обучению широко полезным представлениям данных.
С ростом числа моделей фундамента и более крупных наборов данных, которые их поддерживают, цель обучения должна иметь возможность анализировать данные в масштабе Интернета для значимых точек данных. Кроме того, поскольку модели фундамента предназначены для решения общего спектра задач, цели обучения должны быть полными для домена или способны решать широкий набор возможностей нижестоящего уровня в пределах заданного домена. Наконец, цели обучения модели фундамента должны стремиться к хорошему масштабированию и быть вычислительно эффективными. Поскольку размер модели и вычислительная мощность являются соответствующими ограничениями, цель обучения должна иметь возможность преодолевать такие узкие места.
Модели Foundation обучаются на большом количестве данных, работая по принципу «чем больше данных, тем лучше». [36] Оценка производительности показывает, что больше данных, как правило, приводит к лучшей производительности, но по мере роста количества данных возникают и другие проблемы. Такие задачи, как управление набором данных, интеграция данных в новые приложения, обеспечение соблюдения лицензий на данные и поддержание качества данных, становятся все более сложными по мере роста размера данных. Конкретные требования моделей Foundation только усугубили такие проблемы, поскольку для больших моделей Foundation по-прежнему нормой остается использование общедоступных данных, полученных из веб-браузеров. Модели Foundation также включают данные поисковых систем и данные метатегов SEO. Публичные веб-данные остаются обильным ресурсом, но они также требуют строгой модерации и обработки данных от разработчиков моделей Foundation, прежде чем они смогут быть успешно интегрированы в конвейер обучения. [37]
Обучение моделей фундамента часто сопряжено с риском нарушения конфиденциальности пользователя, поскольку личные данные могут быть раскрыты, собраны или использованы способами, выходящими за рамки заявленной области. Даже если не происходит утечки личных данных, модели все равно могут непреднамеренно поставить под угрозу безопасность посредством изученного поведения в полученной модели фундамента. [38] Качество данных является еще одним ключевым моментом, поскольку данные, полученные из веб-скрапа, часто содержат предвзятый, дублирующий и токсичный материал. После развертывания моделей фундамента обеспечение высокого качества данных по-прежнему остается проблемой, поскольку нежелательное поведение все еще может возникать из небольших подмножеств данных.
Размер фундаментальных моделей также вызывает проблемы с компьютерными системами, на которых они работают. Средняя фундаментальная модель слишком велика для запуска в памяти одного ускорителя, а начальный процесс обучения требует дорогостоящего количества ресурсов. [39] Прогнозируется, что такие проблемы еще больше обострятся в будущем, поскольку фундаментальные модели вырастут до новых высот. Из-за этого ограничения исследователи начали изучать возможность сжатия размера модели посредством жесткого вывода модели.
Графические процессоры являются наиболее распространенным выбором вычислительного оборудования для машинного обучения из-за большого объема памяти и высокой мощности. Типичное обучение базовой модели требует множества графических процессоров, все из которых подключены параллельно с помощью быстрых межсоединений. Приобретение достаточного количества графических процессоров с необходимой вычислительной эффективностью является проблемой для многих разработчиков базовой модели, что привело к растущей дилемме в этой области. Более крупные модели требуют большей вычислительной мощности, но часто за счет повышения вычислительной эффективности. Поскольку обучение остается трудоемким и дорогим, компромисс между вычислительной мощностью и вычислительной эффективностью привел к тому, что лишь немногие избранные компании смогли позволить себе производственные затраты на большие современные базовые модели. Некоторые методы, такие как сжатие и дистилляция, могут сделать вывод более доступным, но они не могут полностью устранить этот недостаток.
Точность и возможности базовых моделей часто масштабируются предсказуемо с размером модели и объемом обучающих данных. В частности, были обнаружены законы масштабирования, которые являются эмпирическими тенденциями на основе данных, связывающими ресурсы (данные, размер модели, использование вычислений) с возможностями модели. В частности, масштаб модели определяется вычислением, размером набора данных и количеством параметров, все из которых демонстрируют степенную зависимость с конечной производительностью.
Однако были обнаружены нарушенные законы масштабирования [40] , в которых эта связь плавно переходит (в точках, называемых разрывом(ами) ) от степенного закона с одним показателем к степенному закону с другим (иным) показателем. Если не собирать никаких точек вблизи (или после) разрыва(ов), может быть сложно получить точную экстраполяцию.
Модели Foundation по своей сути многоцелевые: для использования этих моделей в определенном случае использования требуется некоторая форма адаптации. Как минимум, модели должны быть адаптированы для выполнения интересующей задачи (спецификация задачи), но часто более высокой производительности можно добиться путем более обширной адаптации к интересующей области (специализация области).
Различные методы (например , подсказки , контекстное обучение , тонкая настройка , LoRA ) обеспечивают различные компромиссы между затратами на адаптацию и степенью специализации моделей. Некоторые основные аспекты, которые следует учитывать при адаптации базовой модели, — это бюджет вычислений и доступность данных. Базовые модели могут быть очень большими, до триллионов параметров по размеру, поэтому адаптация всей базовой модели может быть вычислительно затратной. Поэтому разработчики иногда адаптируют только последний нейронный слой или только векторы смещения, чтобы сэкономить время и пространство. [41] Для особо узкоспециализированных приложений определенные данные также могут быть недоступны для достаточной адаптации базовой модели. В таких обстоятельствах данные должны быть вручную размечены, что является дорогостоящим и может потребовать экспертных знаний.
Оценка является ключевой частью разработки базовых моделей. Оценка не только позволяет отслеживать прогресс высокопроизводительных моделей, но и создает ориентиры для будущей разработки моделей. Заинтересованные стороны полагаются на оценки, чтобы понять поведение моделей и получить представление об их различных атрибутах. Традиционно базовые модели оцениваются относительно друг друга с помощью стандартизированных контрольных показателей, таких как MMLU , [42] MMMU, [43] HumanEval, [44] и GSM8K. [45] Учитывая, что базовые модели являются многоцелевыми, все чаще разрабатываются мета-контрольные показатели, которые объединяют различные базовые контрольные показатели. Примерами являются LM-Harness, [46] BIG-Bench, [47] HELM, [48] OpenLLM Leaderboard, [49] DecodingTrust, [50] и HEIM. [51]
Поскольку полезность моделей фундамента зависит от их собственных общих возможностей и производительности тонко настроенных приложений, оценка должна охватывать обе метрики. Правильная оценка изучает как нисходящие приложения модели фундамента в совокупности, так и прямые свойства, которые содержит модель фундамента. Для обеспечения дальнейшего равенства при оценке некоторые существующие оценочные структуры учитывают все ресурсы адаптации, что приводит к более обоснованному анализу на благо всех заинтересованных сторон. [52]
Общие возможности моделей Foundation позволяют им выполнять уникальную роль в экосистеме ИИ, [53] подпитываемую многими восходящими и нисходящими технологиями. [1] Обучение модели Foundation требует нескольких ресурсов (например, данных, вычислений, рабочей силы, оборудования, кода), при этом модели Foundation часто включают огромные объемы данных и вычислений (также называемые вычислительной мощностью). Из-за больших затрат на разработку моделей Foundation и недорогих требований к адаптации ландшафт ИИ сместился в сторону небольшого подмножества компаний ИИ, создающих модели Foundation для адаптации Downstream. [54] Таким образом, большинство компаний, разрабатывающих модели Foundation, передают этот шаг на аутсорсинг специализированным поставщикам данных (например, Scale AI, [55] Surge [56] ) и поставщикам вычислений (например, Amazon Web Services , Google Cloud , Microsoft Azure ).
Затем сам разработчик базовой модели возьмет данные и использует предоставленные вычисления для фактического обучения базовой модели. После того, как базовая модель будет полностью построена, большая часть данных и требований к рабочей силе снизится. В этом процессе разработки оборудование и вычисления являются наиболее необходимыми, а также наиболее эксклюзивными ресурсами. Для обучения более крупного и сложного ИИ ключевым является достаточный объем вычислений. Однако вычисления консолидированы в руках нескольких избранных субъектов, от которых зависит большинство разработчиков базовой модели. Таким образом, конвейер базовой модели в значительной степени сконцентрирован вокруг этих поставщиков. Вычисления также являются дорогостоящими; в 2023 году компании ИИ потратили более 80% от общего капитала на вычислительные ресурсы. [58]
Модели фундамента требуют большого количества общих данных для обеспечения своих возможностей. Ранние модели фундамента собирали данные из подмножеств интернета, чтобы предоставить эту информацию. По мере роста размера и сферы охвата моделей фундамента становится необходимым все большее количество сбора данных из интернета, что приводит к более высокой вероятности предвзятых или токсичных данных. Эти токсичные или предвзятые данные могут непропорционально навредить маргинализированным группам и усугубить существующие предрассудки. [59]
Чтобы решить эту проблему с некачественными данными, возникшую при неконтролируемом обучении, некоторые разработчики фундаментальных моделей обратились к ручной фильтрации. Эта практика, известная как работа с данными, имеет свой собственный набор проблем. [60] Такая ручная детоксикация данных часто передается на аутсорсинг для снижения затрат на рабочую силу, при этом некоторые работники зарабатывают менее 2 долларов в час. [61]
Затем базовая модель будет размещена в сети либо через разработчика, либо через внешнюю организацию. После выпуска другие стороны могут создавать приложения на основе базовой модели, будь то путем тонкой настройки или совершенно новых целей. Затем люди могут получить доступ к этим приложениям для обслуживания своих различных средств, позволяя одной базовой модели работать и охватывать широкую аудиторию.
После того, как фундаментальная модель создана, ее можно выпустить одним из многих способов. Выпуск имеет много аспектов: сам актив, кто имеет доступ, как доступ меняется со временем и условия использования. [62] Все эти факторы влияют на то, как фундаментальная модель повлияет на последующие приложения. [63] В частности, две наиболее распространенные формы выпуска фундаментальной модели — через API и прямые загрузки моделей.
Когда модель выпускается через API , пользователи могут запрашивать модель и получать ответы, но не могут напрямую получить доступ к самой модели. Для сравнения, модель может быть напрямую загружена пользователями для доступа и изменения. Обе стратегии выпуска часто классифицируются как открытый выпуск. Точное определение открытого выпуска оспаривается, но общепринятые требования предоставляются Open Source Initiative .
Некоторые модели открытого фундамента: PaLM 2 , Llama 2 , Granite и Mistral . Хотя модели открытого фундамента могут способствовать дальнейшему исследованию и разработке более легко, они также более подвержены неправильному использованию. Модели открытого фундамента может загрузить любой, и особенно мощные модели могут быть настроены на преднамеренное или непреднамеренное причинение вреда.
Во время закрытого выпуска базовая модель не может быть доступна общественности, но используется внутри организации. Такие выпуски считаются более безопасными, но не несут никакой дополнительной ценности для исследовательского сообщества или общественности в целом.
Некоторые базовые модели, такие как Flamingo от Google DeepMind [64] , полностью закрыты, то есть они доступны только разработчику модели; другие, такие как GPT-4 от OpenAI , имеют ограниченный доступ и доступны публике, но только в виде черного ящика ; а третьи, такие как Llama 2 от Meta , открыты, с общедоступными весами моделей, что позволяет вносить изменения и проводить проверку на последующих этапах.