Метод машинного обучения
Смесь экспертов ( MoE ) — это метод машинного обучения , в котором несколько экспертных сетей (обучающихся) используются для разделения проблемного пространства на однородные области. [1] Он отличается от ансамблевых методов тем, что в MoE обычно для каждого входа запускается только одна или несколько экспертных моделей, тогда как в ансамблевых методах все модели запускаются для каждого входа.
Основная теория
MoE всегда имеет следующие компоненты, но они реализованы и объединены по-разному в зависимости от решаемой задачи:
- Эксперты , каждый из которых принимает одни и те же входные данные и выдает выходные данные .
- Весовая функция (также известная как функция пропускания) , которая принимает входные данные и создает вектор выходных данных .
- — это набор параметров. Параметр — для весовой функции.
- При наличии входных данных смесь экспертов создает единый выходной сигнал, комбинируя его в соответствии с весами определенным образом.
И эксперты, и функция веса обучаются путем минимизации некоторой функции потерь , как правило, с помощью градиентного спуска . Существует большая свобода в выборе точной формы экспертов, функции веса и функции потерь.
Сеть Мета-Пи
Сеть meta-pi , о которой сообщают Хэмпшир и Вайбель, [2] использует в качестве выходных данных. Модель обучается путем выполнения градиентного спуска по среднеквадратичной ошибке потерь . Эксперты могут быть произвольными функциями.
В своей оригинальной публикации они решали задачу классификации фонем в речевом сигнале от 6 разных японских дикторов, 2 женщин и 4 мужчин. Они обучили 6 экспертов, каждый из которых был «нейронной сетью с задержкой по времени» [3] (по сути, многослойной сверточной сетью над спектрограммой mel ). Они обнаружили, что полученная смесь экспертов выделила 5 экспертов для 5 дикторов, но у 6-го (мужчины) диктора нет выделенного эксперта, вместо этого его голос был классифицирован линейной комбинацией экспертов для остальных 3 дикторов-мужчин.
Адаптивные смеси местных экспертов
Адаптивные смеси локальных экспертов [4] [5] используют модель гауссовой смеси . Каждый эксперт просто предсказывает гауссово распределение и полностью игнорирует входные данные. В частности, -й эксперт предсказывает, что выход будет , где - обучаемый параметр. Весовая функция - это линейно-мягкая макс-функция: Смесь экспертов предсказывает, что выход будет распределен в соответствии с функцией плотности вероятности: Она обучается с помощью оценки максимального правдоподобия, то есть градиентного подъема по . Градиент для -го эксперта равен
а градиент для весовой функции равен
Для каждой пары вход-выход весовая функция изменяется, чтобы увеличить вес всех экспертов, которые показали результаты выше среднего, и уменьшить вес всех экспертов, которые показали результаты ниже среднего. Это побуждает весовую функцию учиться выбирать только тех экспертов, которые делают правильные прогнозы для каждого входа.
-й эксперт изменяется, чтобы приблизить свой прогноз к , но величина изменения пропорциональна . Это имеет байесовскую интерпретацию. При заданных входных данных априорная вероятность того, что эксперт прав, равна , а — вероятность доказательства . Таким образом, — апостериорная вероятность для эксперта , и поэтому скорость изменения для -го эксперта пропорциональна его апостериорной вероятности.
Другими словами, эксперты, которые, оглядываясь назад, кажутся хорошими экспертами для консультаций, должны учиться на примере. Эксперты, которые, оглядываясь назад, таковыми не являются, остаются в покое.
Совместный эффект заключается в том, что эксперты становятся специализированными: предположим, что два эксперта оба хороши в прогнозировании определенного типа входных данных, но один немного лучше, тогда весовая функция в конечном итоге научится отдавать предпочтение лучшему. После того, как это произойдет, меньший эксперт не сможет получить сигнал с высоким градиентом и станет еще хуже в прогнозировании такого типа входных данных. И наоборот, меньший эксперт может стать лучше в прогнозировании других типов входных данных и все больше отходить в другую область. Это имеет положительный эффект обратной связи, заставляя каждого эксперта отстраняться от остальных и заботиться о локальной области в одиночку (отсюда и название « локальные эксперты»).
Иерархический МО
Иерархические смеси экспертов [6] [7] используют несколько уровней стробирования в дереве. Каждое стробирование представляет собой распределение вероятностей по следующему уровню стробирования, а эксперты находятся на конечных узлах дерева. Они похожи на деревья решений .
Например, иерархический MoE с двумя уровнями будет иметь функцию стробирования первого порядка , а также функции стробирования второго порядка и экспертов . Тогда общее предсказание будет .
Варианты
Смесь экспертов, будучи похожей на модель гауссовой смеси, также может быть обучена алгоритмом максимизации ожидания, как и модели гауссовой смеси . В частности, на этапе ожидания «бремя» для объяснения каждой точки данных назначается экспертам, а на этапе максимизации эксперты обучаются улучшать объяснения, для которых они получили высокую нагрузку, в то время как шлюз обучается улучшать свое назначение нагрузки. Это может сходиться быстрее, чем градиентное восхождение на логарифмическом правдоподобии. [7] [8]
Выбор функции стробирования часто softmax. Кроме этого, стробирование может использовать гауссовские распределения [9] и экспоненциальные семейства . [8]
Вместо выполнения взвешенной суммы всех экспертов в жестком MoE [10] выбирается только эксперт с наивысшим рейтингом. То есть, . Это может ускорить время обучения и вывода. [11]
Эксперты могут использовать более общие формы многовариантных гауссовых распределений. Например, [6] предложил , где — изучаемые параметры. На словах, каждый эксперт учится делать линейную регрессию с изучаемой оценкой неопределенности.
Можно использовать других экспертов, нежели гауссовские распределения. Например, можно использовать распределение Лапласа , [12] или t-распределение Стьюдента . [13] Для бинарной классификации также были предложены эксперты по логистической регрессии , где — изучаемые параметры. Это позже обобщается для многоклассовой классификации с экспертами по мультиномиальной логистической регрессии . [14]
В одной статье предлагалась смесь softmax для авторегрессионного моделирования языка. [15] В частности, рассмотрим языковую модель, которая, учитывая предыдущий текст , предсказывает следующее слово . Сеть кодирует текст в вектор и предсказывает распределение вероятностей следующего слова как для матрицы встраивания . В смеси softmax модель выводит несколько векторов и предсказывает следующее слово как , где — распределение вероятностей с помощью линейной операции softmax на активациях скрытых нейронов в модели. В оригинальной статье была продемонстрирована ее эффективность для рекуррентных нейронных сетей . Позже было обнаружено, что это работает и для Transformers. [16]
Глубокое обучение
В предыдущем разделе описывалось, как MoE использовался до эпохи глубокого обучения . После глубокого обучения MoE нашел применение в запуске самых больших моделей, как простой способ выполнения условных вычислений : используются только части модели, части выбираются в соответствии с тем, что является входными данными. [17]
Самая ранняя статья, в которой MoE применяется к глубокому обучению, датируется 2013 годом [18] , в которой предлагалось использовать разные сети гейтинга на каждом слое глубокой нейронной сети. В частности, каждое гейтинг представляет собой линейную сеть ReLU-linear-softmax, а каждый эксперт представляет собой линейную сеть ReLU. Поскольку выход гейтинга не является разреженным , необходимы все экспертные выходы, и никакие условные вычисления не выполняются.
Ключевым требованием к дизайну MoE в глубоком обучении является снижение стоимости вычислений. Следовательно, для каждого запроса следует опрашивать только небольшое подмножество экспертов. Это отличает MoE в глубоком обучении от классического MoE. В классическом MoE вывод для каждого запроса представляет собой взвешенную сумму выводов всех экспертов. В MoE в глубоком обучении вывод для каждого запроса может включать только несколько выводов экспертов. Следовательно, ключевым выбором дизайна в MoE становится маршрутизация: учитывая пакет запросов, как направить запросы лучшим экспертам.
Слой MoE с редкими воротами
Слой MoE с редкими гейтами [19], опубликованный исследователями из Google Brain , использует сети прямой связи в качестве экспертов и линейно-мягкое гейтирование. Подобно ранее предложенному жесткому MoE, они достигают разреженности с помощью взвешенной суммы только k лучших экспертов вместо взвешенной суммы всех из них. В частности, в слое MoE есть сети прямой связи и гейтирующая сеть . Гейтирующая сеть определяется как , где — функция, которая сохраняет k лучших записей вектора неизменными, но устанавливает все остальные записи в . Добавление шума помогает с балансировкой нагрузки.
Выбор является гиперпараметром, который выбирается в соответствии с применением. Типичные значения . Версия также называется Switch Transformer. Оригинальный Switch Transformer был применен к языковой модели T5 . [20]
В качестве демонстрации они обучили ряд моделей машинного перевода с чередующимися слоями MoE и LSTM и сравнили их с глубокими моделями LSTM. [21] Таблица 3 показывает, что модели MoE использовали меньше времени для вычисления вывода, несмотря на то, что имели в 30 раз больше параметров.
У ванильных MoE, как правило, есть проблемы с балансировкой нагрузки: к некоторым экспертам обращаются часто, а к другим редко или вообще не обращаются. Чтобы побудить шлюз выбирать каждого эксперта с одинаковой частотой (правильная балансировка нагрузки) в каждом пакете, каждый слой MoE имеет две вспомогательные функции потерь. Это улучшено в [20] в одну вспомогательную функцию потерь. В частности, пусть будет числом экспертов, тогда для данного пакета запросов вспомогательные потери для пакета будут Здесь, это доля времени, когда эксперт имеет наивысший рейтинг, и это доля веса на эксперте . Эта потеря минимизируется при , именно тогда, когда каждый эксперт имеет одинаковый вес во всех ситуациях.
Маршрутизация
В MoE с редкими гейтами опрашиваются только эксперты top-k, и их результаты взвешиваются и суммируются. Существуют и другие методы. [22]
В Hash MoE [23] маршрутизация выполняется детерминированно с помощью хэш-функции, зафиксированной до начала обучения. Например, если модель представляет собой 4-слойный Transformer, а входные данные представляют собой токен для слова "eat", а хэш "eat" равен , то токен будет направлен 1-му эксперту в слое 1, 4-му эксперту в слое 2 и т. д. Несмотря на свою простоту, он достигает конкурентоспособной производительности как слабо гейтируемый MoE с .
В мягком MoE, предположим, что в каждой партии каждый эксперт может обрабатывать запросы, тогда есть запросы, которые могут быть назначены на партию. Теперь для каждой партии запросов мягкий слой MoE вычисляет массив , такой что является распределением вероятностей по запросам, а -й запрос эксперта равен . [24] Однако это не работает с авторегрессионным моделированием, поскольку веса по одному токену зависят от всех других токенов. [25]
Другие подходы включают решение этой задачи как задачи ограниченного линейного программирования , [26] заставляя каждого эксперта выбирать нужные ему топ-k запросов (вместо того, чтобы каждый запрос выбирал для себя топ-k экспертов), [27] используя обучение с подкреплением для обучения алгоритма маршрутизации (поскольку выбор эксперта является дискретным действием, как в обучении с подкреплением), [28] и т. д.
Коэффициент мощности
Предположим, что в слое есть эксперты. Для заданного пакета запросов каждый запрос направляется одному или нескольким экспертам. Например, если каждый запрос направляется одному эксперту, как в Switch Transformers, и если эксперты сбалансированы по нагрузке, то каждый эксперт должен ожидать в среднем запросов в пакете. На практике эксперты не могут ожидать идеальной балансировки нагрузки: в некоторых пакетах один эксперт может быть недогружен, в то время как в других пакетах он будет перегружен.
Поскольку входные данные не могут перемещаться по слою, пока каждый эксперт в слое не закончит запросы, которые ему назначены, балансировка нагрузки важна. В качестве жесткого ограничения балансировки нагрузки существует фактор емкости : каждому эксперту разрешено обрабатывать только до запросов в пакете. [22] обнаружено , что работает на практике.
Применение к моделям трансформаторов
Слои MoE используются в самых больших моделях трансформаторов , для которых обучение и вывод по полной модели слишком затратны. Обычно они разреженно-закрытые, с разреженностью 1 или 2. В моделях Transformer слои MoE часто используются для выбора слоев прямой связи (обычно линейной сети ReLU), появляющихся в каждом блоке Transformer после многоголового внимания. Это связано с тем, что слои прямой связи занимают все большую часть вычислительных затрат по мере увеличения моделей. Например, в модели Palm-540B 90% параметров находятся в слоях прямой связи. [29]
Обученный Transformer может быть преобразован в MoE путем дублирования его слоев прямой связи с произвольно инициализированным стробированием, а затем обучения дальше. Это метод, называемый «разреженным апциклированием». [30]
В Transformer MoE задействовано большое количество вариантов дизайна, которые влияют на стабильность обучения и конечную производительность. Отчет OLMoE описывает их довольно подробно. [31]
По состоянию на 2023 год [update]модели, достаточно большие для использования MoE, как правило, являются большими языковыми моделями , где каждый эксперт имеет порядка 10 миллиардов параметров. Помимо языковых моделей, Vision MoE [32] представляет собой модель Transformer со слоями MoE. Они продемонстрировали это, обучив модель с 15 миллиардами параметров. MoE Transformer также применялся для диффузионных моделей . [33]
Серия больших языковых моделей от Google использовала MoE. GShard [34] использует MoE с топ-2 экспертами на слой. В частности, всегда выбирается топ-1 эксперт, а топ-2 эксперт выбирается с вероятностью, пропорциональной весу этого эксперта в соответствии с функцией пропускания. Позже GLaM [35] продемонстрировал языковую модель с 1,2 триллионами параметров, каждый слой MoE использует топ-2 из 64 экспертов. Switch Transformers [20] используют топ-1 во всех слоях MoE.
NLLB-200 от Meta AI — это модель машинного перевода для 200 языков. [36] Каждый уровень MoE использует иерархический MoE с двумя уровнями. На первом уровне функция стробирования выбирает использование «общего» слоя прямой связи или использование экспертов. Если используются эксперты, то другая функция стробирования вычисляет веса и выбирает двух лучших экспертов. [37]
Большие языковые модели MoE могут быть адаптированы для последующих задач путем настройки инструкций . [38]
В декабре 2023 года Mistral AI выпустила Mixtral 8x7B под лицензией Apache 2.0. Это языковая модель MoE с 46,7B параметрами, 8 экспертами и разреженностью 2. Они также выпустили версию, настроенную для выполнения инструкций. [39] [40]
В марте 2024 года Databricks выпустили DBRX . Это языковая модель MoE с 132B параметрами, 16 экспертами и разреженностью 4. Они также выпустили версию, настроенную для выполнения инструкций. [41] [42]
Дальнейшее чтение
- До эры глубокого обучения
- McLachlan, Geoffrey J.; Peel, David (2000). Модели конечных смесей . Ряды Wiley в вероятности и статистике, прикладная вероятность и раздел статистики. Нью-Йорк, Чичестер, Вайнхайм, Брисбен, Сингапур, Торонто: John Wiley & Sons, Inc. ISBN 978-0-471-00626-8.
- Юксель, SE; Уилсон, JN; Гейдер, PD (август 2012 г.). «Двадцать лет смешения экспертов». Труды IEEE по нейронным сетям и системам обучения . 23 (8): 1177–1193. doi :10.1109/TNNLS.2012.2200299. ISSN 2162-237X. PMID 24807516. S2CID 9922492.
- Масудния, Саид; Эбрахимпур, Реза (12 мая 2012 г.). «Смесь экспертов: обзор литературы». Обзор искусственного интеллекта . 42 (2): 275–293. doi :10.1007/s10462-012-9338-y. S2CID 3185688.
- Нгуен, Хиен Д.; Чамрухи, Файсель (июль 2018 г.). «Практические и теоретические аспекты моделирования смеси экспертов: обзор». WIREs Data Mining and Knowledge Discovery . 8 (4). doi :10.1002/widm.1246. ISSN 1942-4787. S2CID 49301452.
- Практические приемы обучения моделей MoE Transformer
- Зоф, Баррет; Белло, Ирван; Кумар, Самир; Ду, Нэн; Хуан, Яньпин; Дин, Джефф; Шазир, Ноам; Федус, Уильям (2022). «ST-MoE: Разработка стабильных и переносимых разреженных экспертных моделей». arXiv : 2202.08906 [cs.CL].
- Мюннигофф, Никлас; Солдаини, Лука; Груневельд, Дирк; Ло, Кайл; Моррисон, Джейкоб; Мин, Севон; Ши, Вейцзя; Уолш, Пит; Тафьорд, Ойвинд (03 сентября 2024 г.), OLMoE: Языковые модели открытого состава экспертов , arXiv : 2409.02060, с соответствующим выпуском данных в allenai/OLMoE, Ai2, 2024-10-17 , получено 2024-10-18
- Раджбхандари, Самьям; Ли, Цунлун; Яо, Чжэвэй; Чжан, Минцзя; Аминабади, Реза Яздани; Аван, Аммар Ахмад; Рэсли, Джефф; Хэ, Юйсюн (14 января 2022 г.). «DeepSpeed-MoE: развитие умозаключений и обучения смешанных экспертов для создания масштабов искусственного интеллекта следующего поколения». arXiv : 2201.05596 [cs.LG].
- Обзор литературы по эпохе глубокого обучения
- Fuzhao, Xue (21.07.2024). "XueFuzhao/awesome-mixture-of-experts". GitHub . Получено 21.07.2024 .
- Ватс, Арпита (2024-09-02). "arpita8/Awesome-Mixture-of-Experts-Papers". GitHub . Получено 2024-09-06 .
- Цай, Вейлин; Цзян, Цзюйонг; Ван, Фан; Тан, Цзин; Ким, Сонхун; Хуан, Цзяи (8 августа 2024 г.). «Опрос смеси экспертов». arXiv : 2407.06204 [cs.LG].
Смотрите также
Ссылки
- ^ Балдаккино, Тара; Кросс, Элизабет Дж.; Уорден, Кит; Роусон, Дженнифер (2016). «Вариационная байесовская смесь моделей экспертов и анализ чувствительности для нелинейных динамических систем». Механические системы и обработка сигналов . 66–67: 178–200. Bibcode : 2016MSSP...66..178B. doi : 10.1016/j.ymssp.2015.05.009.
- ^ Хэмпшир, Дж. Б.; Вайбель, А. (июль 1992 г.). «Сеть Meta-Pi: построение распределенных представлений знаний для надежного распознавания образов из нескольких источников» (PDF) . Труды IEEE по анализу образов и машинному интеллекту . 14 (7): 751–769. doi :10.1109/34.142911.
- ^ Александр Вайбель, Тошиюки Ханадзава, Джеффри Хинтон, Киёхиро Шикано, Кевин Дж. Лэнг (1995). "Распознавание фонем с использованием нейронных сетей с задержкой во времени*". В Chauvin, Yves; Rumelhart, David E. (ред.). Обратное распространение . Psychology Press. doi :10.4324/9780203763247. ISBN 978-0-203-76324-7.
{{cite book}}
: CS1 maint: multiple names: authors list (link) - ^ Ноулан, Стивен; Хинтон, Джеффри Э. (1990). «Оценка адаптивных смесей конкурирующих экспертов». Достижения в области нейронных систем обработки информации . 3. Морган-Кауфманн.
- ^ Jacobs, Robert A.; Jordan, Michael I.; Nowlan, Steven J.; Hinton, Geoffrey E. (февраль 1991 г.). «Адаптивные смеси локальных экспертов». Neural Computation . 3 (1): 79–87. doi :10.1162/neco.1991.3.1.79. ISSN 0899-7667. PMID 31141872. S2CID 572361.
- ^ ab Jordan, Michael; Jacobs, Robert (1991). "Иерархии адаптивных экспертов". Достижения в области нейронных систем обработки информации . 4. Morgan-Kaufmann.
- ^ ab Jordan, Michael I.; Jacobs, Robert A. (март 1994). «Иерархические смеси экспертов и алгоритм EM». Neural Computation . 6 (2): 181–214. doi :10.1162/neco.1994.6.2.181. hdl : 1721.1/7206 . ISSN 0899-7667.
- ^ ab Jordan, Michael I.; Xu, Lei (1995-01-01). "Результаты сходимости для подхода EM к архитектурам смесей экспертов". Neural Networks . 8 (9): 1409–1431. doi :10.1016/0893-6080(95)00014-3. hdl : 1721.1/6620 . ISSN 0893-6080.
- ^ Сюй, Лей; Джордан, Майкл; Хинтон, Джеффри Э. (1994). «Альтернативная модель для смесей экспертов». Достижения в области нейронных систем обработки информации . 7. MIT Press.
- ^ Коллобер, Ронан; Бенджио, Сами; Бенджио, Йошуа (2001). «Параллельная смесь SVM для очень больших масштабных задач». Достижения в области нейронных систем обработки информации . 14. MIT Press.
- ^ Гудфеллоу, Ян; Бенджио, Йошуа; Курвилль, Аарон (2016). "12: Приложения". Глубокое обучение . Адаптивные вычисления и машинное обучение. Кембридж, Массачусетс: Издательство MIT. ISBN 978-0-262-03561-3.
- ^ Нгуен, Хиен Д.; Маклахлан, Джеффри Дж. (2016-01-01). «Смесь Лапласа линейных экспертов». Вычислительная статистика и анализ данных . 93 : 177–191. doi :10.1016/j.csda.2014.10.016. ISSN 0167-9473.
- ^ Чамрухи, Ф. (2016-07-01). «Надежная смесь экспертов, моделирующая с использованием распределения Стьюдента». Нейронные сети . 79 : 20–36. arXiv : 1701.07429 . doi : 10.1016/j.neunet.2016.03.002. ISSN 0893-6080. PMID 27093693. S2CID 3171144.
- ^ Чен, К.; Сюй, Л.; Чи, Х. (1999-11-01). «Улучшенные алгоритмы обучения для смеси экспертов в многоклассовой классификации». Нейронные сети . 12 (9): 1229–1252. doi :10.1016/S0893-6080(99)00043-X. ISSN 0893-6080. PMID 12662629.
- ^ Ян, Жилин; Дай, Цзыхан; Салахутдинов, Руслан; Коэн, Уильям У. (10.11.2017). «Преодоление узкого места Softmax: высокоранговая языковая модель RNN». arXiv : 1711.03953 [cs.CL].
- ^ Наранг, Шаран; Чунг, Хён Вон; Тай, Йи; Федус, Уильям; Феври, Тибо; Матена, Майкл; Малкан, Каришма; Фидель, Ноа; Шазир, Ноам (2021-02-23). «Передаются ли модификации трансформаторов между реализациями и приложениями?». arXiv : 2102.11972 [cs.LG].
- ^ Бенджио, Йошуа; Леонард, Николас; Курвиль, Аарон (2013). «Оценка или распространение градиентов через стохастические нейроны для условных вычислений». arXiv : 1308.3432 [cs.LG].
- ^ Эйген, Дэвид; Ранзато, Марк'Аурелио; Суцкевер, Илья (2013). «Обучение факторизованных представлений в глубокой смеси экспертов». arXiv : 1312.4314 [cs.LG].
- ^ Шазир, Ноам; Мирхосейни, Азалия; Мазиаж, Кшиштоф; Дэвис, Энди; Ле, Куок; Хинтон, Джеффри; Дин, Джефф (2017). «Невероятно большие нейронные сети: слой смеси экспертов с редкими воротами». arXiv : 1701.06538 [cs.LG].
- ^ abc Федус, Уильям; Зоф, Баррет; Шазир, Ноам (01.01.2022). «Трансформаторы переключателей: масштабирование до моделей с триллионом параметров с простой и эффективной разреженностью». Журнал исследований машинного обучения . 23 (1): 5232–5270. arXiv : 2101.03961 . ISSN 1532-4435.
- ^ У, Юнхуэй; Шустер, Майк; Чэнь, Жифэн; Ле, Куок В.; Норузи, Мохаммад; Машери, Вольфганг; Крикун, Максим; Цао, Юань; Гао, Цинь; Машери, Клаус; Клингнер, Джефф; Шах, Апурва; Джонсон, Мелвин; Лю, Сяобин; Кайзер, Лукаш (2016). «Система нейронного машинного перевода Google: преодоление разрыва между человеческим и машинным переводом». arXiv : 1609.08144 [cs.CL].
- ^ аб Зоф, Баррет; Белло, Ирван; Кумар, Самир; Ду, Нэн; Хуан, Яньпин; Дин, Джефф; Шазир, Ноам; Федус, Уильям (2022). «ST-MoE: Разработка стабильных и переносимых разреженных экспертных моделей». arXiv : 2202.08906 [cs.CL].
- ^ Роллер, Стивен; Сухбаатар, Сайнбаяр; Сзлам, Артур; Уэстон, Джейсон (2021). «Хэш-слои для больших разреженных моделей». Достижения в области нейронных систем обработки информации . 34. Curran Associates: 17555–17566. arXiv : 2106.04426 .
- ^ Пучсервер, Джоан; Рикельме, Карлос; Мустафа, Базиль; Хоулсби, Нил (2023). «От разреженных к мягким смесям экспертов». arXiv : 2308.00951 [cs.LG].
- ^ Ван, Фил (2023-10-04). "lucidrains/soft-moe-pytorch". GitHub . Получено 2023-10-08 .
- ^ Льюис, Майк; Бхосале, Шрути; Деттмерс, Тим; Гойал, Наман; Цеттлемойер, Люк (01.07.2021). «Базовые слои: упрощение обучения больших разреженных моделей». Труды 38-й Международной конференции по машинному обучению . PMLR: 6265–6274. arXiv : 2103.16716 .
- ^ Чжоу, Яньци; Лей, Тао; Лю, Ханьсяо; Ду, Нэн; Хуан, Яньпин; Чжао, Винсент; Дай, Эндрю М.; Чен, Чжифэн; Ле, Куок В.; Лаудон, Джеймс (06 декабря 2022 г.). «Смесь экспертов с маршрутизацией экспертного выбора». Достижения в области нейронных систем обработки информации . 35 : 7103–7114. arXiv : 2202.09368 .
- ^ Бенжио, Эммануэль; Бэкон, Пьер-Люк; Пино, Жоэль; Прекап, Дойна (2015). «Условные вычисления в нейронных сетях для более быстрых моделей». arXiv : 1511.06297 [cs.LG].
- ^ "Transformer Deep Dive: Parameter Counting". Transformer Deep Dive: Parameter Counting . Получено 2023-10-10 .
- ^ Комацузаки, Аран; Пучсервер, Джоан; Ли-Торп, Джеймс; Руис, Карлос Рикельме; Мустафа, Бэзил; Эйнсли, Джошуа; Тай, Йи; Дегани, Мостафа; Хоулсби, Нил (17 февраля 2023 г.). «Редкий апсайклинг: обучение специалистов из густонаселенных контрольно-пропускных пунктов». arXiv : 2212.05055 [cs.LG].
- ^ Мюннигофф, Никлас; Солдаини, Лука; Груневельд, Дирк; Ло, Кайл; Моррисон, Джейкоб; Мин, Севон; Ши, Вейцзя; Уолш, Пит; Тафьорд, Ойвинд (03 сентября 2024 г.), OLMoE: Языковые модели открытого состава экспертов , arXiv : 2409.02060
- ^ Рикельме, Карлос; Пучсервер, Джоан; Мустафа, Базиль; Нойманн, Максим; Дженаттон, Родольф; Сусано Пинто, Андре; Кейзерс, Даниэль; Хоулсби, Нил (2021). «Масштабирование зрения с разреженной смесью экспертов». Достижения в области нейронных систем обработки информации . 34 : 8583–8595. arXiv : 2106.05974 .
- ^ Фэй, Чжэнцун; Фань, Минъюань; Ю, Чанцянь; Ли, Дебанг; Хуан, Цзюньши (16 июля 2024 г.). «Масштабирование диффузионных трансформаторов до 16 миллиардов параметров». arXiv : 2407.11633 [cs.CV].
- ^ Лепихин, Дмитрий; Ли, Хёкджун; Сюй, Юаньчжун; Чен, Дехао; Фират, Орхан; Хуан, Яньпин; Крикун, Максим; Шазир, Ноам; Чен, Чжифэн (2020). «GShard: масштабирование гигантских моделей с помощью условных вычислений и автоматического сегментирования». arXiv : 2006.16668 [cs.CL].
- ^ Ду, Нэн; Хуан, Яньпин; Дай, Эндрю М.; Тонг, Саймон; Лепихин Дмитрий; Сюй, Юаньчжун; Крикун, Максим; Чжоу, Яньци; Ю, Адамс Вэй; Фират, Орхан; Зоф, Баррет; Федус, Лиам; Босма, Мартен; Чжоу, Цзунвэй; Ван, Тао (2021). «GLaM: эффективное масштабирование языковых моделей с участием специалистов». arXiv : 2112.06905 [cs.CL].
- ^ «200 языков в одной модели ИИ: прорыв в высококачественном машинном переводе». ai.facebook.com . 2022-06-19. Архивировано из оригинала 2023-01-09.
- ^ Команда NLLB; Коста-Жусса, Марта Р.; Кросс, Джеймс; Челеби, Онур; Эльбаяд, Маха; Хифилд, Кеннет; Хеффернан, Кевин; Калбасси, Элахе; Лам, Дженис; Лихт, Даниэль; Майяр, Жан; Сан, Анна; Ванг, Скайлер; Вензек, Гийом; Янгблад, Эл (2022). «Ни один язык не останется без внимания: масштабирование машинного перевода, ориентированного на человека». arXiv : 2207.04672 [cs.CL].
- ^ Шен, Шэн; Хоу, Ле; Чжоу, Яньци; Ду, Нэн; Лонгпре, Шейн; Вэй, Джейсон; Чунг, Хён Вон; Зоф, Баррет; Федус, Уильям; Чен, Синьюнь; Ву, Ту; Ву, Юэсинь; Чен, Уян; Вебсон, Альберт; Ли, Юньсюань (2023 г.). «Сочетание экспертов и настройка инструкций: выигрышная комбинация для больших языковых моделей». arXiv : 2305.14705 [cs.CL].
- ^ AI, Mistral (11.12.2023). «Смешанный состав экспертов». mistral.ai . Получено 04.02.2024 .
- ^ Цзян, Альберт К.; Саблероль, Александр; Ру, Антуан; Менш, Артур; Савари, Бланш; Бэмфорд, Крис; Чаплот, Девендра Сингх; Касас, Диего де лас; Ханна, Эмма Боу (08 января 2024 г.). «Микстраль Экспертов». arXiv : 2401.04088 [cs.LG].
- ^ "Представляем DBRX: новый современный открытый LLM". Databricks . 2024-03-27 . Получено 2024-03-28 .
- ^ Найт, Уилл. «Внутри создания самой мощной в мире модели ИИ с открытым исходным кодом». Wired . ISSN 1059-1028 . Получено 28.03.2024 .