Mistral AI — французская компания, специализирующаяся на продуктах искусственного интеллекта (ИИ). Основанная в апреле 2023 года бывшими сотрудниками Meta Platforms и Google DeepMind [1] , компания быстро добилась известности в секторе ИИ.
Компания фокусируется на создании больших языковых моделей с открытым исходным кодом , [2] подчеркивая основополагающую важность свободного и открытого программного обеспечения и позиционируя себя как альтернативу проприетарным моделям. [3]
В октябре 2023 года Mistral AI привлекла 385 миллионов евро. [4] К декабрю 2023 года ее стоимость превысила 2 миллиарда долларов. [5] [6] [7]
В июне 2024 года Mistral AI объявила о новом раунде финансирования в размере 600 миллионов евро (645 миллионов долларов США), что значительно увеличило ее оценку до 5,8 миллиардов евро (6,2 миллиарда долларов США). [8] Этот раунд был проведен венчурной компанией General Catalyst при участии существующих инвесторов. [9]
Mistral AI опубликовал три модели с открытым исходным кодом, доступные в качестве весов. [10] Кроме того, еще три модели — Small, Medium и Large — доступны только через API. [11] [12]
По оценкам , компания занимает четвертое место в глобальной гонке ИИ и первое место за пределами залива Сан-Франциско , опережая нескольких своих коллег, таких как Cohere , Hugging Face , Inflection , Perplexity и Together. [13] Mistral AI стремится «демократизировать» ИИ, сосредоточившись на инновациях с открытым исходным кодом. [14]
Компания Mistral AI была основана в апреле 2023 года Артуром Меншем, Гийомом Ламплем и Тимоти Лакруа. [ необходима цитата ]
До того, как стать соучредителем Mistral AI, Артур Менш работал в Google DeepMind , лаборатории искусственного интеллекта Google, а Гийом Лампле и Тимоти Лакруа работали в Meta Platforms . [15] Соучредители познакомились, будучи студентами Политехнической школы . Mistral назван в честь сильного ветра , который дует во Франции. [16]
В июне 2023 года стартап провел первый сбор средств в размере €105 млн ($117 млн) с инвесторами, включая американский фонд Lightspeed Venture Partners , Эрика Шмидта , Ксавье Ниля и JCDecaux . Оценка стоимости тогда оценивается Financial Times в €240 млн ($267 млн).
27 сентября 2023 года компания сделала свою модель языковой обработки «Mistral 7B» доступной по бесплатной лицензии Apache 2.0 . Эта модель имеет 7 миллиардов параметров, что является небольшим размером по сравнению с ее конкурентами.
10 декабря 2023 года Mistral AI объявила, что привлекла €385 млн ($428 млн) в рамках своего второго сбора средств. В этом раунде финансирования, в частности, участвуют калифорнийский фонд Andreessen Horowitz , BNP Paribas и издатель программного обеспечения Salesforce . [17]
11 декабря 2023 года компания выпустила модель Mixtral 8x7B с 46,7 миллиардами параметров, но использующую только 12,9 миллиарда на токен благодаря архитектуре «смешанные эксперты» . Модель владеет 5 языками (французский, испанский, итальянский, английский и немецкий) и превосходит, согласно тестам разработчиков, модель «LLama 2 70B» от Meta . Также предлагается версия, обученная следовать инструкциям и называемая «Mixtral 8x7B Instruct». [18]
26 февраля 2024 года Microsoft объявила о новом партнерстве с компанией с целью расширения своего присутствия в быстро развивающейся отрасли искусственного интеллекта . В рамках соглашения богатые языковые модели Mistral будут доступны в облаке Microsoft Azure , а многоязычный разговорный помощник «Le Chat» будет запущен в стиле ChatGPT . [19]
10 апреля 2024 года компания выпустила смесь экспертных моделей Mixtral 8x22B, демонстрирующую высокую производительность в различных тестах по сравнению с другими открытыми моделями. [ необходима цитата ]
16 апреля 2024 года в отчетах говорилось, что Mistral ведет переговоры о привлечении 500 миллионов евро, что позволит увеличить ее текущую стоимость более чем вдвое и составить не менее 5 миллиардов евро. [20]
Mistral 7B — это модель языка параметров 7.3B, использующая архитектуру transformers. Официально выпущена 27 сентября 2023 года через magnet-ссылку BitTorrent [21] и Hugging Face . [22] Модель выпущена под лицензией Apache 2.0 . В сообщении в блоге о выпуске утверждается, что модель превосходит LLaMA 2 13B по всем протестированным тестам и находится на одном уровне с LLaMA 34B по многим протестированным тестам. [23]
Mistral 7B использует внимание с групповым запросом (GQA), что является вариантом стандартного механизма внимания. Вместо вычисления внимания по всем скрытым состояниям, он вычисляет внимание по группам скрытых состояний. [24]
Были выпущены как базовая модель, так и модель "instruct", причем последняя получила дополнительную настройку для следования подсказкам в стиле чата. Тонко настроенная модель предназначена только для демонстрационных целей и не имеет встроенных защитных ограждений или модерации. [23]
Как и первая модель Mistral, Mixtral 8x7B был выпущен через ссылку BitTorrent, размещенную в Twitter 9 декабря 2023 года [2] , а позже, два дня спустя, были опубликованы Hugging Face и запись в блоге. [18]
В отличие от предыдущей модели Mistral, Mixtral 8x7B использует архитектуру с разреженной смесью экспертов . Модель имеет 8 отдельных групп «экспертов», что дает модели в общей сложности 46,7 млрд используемых параметров. [25] [26] Каждый отдельный токен может использовать только 12,9 млрд параметров, что дает скорость и стоимость, которые понесла бы модель с 12,9 млрд параметров. [18]
Тестирование Mistral AI показывает, что модель превосходит как LLaMA 70B, так и GPT-3.5 в большинстве тестов . [27]
В марте 2024 года исследование, проведенное Patronus AI, сравнивающее результаты LLM на тесте из 100 вопросов с подсказками для генерации текста из книг, защищенных законом об авторском праве США, показало, что GPT-4 от Open AI , Mixtral, LLaMA-2 от Meta AI и Claude2 от Anthropic сгенерировали защищенный авторским правом текст дословно в 44%, 22%, 10% и 8% ответов соответственно. [28] [29]
Подобно предыдущим открытым моделям Mistral, Mixtral 8x22B был выпущен по ссылке BitTorrent в Twitter 10 апреля 2024 года [30] с релизом на Hugging Face вскоре после этого. [31] Модель использует архитектуру, похожую на архитектуру Mistral 8x7B, но каждый эксперт имеет 22 миллиарда параметров вместо 7. Всего модель содержит 141 миллиард параметров, поскольку некоторые параметры являются общими для экспертов. [31]
Mistral Large 2 был анонсирован 24 июля 2024 года и выпущен на Hugging Face. В отличие от предыдущей Mistral Large, эта версия была выпущена с открытыми весами. Она доступна бесплатно с лицензией Mistral Research и с коммерческой лицензией для коммерческих целей. Mistral AI утверждает, что свободно владеет десятками языков, включая многие языки программирования. Модель имеет 123 миллиарда параметров и длину контекста 128 000 токенов. Ее производительность в бенчмарках сопоставима с Llama 3.1 405B , особенно в задачах, связанных с программированием. [32] [33]
Codestral — первая модель Mistral с открытым весом, ориентированная на код. Codestral была запущена 29 мая 2024 года. Это облегченная модель, специально созданная для задач генерации кода. На момент выпуска эта модель превосходит Llama3 70B и DeepSeek Coder 33B от Meta (78,2% - 91,6%), еще одну модель, ориентированную на код, на бенчмарке HumanEval FIM. [34] Mistral утверждает, что Codestral свободно владеет более чем 80 языками программирования . [35] Codestral имеет собственную лицензию, которая запрещает использование Codestral в коммерческих целях. [36]
Математика 7Б
Mathstral 7B — это модель с 7 миллиардами параметров, выпущенная Mistral AI 16 июля 2024 года. Она ориентирована на предметы STEM, достигая результата 56,6% на тесте MATH и 63,47% на тесте MMLU. [37] Модель была создана в сотрудничестве с Project Numina, [38] и выпущена под лицензией Apache 2.0. Длина ее контекста составляет 32 тыс. токенов. [37]
Кодестрал Мамба 7Б
Codestral Mamba основана на архитектуре Mamba 2, что позволяет ей генерировать ответы даже при более длинных входных данных. [38] В отличие от Codestral, она была выпущена под лицензией Apache 2.0. В то время как предыдущие выпуски часто включали как базовую модель, так и версию instruct, была выпущена только версия instruct Codestral Mamba. [39]
В отличие от Mistral 7B, Mixtral 8x7B и Mixtral 8x22B, следующие модели имеют закрытый исходный код и доступны только через API Mistral. [40]
Mistral Large был запущен 26 февраля 2024 года, и Mistral утверждает, что он уступает в мире только GPT-4 компании OpenAI.
Он свободно говорит на английском, французском, испанском, немецком и итальянском языках, а Mistral заявляет о понимании как грамматики, так и культурного контекста, и предоставляет возможности кодирования. По состоянию на начало 2024 года это флагманский ИИ Mistral. [41] Он также доступен на Microsoft Azure.
В июле 2024 года был выпущен Mistral Large 2, заменивший оригинальный Mistral Large. [42] В отличие от оригинальной модели, он был выпущен с открытыми весами. [33]
Mistral Medium обучен на разных языках, включая английский, французский, итальянский, немецкий, испанский и код, с результатом 8,6 на MT-Bench. [43] Он занимает место по производительности выше Claude и ниже GPT-4 на бенчмарке LMSys ELO Arena. [44]
Количество параметров и архитектура Mistral Medium неизвестны, поскольку Mistral не публиковала публичную информацию о нем.
Как и модель Large, Small была запущена 26 февраля 2024 года. Она должна стать облегченной моделью с низкой задержкой и лучшей производительностью, чем Mixtral 8x7B. [45]