Мистраль ИИ

Mistral AI — французская компания, специализирующаяся на продуктах искусственного интеллекта (ИИ). Основанная в апреле 2023 года бывшими сотрудниками Meta Platforms и Google DeepMind ^[1] , компания быстро добилась известности в секторе ИИ.

Компания фокусируется на создании больших языковых моделей с открытым исходным кодом , ^[2] подчеркивая основополагающую важность свободного и открытого программного обеспечения и позиционируя себя как альтернативу проприетарным моделям. ^[3]

В октябре 2023 года Mistral AI привлекла 385 миллионов евро. ^[4] К декабрю 2023 года ее стоимость превысила 2 миллиарда долларов. ^[5]^[6]^[7]

В июне 2024 года Mistral AI объявила о новом раунде финансирования в размере 600 миллионов евро (645 миллионов долларов США), что значительно увеличило ее оценку до 5,8 миллиардов евро (6,2 миллиарда долларов США). ^[8] Этот раунд был проведен венчурной компанией General Catalyst при участии существующих инвесторов. ^[9]

Mistral AI опубликовал три модели с открытым исходным кодом, доступные в качестве весов. ^[10] Кроме того, еще три модели — Small, Medium и Large — доступны только через API. ^[11]^[12]

По оценкам , компания занимает четвертое место в глобальной гонке ИИ и первое место за пределами залива Сан-Франциско , опережая нескольких своих коллег, таких как Cohere , Hugging Face , Inflection , Perplexity и Together. ^[13] Mistral AI стремится «демократизировать» ИИ, сосредоточившись на инновациях с открытым исходным кодом. ^[14]

История

Компания Mistral AI была основана в апреле 2023 года Артуром Меншем, Гийомом Ламплем и Тимоти Лакруа. ^{[ необходима цитата ]}

До того, как стать соучредителем Mistral AI, Артур Менш работал в Google DeepMind , лаборатории искусственного интеллекта Google, а Гийом Лампле и Тимоти Лакруа работали в Meta Platforms . ^[15] Соучредители познакомились, будучи студентами Политехнической школы . Mistral назван в честь сильного ветра , который дует во Франции. ^[16]

В июне 2023 года стартап провел первый сбор средств в размере €105 млн ($117 млн) с инвесторами, включая американский фонд Lightspeed Venture Partners , Эрика Шмидта , Ксавье Ниля и JCDecaux . Оценка стоимости тогда оценивается Financial Times в €240 млн ($267 млн).

27 сентября 2023 года компания сделала свою модель языковой обработки «Mistral 7B» доступной по бесплатной лицензии Apache 2.0 . Эта модель имеет 7 миллиардов параметров, что является небольшим размером по сравнению с ее конкурентами.

10 декабря 2023 года Mistral AI объявила, что привлекла €385 млн ($428 млн) в рамках своего второго сбора средств. В этом раунде финансирования, в частности, участвуют калифорнийский фонд Andreessen Horowitz , BNP Paribas и издатель программного обеспечения Salesforce . ^[17]

11 декабря 2023 года компания выпустила модель Mixtral 8x7B с 46,7 миллиардами параметров, но использующую только 12,9 миллиарда на токен благодаря архитектуре «смешанные эксперты» . Модель владеет 5 языками (французский, испанский, итальянский, английский и немецкий) и превосходит, согласно тестам разработчиков, модель «LLama 2 70B» от Meta . Также предлагается версия, обученная следовать инструкциям и называемая «Mixtral 8x7B Instruct». ^[18]

26 февраля 2024 года Microsoft объявила о новом партнерстве с компанией с целью расширения своего присутствия в быстро развивающейся отрасли искусственного интеллекта . В рамках соглашения богатые языковые модели Mistral будут доступны в облаке Microsoft Azure , а многоязычный разговорный помощник «Le Chat» будет запущен в стиле ChatGPT . ^[19]

10 апреля 2024 года компания выпустила смесь экспертных моделей Mixtral 8x22B, демонстрирующую высокую производительность в различных тестах по сравнению с другими открытыми моделями. ^{[ необходима цитата ]}

16 апреля 2024 года в отчетах говорилось, что Mistral ведет переговоры о привлечении 500 миллионов евро, что позволит увеличить ее текущую стоимость более чем вдвое и составить не менее 5 миллиардов евро. ^[20]

Модели

Модели открытого веса

Мистраль 7Б

Mistral 7B — это модель языка параметров 7.3B, использующая архитектуру transformers. Официально выпущена 27 сентября 2023 года через magnet-ссылку BitTorrent ^[21] и Hugging Face . ^[22] Модель выпущена под лицензией Apache 2.0 . В сообщении в блоге о выпуске утверждается, что модель превосходит LLaMA 2 13B по всем протестированным тестам и находится на одном уровне с LLaMA 34B по многим протестированным тестам. ^[23]

Mistral 7B использует внимание с групповым запросом (GQA), что является вариантом стандартного механизма внимания. Вместо вычисления внимания по всем скрытым состояниям, он вычисляет внимание по группам скрытых состояний. ^[24]

Были выпущены как базовая модель, так и модель "instruct", причем последняя получила дополнительную настройку для следования подсказкам в стиле чата. Тонко настроенная модель предназначена только для демонстрационных целей и не имеет встроенных защитных ограждений или модерации. ^[23]

Микстраль 8x7B

Как и первая модель Mistral, Mixtral 8x7B был выпущен через ссылку BitTorrent, размещенную в Twitter 9 декабря 2023 года ^[2] , а позже, два дня спустя, были опубликованы Hugging Face и запись в блоге. ^[18]

В отличие от предыдущей модели Mistral, Mixtral 8x7B использует архитектуру с разреженной смесью экспертов . Модель имеет 8 отдельных групп «экспертов», что дает модели в общей сложности 46,7 млрд используемых параметров. ^[25]^[26] Каждый отдельный токен может использовать только 12,9 млрд параметров, что дает скорость и стоимость, которые понесла бы модель с 12,9 млрд параметров. ^[18]

Тестирование Mistral AI показывает, что модель превосходит как LLaMA 70B, так и GPT-3.5 в большинстве тестов . ^[27]

В марте 2024 года исследование, проведенное Patronus AI, сравнивающее результаты LLM на тесте из 100 вопросов с подсказками для генерации текста из книг, защищенных законом об авторском праве США, показало, что GPT-4 от Open AI , Mixtral, LLaMA-2 от Meta AI и Claude2 от Anthropic сгенерировали защищенный авторским правом текст дословно в 44%, 22%, 10% и 8% ответов соответственно. ^[28]^[29]

Микстраль 8x22B

Подобно предыдущим открытым моделям Mistral, Mixtral 8x22B был выпущен по ссылке BitTorrent в Twitter 10 апреля 2024 года ^[30] с релизом на Hugging Face вскоре после этого. ^[31] Модель использует архитектуру, похожую на архитектуру Mistral 8x7B, но каждый эксперт имеет 22 миллиарда параметров вместо 7. Всего модель содержит 141 миллиард параметров, поскольку некоторые параметры являются общими для экспертов. ^[31]

Мистраль Большой 2

Mistral Large 2 был анонсирован 24 июля 2024 года и выпущен на Hugging Face. В отличие от предыдущей Mistral Large, эта версия была выпущена с открытыми весами. Она доступна бесплатно с лицензией Mistral Research и с коммерческой лицензией для коммерческих целей. Mistral AI утверждает, что свободно владеет десятками языков, включая многие языки программирования. Модель имеет 123 миллиарда параметров и длину контекста 128 000 токенов. Ее производительность в бенчмарках сопоставима с Llama 3.1 405B , особенно в задачах, связанных с программированием. ^[32]^[33]

Кодестрал 22Б

Codestral — первая модель Mistral с открытым весом, ориентированная на код. Codestral была запущена 29 мая 2024 года. Это облегченная модель, специально созданная для задач генерации кода. На момент выпуска эта модель превосходит Llama3 70B и DeepSeek Coder 33B от Meta (78,2% - 91,6%), еще одну модель, ориентированную на код, на бенчмарке HumanEval FIM. ^[34] Mistral утверждает, что Codestral свободно владеет более чем 80 языками программирования ^{. [35]} Codestral имеет собственную лицензию, которая запрещает использование Codestral в коммерческих целях. ^[36]

Математика 7Б

Mathstral 7B — это модель с 7 миллиардами параметров, выпущенная Mistral AI 16 июля 2024 года. Она ориентирована на предметы STEM, достигая результата 56,6% на тесте MATH и 63,47% на тесте MMLU. ^[37] Модель была создана в сотрудничестве с Project Numina, ^[38] и выпущена под лицензией Apache 2.0. Длина ее контекста составляет 32 тыс. токенов. ^[37]

Кодестрал Мамба 7Б

Codestral Mamba основана на архитектуре Mamba 2, что позволяет ей генерировать ответы даже при более длинных входных данных. ^[38] В отличие от Codestral, она была выпущена под лицензией Apache 2.0. В то время как предыдущие выпуски часто включали как базовую модель, так и версию instruct, была выпущена только версия instruct Codestral Mamba. ^[39]

Модели только API

В отличие от Mistral 7B, Mixtral 8x7B и Mixtral 8x22B, следующие модели имеют закрытый исходный код и доступны только через API Mistral. ^[40]

Мистраль Большой

Mistral Large был запущен 26 февраля 2024 года, и Mistral утверждает, что он уступает в мире только GPT-4 компании OpenAI.

Он свободно говорит на английском, французском, испанском, немецком и итальянском языках, а Mistral заявляет о понимании как грамматики, так и культурного контекста, и предоставляет возможности кодирования. По состоянию на начало 2024 года это флагманский ИИ Mistral. ^[41] Он также доступен на Microsoft Azure.

В июле 2024 года был выпущен Mistral Large 2, заменивший оригинальный Mistral Large. ^[42] В отличие от оригинальной модели, он был выпущен с открытыми весами. ^[33]

Мистраль Средний

Mistral Medium обучен на разных языках, включая английский, французский, итальянский, немецкий, испанский и код, с результатом 8,6 на MT-Bench. ^[43] Он занимает место по производительности выше Claude и ниже GPT-4 на бенчмарке LMSys ELO Arena. ^[44]

Количество параметров и архитектура Mistral Medium неизвестны, поскольку Mistral не публиковала публичную информацию о нем.

Мистраль Малый

Как и модель Large, Small была запущена 26 февраля 2024 года. Она должна стать облегченной моделью с низкой задержкой и лучшей производительностью, чем Mixtral 8x7B. ^[45]

Ссылки

^ «Французский стартап-единорог Mistral AI воплощает свои надежды на искусственный интеллект». Le Monde.fr. 2023-12-12 . Получено 2023-12-16 .
^ ab "Buzzy Startup Just Damps AI Model That Beats GPT-3.5 Into Torrent Link". Gizmodo. 2023-12-12 . Получено 2023-12-16 .
^ «Вывод открытых моделей ИИ на передовую». Mistral AI. 27 сентября 2023 г. Получено 4 января 2024 г.
^ Метц, Кейд (10 декабря 2023 г.). «Mistral, французский стартап в области искусственного интеллекта, оценен в 2 миллиарда долларов в раунде финансирования». The New York Times.
^ Финк, Чарли. «Эта неделя в XR: эпические победы над Google, Mistral AI привлекла $415 млн, $56,5 млн для Essential AI». Forbes . Получено 16.12.2023 .
^ «Французский стартап в области искусственного интеллекта, возможно, начал революцию искусственного интеллекта, тихо». Hindustan Times. 12 декабря 2023 г.
^ «Французский стартап Mistral в области искусственного интеллекта получил оценку в €2 млрд». ft.com Financial Times.
^ Харпал, Арджун (24.05.2024). «Генеральные директора стартапов в области искусственного интеллекта, поддерживаемых Microsoft и Amazon, — новые технологические рок-звезды». CNBC . Получено 13.06.2024 .
^ "Утроение ИИ Mistral | General Catalyst". www.generalcatalyst.com . Получено 13.06.2024 .
^ "Модели с открытым весом и большие языковые модели Mistral AI". docs.mistral.ai . Получено 2024-01-04 .
^ «Конечные точки и большие языковые модели Mistral AI». docs.mistral.ai.
^ "Конечные точки и бенчмарки | Большие языковые модели Mistral AI". docs.mistral.ai . Получено 2024-03-06 .
^ Браттон, Лора (2024-06-12). «Французский конкурент OpenAI Mistral AI теперь стоит 6 миллиардов долларов. Это все еще малая часть от его главных конкурентов». Quartz (публикация) . Получено 2024-06-13 .
^ Вебб, Мария (2024-01-02). «Mistral AI: исследование новейшего европейского технологического единорога». techopedia.com . Получено 2024-06-13 .
^ «Французский стартап-единорог Mistral AI воплощает свои надежды на искусственный интеллект». Le Monde.fr . 12 декабря 2023 г.
^ Журнал, Сэм Шехнер | Фотографии Эдуарда Жакине для The Wall Street. «9-месячный стартап в области искусственного интеллекта бросает вызов гигантам Кремниевой долины». WSJ . Получено 31.03.2024 .
^ "Mistral lève 385 млн евро и отклонение от французского единорога - le Monde Informatique" . 11 декабря 2023 г.
^ abc "Mixtral of experts". mistral.ai . 2023-12-11 . Получено 2024-01-04 .
^ Баблешвар (26.02.2024). «Mistral Large, флагманский LLM Mistral AI, дебютирует в Azure AI Models-as-a-Service». techcommunity.microsoft.com . Получено 26.02.2024 .
^ "Mistral ведет переговоры о привлечении €500 млн при оценке в €5 млрд". www.ft.com . Получено 2024-04-19 .
^ Голдман, Шарон (2023-12-08). «Mistral AI ломает тренд на выпуск, сбрасывая торрент-ссылку на новый LLM с открытым исходным кодом». VentureBeat . Получено 2024-01-04 .
^ Колдьюи, Девин (27 сентября 2023 г.). «Mistral AI делает свою первую большую языковую модель бесплатной для всех». TechCrunch . Получено 4 января 2024 г.
^ ab "Mistral 7B". mistral.ai . Mistral AI. 27 сентября 2023 г. Получено 4 января 2024 г.
^ Цзян, Альберт К.; Саблероль, Александр; Менш, Артур; Бэмфорд, Крис; Чаплот, Девендра Сингх; Касас, Диего де лас; Брессан, Флориан; Лендьел, Джанна; Лампле, Гийом (10 октября 2023 г.). «Мистраль 7Б». arXiv : 2310.06825v1 [cs.CL].
^ «Объяснение смеси экспертов». huggingface.co . Получено 2024-01-04 .
^ Мари, Бенджамин (15.12.2023). «Mixtral-8x7B: понимание и управление разреженной смесью экспертов». Medium . Получено 04.01.2024 .
^ Франзен, Карл (11.12.2023). «Mistral потрясает сообщество ИИ, поскольку последняя модель с открытым исходным кодом превосходит производительность GPT-3.5». VentureBeat . Получено 04.01.2024 .
^ Филд, Хейден (6 марта 2024 г.). «Исследователи проверили ведущие модели ИИ на предмет нарушения авторских прав с использованием популярных книг, и GPT-4 показал наихудшие результаты». CNBC . Получено 6 марта 2024 г.
^ "Представляем CopyrightCatcher, первый API обнаружения авторских прав для LLM". Patronus AI. 6 марта 2024 г. Получено 6 марта 2024 г.
^ @MistralAI (10 апреля 2024 г.). «Торрент» ( Твит ) – через Twitter .
^ ab "mistralai/Mixtral-8x22B-v0.1 · Обнимающее лицо". huggingface.co . Получено 2024-05-05 .
^ AI, Mistral (2024-07-24). "Достаточно большой". mistral.ai . Получено 2024-07-24 .
^ ab "mistralai/Mistral-Large-Instruct-2407 · Обнимающее лицо". huggingface.co . Получено 24.08.2024 .
^ AI, Mistral (2024-05-29). "Codestral: Hello, World!". mistral.ai . Получено 2024-05-30 .
^ Шарма, Шубхам (29.05.2024). «Mistral анонсирует Codestral, свою первую модель ИИ, ориентированную на программирование». VentureBeat . Получено 30.05.2024 .
^ Виггерс, Кайл (29.05.2024). «Mistral выпускает Codestral, свою первую генеративную модель ИИ для кода». TechCrunch . Получено 30.05.2024 .
^ ab AI, Mistral (2024-07-16). "MathΣtral". mistral.ai . Получено 2024-07-16 .
^ ab Дэвид, Эмилия (2024-07-16). "Mistral выпускает Codestral Mamba для более быстрой и длинной генерации кода". VentureBeat . Получено 2024-07-17 .
^ AI, Mistral (2024-07-16). "Codestral Mamba". mistral.ai . Получено 2024-07-16 .
^ "Ограничения цен и ставок | Большие языковые модели Mistral AI". docs.mistral.ai . Получено 2024-01-22 .
^ AI, Mistral (2024-02-26). "Au Large". mistral.ai . Получено 2024-03-06 .
^ "Модели | Большие языковые модели Mistral AI". docs.mistral.ai . Получено 2024-08-24 .
^ AI, Мистраль (11 декабря 2023 г.). «Ла тарелка». мистраль.ай . Проверено 22 января 2024 г.
^ "LMSys Chatbot Arena Leaderboard - пространство для объятий от lmsys". huggingface.co . Получено 22.01.2024 .
^ AI, Mistral (2024-02-26). "Au Large". mistral.ai . Получено 2024-03-06 .

Внешние ссылки

Официальный сайт
Mistral AI в Twitter
Mistral AI на YouTube