Генеративный предварительно обученный трансформатор

Генеративные предварительно обученные преобразователи ( GPT ) — это тип большой языковой модели (LLM) ^[1]^[2]^[3] и известная структура для генеративного искусственного интеллекта . ^[4]^[5] Это искусственные нейронные сети , которые используются в задачах обработки естественного языка . ^[6] GPT основаны на архитектуре преобразователя , предварительно обучены на больших наборах данных неразмеченного текста и способны генерировать новый контент, похожий на человеческий. ^[2]^[3] По состоянию на 2023 год большинство LLM обладают этими характеристиками ^[7] и иногда их широко называют GPT. ^[8]

Первый GPT был представлен в 2018 году компанией OpenAI . ^[9] OpenAI выпустила очень влиятельные базовые модели GPT, которые были пронумерованы последовательно, чтобы составить серию «GPT- n ». ^[10] Каждый из них был значительно более эффективным, чем предыдущий, из-за увеличенного размера (количества обучаемых параметров) и обучения. Самый последний из них, GPT-4 , был выпущен в марте 2023 года. ^[11] Такие модели легли в основу их систем GPT, более ориентированных на конкретные задачи, включая модели, точно настроенные для следования инструкциям , что, в свою очередь, приводит в действие чат-бот ChatGPT . услуга. ^[1]

Термин «GPT» также используется в названиях и описаниях таких моделей, разработанных другими. Например, другие базовые модели GPT включают серию моделей, созданных EleutherAI , ^[12] и семь моделей, созданных Cerebras в 2023 году . ^[13] Кроме того, компании в разных отраслях разработали GPT для конкретных задач в своих соответствующих областях, таких как «EinsteinGPT» от Salesforce (для CRM ) ^[14] и «BloombergGPT» от Bloomberg (для финансов). ^[15]

История

Начальные разработки

Генеративное предварительное обучение (GP) было давно устоявшейся концепцией в приложениях машинного обучения. ^[16]^[17]^[18] Первоначально он использовался как форма полуконтролируемого обучения , поскольку модель сначала обучается на немаркированном наборе данных ( этап предварительного обучения ) путем обучения генерированию точек данных в наборе данных, а затем она обучается. для классификации помеченного набора данных. ^[19]

Хотя ненормализованный линейный трансформатор появился в 1992 году, ^[20]^[21]^[22] современная архитектура трансформатора не была доступна до 2017 года, когда она была опубликована исследователями из Google в статье « Внимание — это все, что вам нужно ». ^[23] Это развитие привело к появлению больших языковых моделей, таких как BERT в 2018 году ^[24] , который представлял собой предварительно обученный преобразователь (PT), но не предназначенный для генерации (BERT был моделью «только для кодировщика»). ^[25] Примерно в то же время, в 2018 году, OpenAI опубликовала статью под названием «Улучшение понимания языка посредством генеративного предварительного обучения», в которой представила первую систему генеративного предварительно обученного преобразователя (GPT) (« GPT-1 »). ^[26]

До появления архитектур на основе преобразователей наиболее эффективные нейронные модели НЛП ( обработки естественного языка ) обычно использовали контролируемое обучение на больших объемах данных, помеченных вручную. Использование контролируемого обучения ограничивало их использование на наборах данных, которые не были хорошо аннотированы, а также делало обучение чрезвычайно больших языковых моделей непомерно дорогим и трудоемким. ^[26]

Полуконтролируемый подход, использованный OpenAI для создания крупномасштабной генеративной системы (и впервые он применялся к модели преобразователя), включал два этапа: этап неконтролируемого генеративного « предварительного обучения» для установки начальных параметров с использованием цели языкового моделирования и контролируемый этап «предварительного обучения». этап дискриминационной « тонкой настройки » для адаптации этих параметров к целевой задаче. ^[26]

Более поздние события

Что касается более поздних базовых моделей GPT, OpenAI опубликовала свои первые версии GPT-3 в июле 2020 года. Было три модели с параметрами 1B, 6.7B, 175B, названные соответственно Бэббиджем, Кюри и Давинчи (с инициалами B, C и Д). ^{[ нужна цитата ]}

В июле 2021 года OpenAI опубликовала Codex — модель GPT для конкретных задач, предназначенную для приложений программирования. Он был разработан путем тонкой настройки версии GPT-3 с 12B параметрами (отличной от предыдущих моделей GPT-3) с использованием кода с GitHub . ^[27]

В марте 2022 года OpenAI опубликовала две версии GPT-3, которые были доработаны для следования инструкциям (instruction-tuned), названные davinci-instruct-beta (175B) и text-davinci-001 , ^[28] , а затем запустила бета-версию. код тестирования -davinci-002 . ^[29] text-davinci-002 был настроен с помощью инструкций code-davinci-002 . И text-davinci-003, и ChatGPT были выпущены в ноябре 2022 года, причем оба основаны на text-davinci-002 посредством обучения с подкреплением на основе отзывов людей (RLHF). text-davinci-003 обучен следовать инструкциям (как и его предшественники), тогда как ChatGPT дополнительно обучен разговорному взаимодействию с пользователем-человеком. ^[30]^[31]

Самая последняя базовая модель GPT OpenAI, GPT-4 , была выпущена 14 марта 2023 года. Пользователи могут получить к ней непосредственный доступ через премиум-версию ChatGPT, а разработчикам она доступна для включения в другие продукты и услуги через API OpenAI . Среди других производителей базовых моделей GPT — EleutherAI ( серия моделей начнется в марте 2021 г.) ^[12] и Cerebras (семь моделей будут выпущены в марте 2023 г.). ^[13]

Фундаментальные модели

Базовая модель — это модель ИИ, обученная на обширных данных в таком масштабе, что ее можно адаптировать к широкому кругу последующих задач. ^[32]

На данный момент наиболее заметными базовыми моделями GPT были серии GPT-n от OpenAI . Самым последним из них является GPT-4 , для которого OpenAI отказалась публиковать размеры или подробности обучения (ссылаясь на «конкурентную среду и влияние крупномасштабных моделей на безопасность»). ^[33]

Другие подобные модели включают PaLM от Google , широкую базовую модель, которую сравнивают с GPT-3 и которая недавно стала доступна разработчикам через API , ^[40]^{[41] и}GPT-JT от Together , о которой сообщается как наиболее эффективная альтернатива GPT-3 с открытым исходным кодом (и является производной от более ранних GPT с открытым исходным кодом ). ^[42]Meta AI (ранее Facebook ) также имеет базовую модель большого языка на основе генеративного преобразователя, известную как LLaMA . ^[43]

Базовые GPT также могут использовать для ввода и/или вывода иные модальности , помимо текста. GPT-4 — это мультимодальный LLM, способный обрабатывать ввод текста и изображений (хотя его вывод ограничен текстом). ^[44] Что касается мультимодального вывода , некоторые модели на основе генеративных преобразователей используются для технологий преобразования текста в изображение, таких как диффузия ^[45] и параллельное декодирование. ^[46] Такие модели могут служить визуальными базовыми моделями (VFM) для разработки последующих систем, которые могут работать с изображениями. ^[47]

Модели для конкретных задач

Базовая модель GPT может быть дополнительно адаптирована для создания более целевых систем, ориентированных на конкретные задачи и/или предметные области. Методы такой адаптации могут включать дополнительную тонкую настройку (помимо той, что делается для базовой модели), а также определенные формы оперативного проектирования . ^[48]

Важным примером этого является точная настройка моделей для следования инструкциям , что, конечно, является довольно широкой задачей, но более целенаправленной, чем базовая модель. В январе 2022 года OpenAI представила «InstructGPT» — серию моделей, которые были настроены для следования инструкциям с использованием комбинации контролируемого обучения и обучения с подкреплением на основе обратной связи с человеком (RLHF) на базовых языковых моделях GPT-3. ^[49]^[50] Преимущества этой модели по сравнению с простыми базовыми моделями включали более высокую точность, меньше негативных/токсичных настроений и, как правило, лучшее соответствие потребностям пользователей. Следовательно, OpenAI начала использовать это в качестве основы для своих предложений услуг API . ^[51] Другие модели, настроенные по инструкциям, были выпущены другими производителями, включая полностью открытую версию. ^[52]^[53]

Другой (родственный) тип моделей, ориентированных на конкретные задачи, — это чат-боты , которые участвуют в общении, подобном человеческому. В ноябре 2022 года OpenAI запустила ChatGPT — интерфейс онлайн-чата, основанный на настроенной на инструкции языковой модели, обученной аналогично InstructGPT. ^[54] Они обучили эту модель с помощью RLHF, где тренеры ИИ-людей обеспечивали диалоги, в которых они играли как пользователя, так и ИИ, и смешали этот новый набор данных диалога с набором данных InstructGPT для получения диалогового формата, подходящего для чат-бота. Другие крупные чат-боты в настоящее время включают Bing Chat от Microsoft , который использует GPT-4 OpenAI (в рамках более широкого тесного сотрудничества между OpenAI и Microsoft), ^[55] и конкурирующий чат-бот Google Bard (первоначально основанный на их семействе чат-ботов LaMDA) . -обученные языковые модели, с планами по переходу на PaLM ). ^[56]

Еще один вид задач, для которых можно использовать GPT, — это метазадача генерации собственных инструкций , например, разработка серии подсказок для «себя», чтобы иметь возможность достичь более общей цели, поставленной пользователем-человеком. ^[57] Это известно как агент ИИ , а точнее, рекурсивный, поскольку он использует результаты своих предыдущих самоинструкций, чтобы помочь ему сформировать свои последующие подсказки; Первым крупным примером этого был Auto-GPT (который использует модели GPT OpenAI), с тех пор были разработаны и другие. ^[58]

Мультимодальность

Системы на основе генеративных преобразователей также могут быть ориентированы на задачи, включающие в себя не только текстовые модальности .

Например, Visual ChatGPT от Microsoft сочетает ChatGPT с моделями визуальной основы (VFM), что позволяет вводить или выводить изображения, а также текст. ^[59] Кроме того, достижения в области технологии преобразования текста в речь предлагают мощные инструменты для создания аудиоконтента при использовании в сочетании с базовыми языковыми моделями GPT. ^[60]

Специфика предметной области

Системы GPT могут быть ориентированы на определенные области или домены. Ниже приведены некоторые примеры таких моделей и приложений:

EinsteinGPT — для областей продаж и маркетинга, для помощи в управлении взаимоотношениями с клиентами (использует GPT-3.5 ) ^[61]
BloombergGPT - для финансовой сферы, для предоставления финансовых новостей и информации (использует «свободно доступные» методы искусственного интеллекта в сочетании с собственными данными) ^[62]
Ханмиго - описанный как версия GPT для репетиторства в сфере образования, он помогает студентам, использующим Академию Хана , направляя их в учебе без прямого предоставления ответов (на базе GPT-4 ) ^[63]^[64]
SlackGPT — для службы обмена мгновенными сообщениями Slack , помогающей в навигации и подведении итогов обсуждений (использует API OpenAI ) [ ^65]
BioGPT - для биомедицинской области, для помощи в создании и анализе текстов биомедицинской литературы (использует GPT-2 ) ^[66]

Иногда специфичность предметной области достигается с помощью программных плагинов или надстроек . Например, несколько разных компаний разработали специальные плагины, которые напрямую взаимодействуют с интерфейсом OpenAI ChatGPT , ^[67]^[68] , а у Google Workspace есть доступные надстройки, такие как «GPT для таблиц и документов», которые, как сообщается, помогают использовать электронные таблицы . функциональность в Google Таблицах . ^[69]^[70]

В ноябре 2023 года OpenAI объявила, что позволяет подписчикам ChatGPT Plus создавать собственные версии ChatGPT (называемые GPT ). ^[71] Их можно адаптировать для конкретных областей посредством оперативного проектирования, тщательно подобранных наборов данных и/или целевого взаимодействия с внешними инструментами. Пользователи, которые регистрируются как проверенные разработчики, могут публиковать свои собственные GPT для других пользователей с возможностью монетизации. (Это заметно отличается от службы API OpenAI, поскольку она базируется внутри платформы OpenAI.)

Проблемы с брендом

OpenAI , создавшая первый генеративный предварительно обученный преобразователь (GPT) в 2018 году, недавно заявила, что «GPT» следует рассматривать как бренд OpenAI . ^[72] В апреле 2023 года OpenAI пересмотрела правила использования бренда в своих условиях обслуживания , указав, что другие компании, использующие ее API для запуска своих служб искусственного интеллекта (ИИ), больше не смогут включать «GPT» в такие названия или брендинг. ^[73] В мае 2023 года OpenAI задействовала службу управления брендом, чтобы уведомить своих клиентов API об этой политике, хотя эти уведомления не содержали явных юридических претензий (таких как обвинения в нарушении прав на товарный знак или требования о прекращении и воздержании ). ^[72] По состоянию на ноябрь 2023 года OpenAI по-прежнему запрещает своим лицензиатам API называть свои продукты с помощью «GPT», ^[74] но начала разрешать своим подписчикам ChatGPT Plus создавать «пользовательские версии ChatGPT», которые называются GPT на сайт ОпенАИ. ^[75] В условиях обслуживания OpenAI говорится, что ее подписчики могут использовать «GPT» в их названиях, хотя это «не рекомендуется». ^[74]

Кроме того, OpenAI подала заявку в Ведомство США по патентам и товарным знакам (USPTO) с просьбой зарегистрировать внутри страны товарный знак для термина «GPT» в области ИИ. ^[72] OpenAI стремилась ускорить обработку своей заявки, но ВПТЗ США отклонило этот запрос в апреле 2023 года. ^[76] В мае 2023 года ВПТЗ США ответило на заявку, определив, что «GPT» носит как описательный, так и общий характер. ^[77] По состоянию на ноябрь 2023 года OpenAI продолжает аргументировать свои аргументы с помощью доступных процессов. Тем не менее, невозможность получить зарегистрированный товарный знак в США не исключает определенного уровня прав на товарные знаки в США ^[78] и/или прав на товарные знаки в других странах. ^[79]

Для любого конкретного типа или объема защиты товарных знаков в США OpenAI необходимо будет установить, что этот термин на самом деле « отличителен » для их конкретных предложений, а также является более широким техническим термином для типа технологии. В некоторых сообщениях СМИ высказывалось предположение, что OpenAI может получить регистрацию товарного знака, косвенно основываясь на известности своего продукта чат-бота на основе GPT, ChatGPT , ^[76]^[80] , для которого OpenAI отдельно запросила защиту (и которого она стремилась обеспечить более сильно). ^[81] В других отчетах указывается, что регистрация простого термина «GPT» вряд ли будет предоставлена, ^[72]^[82] поскольку он часто используется как общий термин для обозначения просто систем искусственного интеллекта, в которых используются генеративные предварительно обученные преобразователи. . ^[3]^[83]^[84]^[85] В любом случае, в какой бы степени исключительные права на этот термин ни распространялись в США, другим лицам следует избегать использования его для аналогичных продуктов или услуг способами, которые могут вызвать путаницу. ^[82]^[86] Если такие права когда-либо станут достаточно широкими, чтобы включать в себя другие устоявшиеся виды использования в этой области, доктрина описательного добросовестного использования товарных знаков все равно может сохранить некоторое пространство для продолжения использования, не связанного с брендом. ^[87]

Избранная библиография

В этом разделе перечислены основные официальные публикации OpenAI и Microsoft об их моделях GPT.

GPT-1: отчет, ^[9] выпуск GitHub. ^[88]
GPT-2: объявление в блоге, ^[89] отчет о решении о «поэтапном выпуске», ^[90] выпуск на GitHub. ^[91]
GPT-3: отчет. ^[36] С этого момента GitHub или любая другая форма выпуска кода запрещена.
webGPT: объявление в блоге, ^[92] отчет, ^[93]
InstructGPT: анонс в блоге, отчет ^[49] . ^[50]
ChatGPT: объявление в блоге (нет отчета). ^[54]
GPT-4: анонс в блоге, ^[94] отчеты, ^[95]^[96] карточка модели. ^[97]

Смотрите также

Цикл
Близнецы (языковая модель)