stringtranslate.com

Генеративный предобученный трансформатор

Оригинальная модель GPT

Генеративный предварительно обученный трансформатор ( GPT ) — это тип большой языковой модели (LLM) [1] [2] [3] и известная структура для генеративного искусственного интеллекта . [4] [5] Это искусственная нейронная сеть , которая используется при обработке естественного языка машинами. [6] Она основана на архитектуре глубокого обучения трансформатора , предварительно обучена на больших наборах данных немаркированного текста и способна генерировать новый контент, подобный человеческому. [2] [3] По состоянию на 2023 год большинство LLM обладали этими характеристиками [7] и иногда в широком смысле упоминаются как GPT. [8]

Первый GPT был представлен OpenAI в 2018 году . [9] OpenAI выпустила важные базовые модели GPT, которые были последовательно пронумерованы, чтобы составить его серию «GPT- n ». [10] Каждая из них была значительно более способной, чем предыдущая, из-за увеличенного размера (количества обучаемых параметров) и обучения. Самая последняя из них, GPT-4o , была выпущена в мае 2024 года. [11] Такие модели стали основой для их более специализированных систем GPT, включая модели, настроенные на выполнение инструкций , которые, в свою очередь, обеспечивают работу службы чат-ботов ChatGPT . [1]

Термин «GPT» также используется в названиях и описаниях таких моделей, разработанных другими. Например, другие модели GPT включают серию моделей, созданных EleutherAI , [12] и семь моделей, созданных Cerebras в 2023 году. [13] Кроме того, компании в разных отраслях разработали GPT для решения конкретных задач в своих областях, например, «EinsteinGPT» от Salesforce (для CRM ) [14] и «BloombergGPT» от Bloomberg (для финансов). [15]

История

Начальные разработки

Генеративное предварительное обучение (ГП) — давно существующая концепция в приложениях машинного обучения. [16] [17] Первоначально оно использовалось как форма полуконтролируемого обучения , поскольку модель сначала обучается на немаркированном наборе данных ( шаг предварительного обучения ), обучаясь генерировать точки данных в наборе данных, а затем обучается классифицировать маркированный набор данных. [18]

В основном существовало 3 типа ранних GP. Скрытые марковские модели изучают генеративную модель последовательностей для последующих приложений. Например, при распознавании речи обученная HMM выводит наиболее вероятную скрытую последовательность для речевого сигнала, а скрытая последовательность принимается за фонемы речевого сигнала. Они были разработаны в 1970-х годах и стали широко применяться в распознавании речи в 1980-х годах. [19] [20]

Компрессоры обучаются сжимать данные, такие как изображения и текстовые последовательности, а сжатые данные служат хорошим представлением для последующих приложений, таких как распознавание лиц . [21] [22] [23] Автокодировщики аналогичным образом обучаются скрытому представлению данных для последующих последующих приложений, таких как распознавание речи . [24] [25] Связь между автокодировщиками и алгоритмическими компрессорами была отмечена в 1993 году. [26]

В 2010-х годах проблема машинного перевода была решена с помощью рекуррентных нейронных сетей с добавлением механизма внимания . Это было оптимизировано в архитектуру трансформатора , опубликованную исследователями Google в Attention Is All You Need (2017). [27] Это развитие привело к появлению больших языковых моделей, таких как BERT (2018) [28] , которая была предварительно обученным трансформатором (PT), но не была разработана как генеративная (BERT была моделью « только для кодировщика »). Также в 2018 году OpenAI опубликовала Improving Language Understanding by Generative Pre-Training , в которой была представлена ​​GPT-1 , первая в серии GPT. [29]

Ранее, в 2017 году, некоторые из авторов, которые позже будут работать над GPT-1, работали над генеративным предварительным обучением языка с помощью LSTM , что привело к созданию модели, которая могла представлять текст с помощью векторов, которые можно было легко настроить для последующих приложений. [30]

До архитектуры на основе трансформаторов, наиболее эффективные нейронные модели NLP ( обработки естественного языка ) обычно использовали контролируемое обучение на больших объемах вручную размеченных данных. Зависимость от контролируемого обучения ограничивала их использование на наборах данных, которые не были хорошо аннотированы, а также делала обучение чрезвычайно больших языковых моделей непозволительно дорогим и трудоемким. [29]

Полуконтролируемый подход , который OpenAI использовал для создания крупномасштабной генеративной системы (и впервые применил модель трансформатора), включал два этапа: неконтролируемый генеративный этап «предобучения» для установки начальных параметров с использованием цели моделирования языка и контролируемый дискриминационный этап « тонкой настройки » для адаптации этих параметров к целевой задаче. [29]

Дальнейшие события

Что касается более поздних моделей GPT, OpenAI опубликовала свои первые версии GPT-3 в июле 2020 года. Было три модели с параметрами 1B, 6.7B, 175B, названные соответственно babbage, curie и davinci (с инициалами B, C и D). [ необходима ссылка ]

В июле 2021 года OpenAI опубликовала Codex — модель GPT для конкретных задач, предназначенную для приложений программирования. Она была разработана путем тонкой настройки версии GPT-3 с 12B параметрами (отличной от предыдущих моделей GPT-3) с использованием кода из GitHub . [31]

В марте 2022 года OpenAI опубликовала две версии GPT-3, которые были доработаны для выполнения инструкций (instruction-tuned), названные davinci-instruct-beta (175B) и text-davinci-001 , [32] а затем начала бета-тестирование code-davinci-002 . [33] text-davinci-002 был доработан для выполнения инструкций на основе code-davinci-002 . И text-davinci-003 , и ChatGPT были выпущены в ноябре 2022 года, причем обе они были основаны на text-davinci-002 с помощью обучения с подкреплением на основе обратной связи с человеком (RLHF). text-davinci-003 обучен следовать инструкциям (как и его предшественники), тогда как ChatGPT дополнительно обучен для разговорного взаимодействия с пользователем-человеком. [34] [35]

Последняя модель фундамента GPT от OpenAI, GPT-4 , была выпущена 14 марта 2023 года. Пользователи могут получить к ней прямой доступ через премиум-версию ChatGPT, а разработчики могут встраивать ее в другие продукты и сервисы через API OpenAI . Другие производители моделей фундамента GPT включают EleutherAIсерией моделей, начинающейся в марте 2021 года) [12] и Cerebras (с семью моделями, выпущенными в марте 2023 года). [13]

Фундаментальные модели

Базовая модель — это модель ИИ, обученная на обширных данных в таком масштабе, что ее можно адаптировать для широкого спектра последующих задач. [36] [37]

До сих пор наиболее заметными моделями-основами GPT были модели из серии GPT-n компании OpenAI . Последней из них является GPT-4 , для которой OpenAI отказалась публиковать размер или подробности обучения (сославшись на «конкурентную среду и последствия безопасности крупномасштабных моделей»). [38]

Другие подобные модели включают PaLM от Google , широкую базовую модель, которая сравнивалась с GPT-3 и недавно стала доступна разработчикам через API , [45] [46] и GPT-JT от Together , которая была представлена ​​как наиболее близкая по производительности альтернатива с открытым исходным кодом к GPT-3 (и получена из более ранних GPT с открытым исходным кодом ). [47] Meta AI (ранее Facebook ) также имеет генеративную базовую модель большого языка на основе трансформатора, известную как LLaMA . [48]

Фундаментальные GPT также могут использовать модальности , отличные от текста, для ввода и/или вывода. GPT-4 — это многомодальный LLM, способный обрабатывать текстовый и графический ввод (хотя его вывод ограничен текстом). [49] Что касается многомодального вывода , некоторые модели на основе генеративного трансформатора используются для технологий преобразования текста в изображение, таких как диффузия [50] и параллельное декодирование. [51] Такие типы моделей могут служить визуальными базовыми моделями (VFM) для разработки нисходящих систем, которые могут работать с изображениями. [52]

Модели, ориентированные на конкретные задачи

Фундаментальная модель GPT может быть дополнительно адаптирована для создания более целевых систем, направленных на конкретные задачи и/или предметные области. Методы такой адаптации могут включать дополнительную тонкую настройку (помимо той, что была сделана для базовой модели), а также определенные формы оперативной инженерии . [53]

Важным примером этого является тонкая настройка моделей для выполнения инструкций , что, конечно, является довольно широкой задачей, но более целенаправленной, чем базовая модель. В январе 2022 года OpenAI представила «InstructGPT» — серию моделей, которые были тонко настроены для выполнения инструкций с использованием комбинации контролируемого обучения и обучения с подкреплением на основе обратной связи с человеком (RLHF) на основе языковых моделей GPT-3. [54] [55] Преимущества этого по сравнению с голыми базовыми моделями включали более высокую точность, меньше негативных/токсичных настроений и в целом лучшее соответствие потребностям пользователей. Поэтому OpenAI начала использовать это в качестве основы для своих предложений услуг API . [56] Другие модели, настроенные на инструкции, были выпущены другими, включая полностью открытую версию. [57] [58]

Другой (связанный) тип моделей, ориентированных на задачи, — это чат-боты , которые ведут разговор, подобный человеческому. В ноябре 2022 года OpenAI запустила ChatGPT — интерфейс онлайн-чата, работающий на основе языковой модели с настройкой на инструкции, обученной аналогично InstructGPT. [59] Они обучили эту модель с помощью RLHF, при этом тренеры-люди с ИИ обеспечивали разговоры, в которых они играли как пользователя, так и ИИ, и смешивали этот новый набор данных диалога с набором данных InstructGPT для разговорного формата, подходящего для чат-бота. Другие основные чат-боты в настоящее время включают Bing Chat от Microsoft , который использует GPT-4 от OpenAI (в рамках более широкого тесного сотрудничества между OpenAI и Microsoft), [60] и конкурирующий чат-бот Bard от Google (первоначально основанный на их семействе языковых моделей, обученных разговору LaMDA , с планами перехода на PaLM ). [61]

Еще один вид задач, для которых может использоваться GPT, — это метазадача генерации собственных инструкций, например, разработка серии подсказок для «себя», чтобы иметь возможность выполнить более общую цель, заданную пользователем-человеком. [62] Это известно как агент ИИ , и, более конкретно, рекурсивный, потому что он использует результаты своих предыдущих самоинструкций, чтобы помочь себе сформировать свои последующие подсказки; первым крупным примером этого был Auto-GPT (который использует модели GPT OpenAI), и с тех пор были разработаны и другие. [63]

Мультимодальность

Генеративные системы на основе трансформаторов также могут быть нацелены на задачи, включающие модальности за пределами текста. Например, Microsoft "Visual ChatGPT" объединяет ChatGPT с визуальными моделями фундамента (VFM), чтобы обеспечить ввод или вывод, включающий изображения и текст. [64] Кроме того, достижения в технологии преобразования текста в речь предлагают инструменты для создания аудиоконтента при использовании в сочетании с основополагающими языковыми моделями GPT. [65]

Специфичность домена

Системы GPT могут быть направлены на определенные поля или домены. Вот некоторые из известных примеров таких моделей и приложений:

Иногда специфичность домена достигается с помощью программных подключаемых модулей или дополнений . Например, несколько разных компаний разработали определенные плагины, которые напрямую взаимодействуют с интерфейсом OpenAI ChatGPT , [73] [74] а Google Workspace имеет доступные дополнения, такие как «GPT для таблиц и документов», которые, как сообщается, помогают использовать функциональность электронных таблиц в Google Таблицах . [75] [76]

В ноябре 2023 года OpenAI объявила, что позволяет подписчикам ChatGPT Plus создавать пользовательские версии ChatGPT (называемые GPT ). [77] Их можно адаптировать для определенных доменов с помощью оперативной разработки, курируемых наборов данных и/или целевого взаимодействия с внешними инструментами. Пользователи, которые регистрируются как проверенные разработчики, могут публиковать свои пользовательские GPT для других пользователей с потенциалом монетизации. (Это заметно отличается от службы API OpenAI, поскольку она базируется внутри платформы OpenAI.)

Проблемы с брендом

OpenAI , создавшая первый генеративный предварительно обученный трансформатор (GPT) в 2018 году, недавно заявила, что «GPT» следует рассматривать как бренд OpenAI. [78] В апреле 2023 года OpenAI пересмотрела руководящие принципы бренда в своих условиях обслуживания , чтобы указать, что другие компании, использующие ее API для запуска своих служб искусственного интеллекта (ИИ), больше не смогут включать «GPT» в такие названия или брендинг. [79] В мае 2023 года OpenAI привлекла службу управления брендом для уведомления своих клиентов API об этой политике, хотя эти уведомления не содержали явных юридических претензий (таких как обвинения в нарушении прав на товарный знак или требования прекратить и воздержаться ). [78] По состоянию на ноябрь 2023 года OpenAI по-прежнему запрещает своим лицензиатам API называть свои собственные продукты «GPT», [80] но он начал разрешать своим подписчикам ChatGPT Plus создавать «пользовательские версии ChatGPT», которые называются GPT на сайте OpenAI. [81] В условиях обслуживания OpenAI говорится, что его подписчики могут использовать «GPT» в своих названиях, хотя это «не рекомендуется». [80]

В связи с этим OpenAI подала заявку в Патентное и товарное ведомство США (USPTO) на регистрацию товарного знака на территории США для термина «GPT» в области ИИ. [78] OpenAI пыталась ускорить обработку своей заявки, но USPTO отклонило эту просьбу в апреле 2023 года. [82] В мае 2023 года USPTO ответила на заявку, постановив, что «GPT» является как описательным, так и родовым. [83] По состоянию на ноябрь 2023 года OpenAI продолжает отстаивать свою позицию с помощью доступных процессов. Независимо от этого, отсутствие зарегистрированного товарного знака США не исключает определенного уровня прав на товарный знак общего права в США [84] и/или прав на товарный знак в других странах. [85]

Для любого данного типа или сферы действия защиты товарного знака в США OpenAI необходимо будет установить, что термин на самом деле является « отличительным » для их конкретных предложений в дополнение к тому, что он является более широким техническим термином для типа технологии. Некоторые сообщения в СМИ предполагают, что OpenAI может получить регистрацию товарного знака косвенно на основе известности своего продукта чат-бота на основе GPT, ChatGPT , [82] [86] для которого OpenAI отдельно запросила защиту (и которую она стремилась обеспечить более строго). [87] Другие сообщения указывают на то, что регистрация простого термина «GPT» вряд ли будет предоставлена, [78] [88] поскольку он часто используется как общий термин для обозначения просто систем ИИ, которые включают генеративные предварительно обученные трансформаторы. [3] [89] [90] [91] В любом случае, в какой бы степени исключительные права на этот термин ни имели место в США, другим следует избегать его использования для аналогичных продуктов или услуг способами, которые могут вызвать путаницу. [88] [92] Если такие права когда-либо станут достаточно широкими, чтобы включать другие устоявшиеся способы использования в этой области, доктрина товарных знаков описательного добросовестного использования все равно может продолжаться в использовании, не связанном с брендом. [93]

Избранная библиография

В этом разделе перечислены основные официальные публикации OpenAI и Microsoft по их моделям GPT.

Смотрите также

Ссылки

  1. ^ ab Haddad, Mohammed. «Как работает GPT-4 и как начать использовать его в ChatGPT?». www.aljazeera.com .
  2. ^ ab «Генеративный ИИ: общество, которое должно быть готово к переменам». Всемирный экономический форум . 9 января 2023 г.
  3. ^ abc "Искусственный интеллект от А до Я". Время . 13 апреля 2023 г.
  4. ^ Ху, Лухуэй (15 ноября 2022 г.). «Генеративный ИИ и будущее». Medium .
  5. ^ "CSDL | Компьютерное общество IEEE". www.computer.org .
  6. ^ «LibGuides: Использование языковых моделей ИИ: ChatGPT».
  7. ^ Тейвз, Роб. «Следующее поколение больших языковых моделей». Forbes .
  8. ^ Маккендрик, Джо (13 марта 2023 г.). «Большинство рабочих мест вскоре будут «подвержены влиянию» искусственного интеллекта, свидетельствуют исследования OpenAI и Пенсильванского университета». Forbes .
  9. ^ abcd "Улучшение понимания языка с помощью обучения без учителя". openai.com . 11 июня 2018 г. Архивировано из оригинала 2023-03-18 . Получено 2023-03-18 .
  10. ^ «GPT-1 — GPT-4: объяснение и сравнение каждой из моделей GPT OpenAI». MUO . 11 апреля 2023 г.
  11. ^ "GPT-4". openai.com . Получено 2023-12-08 .
  12. ^ ab Alford, Anthony (13 июля 2021 г.). "EleutherAI открывает исходный код клона GPT-3 GPT-J с шестью миллиардами параметров". InfoQ .
  13. ^ ab "Новости" (Пресс-релиз).
  14. ^ Моррисон, Райан (7 марта 2023 г.). «Salesforce запускает EinsteinGPT, созданный с использованием технологии OpenAI». Tech Monitor .
  15. ^ «Финансовый ChatGPT уже здесь, Bloomberg объединяет ИИ и финтех». Forbes .
  16. ^ Хинтон (и др.), Джеффри (15 октября 2012 г.). "Глубокие нейронные сети для акустического моделирования в распознавании речи" (PDF) . Журнал IEEE Signal Processing Magazine . Цифровой идентификатор объекта 10.1109/MSP.2012.2205597. doi :10.1109/MSP.2012.2205597. S2CID  206485943.
  17. ^ Дэн, Ли (2014-01-22). "Учебный обзор архитектур, алгоритмов и приложений для глубокого обучения | Труды APSIPA по обработке сигналов и информации | Cambridge Core". Труды Apsipa по обработке сигналов и информации . 3. Cambridge.org: e2. doi : 10.1017/atsip.2013.9 . S2CID  9928823.
  18. ^ Эрхан, Думитру; Курвиль, Аарон; Бенжио, Йошуа; Винсент, Паскаль (31.03.2010). «Почему неконтролируемое предварительное обучение помогает глубокому обучению?». Труды тринадцатой международной конференции по искусственному интеллекту и статистике . Труды семинара и конференции JMLR: 201–208.
  19. ^ "First-Hand:The Hidden Markov Model – Engineering and Technology History Wiki". ethw.org . 12 января 2015 г. Архивировано из оригинала 3 апреля 2018 г. Получено 1 мая 2018 г.
  20. ^ Juang, BH; Rabiner, LR (1991). «Скрытые марковские модели для распознавания речи». Technometrics . 33 (3): 251–272. doi :10.2307/1268779. ISSN  0040-1706. JSTOR  1268779.
  21. ^ Коттрелл, Гаррисон В.; Манро, Пол; Зипсер, Дэвид (1987). «Изучение внутреннего представления на основе изображений в оттенках серого: пример экстенсионального программирования». Труды ежегодного собрания Общества когнитивной науки . 9 .
  22. ^ Коттрелл, Гаррисон В. (1991-01-01), Турецки, Дэвид С.; Элман, Джеффри Л.; Сейновски, Терренс Дж.; Хинтон, Джеффри Э. (ред.), «Извлечение признаков из лиц с использованием сетей сжатия: распознавание лиц, идентичности, эмоций и пола с использованием холонов», Connectionist Models , Morgan Kaufmann, стр. 328–337, ISBN 978-1-4832-1448-1, получено 2024-10-04
  23. ^ Шмидхубер, Юрген (1992). «Изучение сложных расширенных последовательностей с использованием принципа сжатия истории» (PDF) . Neural Computation . 4 (2): 234–242. doi :10.1162/neco.1992.4.2.234. S2CID  18271205.
  24. ^ Элман, Джеффри Л.; Зипсер, Дэвид (1 апреля 1988 г.). «Изучение скрытой структуры речи». Журнал Акустического общества Америки . 83 (4): 1615–1626. Bibcode : 1988ASAJ...83.1615E. doi : 10.1121/1.395916. ISSN  0001-4966. PMID  3372872.
  25. ^ Бурлард, Х.; Камп, И. (1988). «Автоассоциация многослойными персептронами и сингулярное разложение». Биологическая кибернетика . 59 (4–5): 291–294. doi :10.1007/BF00332918. PMID  3196773. S2CID  206775335.
  26. ^ Хинтон, Джеффри Э.; Земель, Ричард (1993). «Автоэнкодеры, минимальная длина описания и свободная энергия Гельмгольца». Достижения в области нейронных систем обработки информации . 6. Морган-Кауфманн.
  27. ^ Васвани, Ашиш ; Шазир, Ноам; Пармар, Ники; Ушкорейт, Якоб; Джонс, Лион; Гомес, Эйдан Н ; Кайзер, Лукаш; Полосухин, Илья (2017). «Внимание — это все, что вам нужно» (PDF) . Достижения в области нейронных систем обработки информации . 30 . Карран Ассошиэйтс, Инк.
  28. ^ Девлин, Джейкоб; Чанг, Мин-Вэй; Ли, Кентон; Тутанова, Кристина (24 мая 2019 г.). «BERT: Предварительная подготовка глубоких двунаправленных преобразователей для понимания языка». Ассоциация компьютерной лингвистики . arXiv : 1810.04805v2 .
  29. ^ abc Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya (11 июня 2018 г.). «Улучшение понимания языка с помощью генеративного предварительного обучения» (PDF) . OpenAI . стр. 12. Архивировано (PDF) из оригинала 26 января 2021 г. . Получено 23 января 2021 г. .
  30. ^ Рэдфорд, Алек; Юзефович, Рафал; Суцкевер, Илья (2017-04-06), Learning to Generation Reviews and Discovering Sentiment, doi :10.48550/arXiv.1704.01444 , получено 2024-10-15
  31. ^ Чен, Марк; Творек, Джерри; Цзюнь, Хиву; Юань, Цимин; Понде де Оливейра Пинту, Энрике; Каплан, Джаред; Эдвардс, Харри; Бурда, Юрий; Джозеф, Николас; Брокман, Грег; Рэй, Алекс; Пури, Рауль; Крюгер, Гретхен; Петров, Майкл; Хлааф, Хайди (2021-07-01). "Оценка больших языковых моделей, обученных на коде". Ассоциация компьютерной лингвистики . arXiv : 2107.03374 .
  32. ^ Оуян, Лонг; У, Джеффри; Цзян, Сюй; Алмейда, Диого; Уэйнрайт, Кэрролл; Мишкин, Памела; Чжан, Чонг; Агарвал, Сандхини; Слама, Катарина; Рэй, Алекс; Шульман, Джон; Хилтон, Джейкоб; Келтон, Фрейзер; Миллер, Люк; Сименс, Мэдди (2022-12-06). «Обучение языковых моделей следованию инструкциям с обратной связью от человека». Достижения в области нейронных систем обработки информации . 35 : 27730–27744. arXiv : 2203.02155 .
  33. ^ "Новые возможности GPT-3: редактирование и вставка". openai.com . Получено 24.06.2023 .
  34. ^ Фу, Яо; Пэн, Хао; Хот, Тушар (2022). «Как GPT получает свою способность? Отслеживание возникающих способностей языковых моделей до их источников». Понятие Яо Фу .
  35. ^ "Model index for researchers". OpenAI API . Архивировано из оригинала 23 июня 2023 г. Получено 23 июня 2023 г.
  36. ^ «Представляем Центр исследований фундаментальных моделей (CRFM)». Стэнфордский институт прикладных исследований . 18 августа 2021 г.
  37. ^ «Размышления о моделях фундамента». hai.stanford.edu . 2021-10-18 . Получено 2024-08-15 .
  38. ^ ab OpenAI (2023). "Технический отчет GPT-4" (PDF) . Архивировано (PDF) из оригинала 2023-03-14 . Получено 2023-03-16 .
  39. ^ Чжу, Юкун; Кирос, Райан; Земель, Рич; Салахутдинов, Руслан; Уртасун, Ракель; Торральба, Антонио; Фидлер, Санджа (2015). Выравнивание книг и фильмов: на пути к визуальным объяснениям в стиле историй путем просмотра фильмов и чтения книг. Международная конференция IEEE по компьютерному зрению (ICCV) 2015. стр. 19–27. arXiv : 1506.06724 . Архивировано из оригинала 2023-02-05 . Получено 2023-02-07 .
  40. ^ Винсент, Джеймс (7 ноября 2019 г.). «OpenAI опубликовала ИИ, генерирующий текст, который, по ее словам, слишком опасен для распространения». The Verge .
  41. ^ abcd Браун, Том Б.; Манн, Бенджамин; Райдер, Ник; Суббиа, Мелани; Каплан, Джаред; Дхаривал, Прафулла; Нилакантан, Арвинд; Шьям, Пранав; Шастри, Гириш; Аскелл, Аманда; Агарвал, Сандхини; Герберт-Фосс, Ариэль; Крюгер, Гретхен; Хенигхан, Том; Чайлд, Ревон; Рамеш, Адитья; Циглер, Дэниел М.; Ву, Джеффри; Винтер, Клеменс; Гессе, Кристофер; Чен, Марк; Сиглер, Эрик; Литвин, Матеуш; Грей, Скотт; Чесс, Бенджамин; Кларк, Джек; Бернер, Кристофер; Маккэндлиш, Сэм; Рэдфорд, Алек; Суцкевер, Илья; Амодеи, Дарио (28 мая 2020 г.). «Языковые модели — это ученики с малым количеством попыток». NeurIPS . arXiv : 2005.14165v4 .
  42. ^ abc "Визуализация трендов ввода ML". Эпоха . Получено 2023-05-02 .
  43. ^ ab Ver Meer, Dave (1 июня 2023 г.). "Статистика ChatGPT". NamePepper . Получено 09.06.2023 .
  44. ^ «GPT-4 имеет более триллиона параметров – Отчет». 25 марта 2023 г.
  45. ^ Винсент, Джеймс (14 марта 2023 г.). «Google открывает свою модель языка ИИ PaLM, чтобы бросить вызов OpenAI и GPT-3». The Verge .
  46. ^ «Google открывает доступ к языковой модели PaLM».
  47. ^ Айер, Апарна (30 ноября 2022 г.). «Встречайте GPT-JT, ближайшую альтернативу GPT-3 с открытым исходным кодом». Журнал Analytics India .
  48. ^ «Meta представляет языковую модель ИИ, но она предназначена только для исследователей». PCMAG .
  49. ^ Ислам, Архам (27 марта 2023 г.). «Мультимодальные языковые модели: будущее искусственного интеллекта (ИИ)». Архивировано из оригинала 15 мая 2023 г. Получено 15 мая 2023 г.
  50. ^ Ислам, Архам (14 ноября 2022 г.). «Как работают DALL·E 2, стабильная диффузия и промежуточное путешествие?».
  51. ^ Саха, Шритама (4 января 2023 г.). «Google запускает Muse, новую модель преобразования текста в изображение». Журнал Analytics India .
  52. Ву (и др.), Чэньфэй (8 марта 2023 г.). «Визуальный чатGPT». arXiv : 2303.04671 [cs.CV].
  53. Боммасани (и др.), Риши (12 июля 2022 г.). «О возможностях и рисках моделей фундамента». arXiv : 2108.07258 [cs.LG].
  54. ^ ab "Выравнивание языковых моделей для выполнения инструкций". openai.com . Архивировано из оригинала 23 марта 2023 г. . Получено 23 марта 2023 г. .
  55. ^ ab Оуян, Лонг; У, Джефф; Цзян, Сюй; и др. (4 ноября 2022 г.). «Обучение языковых моделей следованию инструкциям с обратной связью от человека». NeurIPS . arXiv : 2203.02155 .
  56. ^ Рамнани, Мита (28 января 2022 г.). «OpenAI отказывается от собственного GPT-3 в пользу чего-то под названием InstructGPT, и на то есть веская причина». Журнал Analytics India .
  57. ^ "Стэнфорд CRFM". crfm.stanford.edu .
  58. ^ "Free Dolly: Представляем первую в мире по-настоящему открытую программу LLM с настроенными инструкциями". Databricks . 12 апреля 2023 г.
  59. ^ ab "Введение в ChatGPT". openai.com . Архивировано из оригинала 2023-03-16 . Получено 2023-03-16 .
  60. Виггерс, Кайл (4 мая 2023 г.). «Microsoft делает ставку на ИИ с новыми функциями Bing».
  61. ^ «ChatGPT против Bing против Google Bard: какой ИИ самый полезный?». CNET .
  62. ^ «Auto-GPT, BabyAGI и AgentGPT: как использовать агенты ИИ». Mashable . 19 апреля 2023 г.
  63. ^ Марр, Бернард. «Auto-GPT может стать мощным инструментом ИИ, превосходящим ChatGPT». Forbes .
  64. ^ "Microsoft Open-Sources Multimodal Chatbot Visual ChatGPT". InfoQ .
  65. ^ Эдвардс, Бендж (9 января 2023 г.). «Новый ИИ от Microsoft может имитировать голос любого человека с помощью 3 секунд аудио». Ars Technica .
  66. ^ Моррисон, Райан (7 марта 2023 г.). «Salesforce запускает EinsteinGPT, созданный с использованием технологии OpenAI».
  67. ^ Шарма, Анимеш К.; Шарма, Рахул (2023). «Роль генеративных предварительно обученных трансформаторов (GPT) в революции цифрового маркетинга: концептуальная модель». Журнал стратегии культурного маркетинга . 8 (1): 80–90. doi :10.69554/TLVQ2275.
  68. ^ Лесвинг, Киф (13 апреля 2023 г.). «Bloomberg планирует интегрировать ИИ в стиле GPT в свой терминал». CNBC .
  69. ^ "Некоммерческая образовательная организация Khan Academy тестирует версию GPT под названием Khanmigo". Fast Company . 4 мая 2023 г. Получено 22 мая 2023 г.
  70. ^ "Академия Хана испытывает инструмент GPT-4 Khanmigo для учителей". Журнал THE .
  71. ^ Хачман, Марк (4 мая 2023 г.). «Slack GPT добавит чат-ботов на основе искусственного интеллекта в ваши разговоры». PCWorld .
  72. ^ Luo (et-al), Renqian (3 апреля 2023 г.). "BioGPT: генеративный предварительно обученный трансформатор для генерации и добычи биомедицинского текста". Briefings in Bioinformatics . 23 (6). arXiv : 2210.10341 . doi : 10.1093/bib/bbac409. PMID  36156661.
  73. ^ «Узнайте о 13 лучших плагинах ChatGPT, призванных улучшить ваш общий пользовательский опыт». Последние тенденции цифровой трансформации | Новости облака | Wire19 . 5 мая 2023 г.
  74. ^ "Плагины ChatGPT". openai.com .
  75. ^ «Как использовать ChatGPT в Google Таблицах с GPT для Таблиц и Документов». MUO . 12 марта 2023 г.
  76. ^ Асэй, Мэтт (27 февраля 2023 г.). «Используйте и расширяйте возможности Excel для подготовки данных с помощью ИИ». InfoWorld .
  77. ^ https://www.techopedia.com/definition/openai-gpts
  78. ^ abcd Хикс, Уильям (10 мая 2023 г.). «Создатель ChatGPT OpenAI просит стартапы убрать «GPT» из своих названий». The Business Journal . Получено 21 мая 2023 г.
  79. ^ OpenAI (24 апреля 2023 г.). "Brand Guidelines" . Получено 21 мая 2023 г. .
  80. ^ ab "Руководство по использованию бренда".
  81. ^ «Введение в GPTS».
  82. ^ ab Heah, Alexa (26 апреля 2023 г.). «OpenAI не удалось ускорить попытку зарегистрировать торговую марку 'GPT'». DesignTAXI . Получено 21 мая 2023 г. .
  83. ^ "НЕОКОНЧАТЕЛЬНОЕ ОФИСИОННОЕ ДЕЙСТВИЕ". USPTO . 25 мая 2023 г.
  84. ^ «Закон США о товарных знаках». Декабрь 2015 г.
  85. ^ «Международные права на товарные знаки».
  86. ^ «OpenAI хочет зарегистрировать торговую марку «GPT» на фоне роста популярности чат-ботов на основе искусственного интеллекта». Tech Times. 25 апреля 2023 г. Получено 21 мая 2023 г.
  87. ^ Луиза, Ники (3 апреля 2023 г.). «OpenAI подает иск UDRP против текущего владельца ChatGPT.com» . Получено 21 мая 2023 г.
  88. ^ ab Demcak, Tramatm-Igor (2023-04-26). "OpenAI's Battle for Brand Protection: Can GPT be Trademarked?". Lexology . Архивировано из оригинала 5 мая 2023 г. Получено 22 мая 2023 г.
  89. ^ Лоутон, Джордж (20 апреля 2023 г.). «ChatGPT против GPT: чем они отличаются? | TechTarget». Enterprise AI . Архивировано из оригинала 9 мая 2023 г. . Получено 21 мая 2023 г. .
  90. ^ Робб, Дрю (12.04.2023). "GPT-4 против ChatGPT: сравнение чат-ботов с искусственным интеллектом". eWEEK . Получено 21.05.2023 .
  91. ^ Руссо, Филип (22 августа 2023 г.). «Генезис генеративного ИИ для всего и везде в CRE». Commercial Observer . Архивировано из оригинала 24 августа 2023 г.
  92. ^ «Нарушение прав на товарный знак».
  93. ^ Райнтген, Husch Blackwell LLP - Кэтлин А. (16 августа 2013 г.). «Брендинг 101: добросовестное использование описания товарных знаков». Лексология . Проверено 21 мая 2023 г.
  94. ^ Finetune-transformer-lm, OpenAI, 11 июня 2018 г. , получено 1 мая 2023 г.
  95. ^ "GPT-2: 1.5B release". openai.com . Получено 2023-05-01 .
  96. ^ Солайман, Ирен ; Брандейдж, Майлз; Кларк, Джек; Аскелл, Аманда; Герберт-Восс, Ариэль; Ву, Джефф; Рэдфорд, Алек; Крюгер, Гретхен; Ким, Чон Ук; Крепс, Сара; Маккейн, Майлз; Ньюхаус, Алекс; Блазакис, Джейсон; Макгаффи, Крис; Ван, Жасмин (2019-11-12). «Стратегии выпуска и социальное воздействие языковых моделей». arXiv : 1908.09203 [cs.CL].
  97. ^ gpt-2, OpenAI, 2023-05-01 , получено 2023-05-01
  98. ^ "WebGPT: Повышение фактической точности языковых моделей посредством веб-браузинга". openai.com . Архивировано из оригинала 21 июня 2023 г. Получено 2023-07-02 .
  99. ^ Накано, Рейитиро; Хилтон, Джейкоб; Баладжи, Сучир; Ву, Джефф; Оуян, Лонг; Ким, Кристина; Гессе, Кристофер; Джейн, Шантану; Косараджу, Винит; Сондерс, Уильям; Цзян, Сюй; Кобб, Карл; Элунду, Тайна; Крюгер, Гретхен; Баттон, Кевин (2021-12-01). "WebGPT: Браузер-ассистированная система вопросов и ответов с обратной связью от человека". CoRR . arXiv : 2112.09332 .
  100. ^ "GPT-4". openai.com . Получено 2023-05-01 .
  101. ^ OpenAI (2023-03-27). "Технический отчет GPT-4". arXiv : 2303.08774 [cs.CL].
  102. ^ Бубек, Себастьян; Чандрасекаран, Варун; Эльдан, Ронен; Герке, Йоханнес; Хорвиц, Эрик; Камар, Эдже; Ли, Питер; Ли, Инь Тат; Ли, Юаньчжи; Лундберг, Скотт; Нори, Харша; Паланги, Хамид; Рибейро, Марко Тулио; Чжан, И (13 апреля 2023 г.). «Искры общего искусственного интеллекта: ранние эксперименты с GPT-4». arXiv : 2303.12712 [cs.CL].
  103. ^ Системная карта GPT-4, OpenAI, 23 марта 2023 г. (дата обращения: 22 мая 2023 г.).
  104. ^ «Привет, GPT-4o» . ОпенАИ . 13 мая 2024 г.