В области искусственного интеллекта (ИИ) галлюцинация или искусственная галлюцинация (также называемая конфабуляцией [1] или заблуждением [2] ) — это реакция, генерируемая ИИ, которая содержит ложную или вводящую в заблуждение информацию, представленную как факт . [3] [4] [5]
Например, галлюцинирующий чат-бот может, когда его попросят создать финансовый отчет компании, ложно заявить, что доход компании составляет 13,6 миллиардов долларов (или какую-то другую цифру, очевидно «взятую из воздуха»). [6] Такие явления называются «галлюцинациями», по общей аналогии с явлением галлюцинаций в психологии человека . Однако одно ключевое отличие состоит в том, что человеческие галлюцинации обычно связаны с ложными представлениями , а галлюцинации ИИ связаны с категорией необоснованных реакций или убеждений. [5] Некоторые исследователи считают, что конкретный термин «галлюцинация искусственного интеллекта» необоснованно антропоморфизирует компьютеры. [1]
Галлюцинации ИИ приобрели известность во время бума ИИ , наряду с внедрением широко используемых чат-ботов, основанных на больших языковых моделях (LLM), таких как ChatGPT . [7] Пользователи жаловались, что такие чат-боты часто бессмысленно встраивают в генерируемый контент правдоподобно звучащую случайную ложь. [8] К 2023 году аналитики считали частые галлюцинации серьезной проблемой в технологии LLM: по некоторым оценкам, чат-боты галлюцинируют в 27% случаев [9] [10] , а исследование выявило фактические ошибки в 46% сгенерированных ответов. . [11]
При обработке естественного языка галлюцинацию часто определяют как «генерируемый контент, который бессмысленен или не соответствует предоставленному исходному контенту». Существуют разные способы классификации галлюцинаций. В зависимости от того, противоречат ли выходные данные источнику или не могут быть проверены по источнику, они делятся на внутренние и внешние соответственно. [5] В зависимости от того, противоречит ли вывод подсказке или нет, их можно разделить на закрытые и открытые соответственно. [12]
Есть несколько причин, по которым модели естественного языка галлюцинируют данные. [5]
Основной причиной галлюцинаций от данных является расхождение источника и ссылки. Это расхождение происходит 1) как артефакт сбора эвристических данных или 2) из-за характера некоторых задач NLG, которые неизбежно содержат такое расхождение. Когда модель обучается на данных с расхождением между источником и ссылкой (целью), можно стимулировать модель генерировать текст, который не обязательно обоснован и не соответствует предоставленному источнику. [5]
Было показано, что галлюцинации являются статистически неизбежным побочным продуктом любой несовершенной генеративной модели, которая обучена максимизировать вероятность обучения, такой как GPT-3 , и требует активного обучения (например, обучения с подкреплением на основе обратной связи от человека ), которого следует избегать. [13] Другие исследования принимают антропоморфическую точку зрения и полагают, что галлюцинации возникают из-за противоречия между новизной и полезностью. Например, Тереза Амабайл и Пратт определяют человеческое творчество как производство новых и полезных идей. [14] В более широком смысле, акцент на новизне в машинном творчестве может привести к выработке оригинальных, но неточных ответов, то есть ложных, тогда как акцент на полезности может привести к неэффективным механическому запоминанию ответов. [15]
Ошибки в кодировании и декодировании текста и изображений могут вызвать галлюцинации. Когда кодировщики изучают неправильные корреляции между различными частями обучающих данных, это может привести к ошибочной генерации, которая отличается от входных данных. Декодер принимает закодированные входные данные от кодера и генерирует окончательную целевую последовательность. Два аспекта декодирования способствуют галлюцинациям. Во-первых, декодеры могут обрабатывать не ту часть закодированного входного источника, что приводит к ошибочной генерации. Во-вторых, сама по себе стратегия декодирования может способствовать галлюцинациям. Стратегия декодирования, которая улучшает разнообразие поколений, такая как выборка top-k, положительно коррелирует с усилением галлюцинаций.
Известно, что предварительное обучение моделей на большом корпусе приводит к тому, что модель запоминает знания в своих параметрах, создавая галлюцинации, если система слишком уверена в своих зашитых знаниях. В таких системах, как GPT-3 , ИИ генерирует каждое следующее слово на основе последовательности предыдущих слов (включая слова, которые он сам ранее сгенерировал во время того же разговора), вызывая каскад возможных галлюцинаций по мере увеличения продолжительности ответа. [5] К 2022 году такие газеты, как The New York Times , выразили обеспокоенность тем, что, поскольку распространение ботов, основанных на больших языковых моделях, продолжает расти, неоправданное доверие пользователей к выводам ботов может привести к проблемам. [16]
В августе 2022 года во время выпуска BlenderBot 3 Meta предупредила, что система склонна к «галлюцинациям», которые Meta определила как «уверенные утверждения, которые не соответствуют действительности». [ нужна цитата ] [17] 15 ноября 2022 года Мета представила демоверсию «Галактики», предназначенную для «хранения, объединения и рассуждения о научных знаниях». Контент, созданный Galactica, сопровождался предупреждением: «Результаты могут быть ненадежными! Языковые модели склонны к галлюцинациям текста». В одном случае, когда Galactica попросили подготовить статью о создании аватаров, она процитировала вымышленную статью реального автора, работающего в соответствующей области. Мета покинула Галактику 17 ноября из-за оскорбительного поведения и неточности. [18]
ChatGPT от OpenAI , выпущенный в бета-версии для широкой публики 30 ноября 2022 года, основан на базовой модели GPT-3.5 (пересмотр GPT-3 ). Профессор Итан Моллик из Wharton назвал ChatGPT «всезнающим, всегда готовым угодить стажером, который иногда вам лжет». Специалист по данным Тереза Кубака рассказала, как намеренно придумала фразу «циклоидальный перевернутый электромагнон» и протестировала ChatGPT, задав ему вопрос о (несуществующем) явлении. ChatGPT придумал правдоподобный ответ, подкрепленный правдоподобными цитатами, которые заставили ее еще раз проверить, не набрала ли она случайно название реального явления. Другие ученые, такие как Орен Эциони, присоединились к Кубаке в оценке, что такое программное обеспечение часто может дать вам «очень впечатляюще звучащий ответ, который просто совершенно неверен». [19]
Когда CNBC запросил у ChatGPT текст песни « Баллада о Дуайте Фрае », ChatGPT предоставил придуманный текст, а не настоящий текст. [20] На вопросы о Нью-Брансуике ChatGPT получил много правильных ответов, но неправильно классифицировал Саманту Би как «человека из Нью-Брансуика». [21] Отвечая на вопрос об астрофизических магнитных полях, ChatGPT неверно ответил, что «(сильные) магнитные поля черных дыр генерируются чрезвычайно сильными гравитационными силами в их окрестностях». (На самом деле, как следствие теоремы об отсутствии волос , считается, что черная дыра без аккреционного диска не имеет магнитного поля.) [22] Fast Company попросила ChatGPT создать новостную статью о последнем финансовом квартале Теслы; ChatGPT создал связную статью, но привел финансовые цифры, содержащиеся в ней. [6]
Другие примеры включают в себя наживку ChatGPT ложной посылкой, чтобы увидеть, не приукрашивает ли она эту предпосылку. Когда его спросили об « идее Гарольда Кауарда о динамической каноничности», ChatGPT выдумал, что Кауард написал книгу под названием « Динамическая каноничность: модель библейской и теологической интерпретации» , утверждая, что религиозные принципы на самом деле находятся в состоянии постоянного изменения. При нажатии ChatGPT продолжал настаивать на том, что книга настоящая. [23] На вопрос о доказательствах того, что динозавры создали цивилизацию, ChatGPT заявил, что существуют ископаемые останки орудий динозавров, и заявил, что «некоторые виды динозавров даже развили примитивные формы искусства, такие как гравюры на камнях». [24] Когда его спросили, что «учёные недавно открыли чуррос , вкусную жареную выпечку… (являются) идеальными инструментами для домашней хирургии», ChatGPT заявил, что «исследование, опубликованное в журнале Science » , показало, что тесто податливо. достаточно для изготовления хирургических инструментов, которые могут попасть в труднодоступные места, и что аромат оказывает успокаивающее действие на пациентов. [25] [26]
К 2023 году аналитики считали частые галлюцинации серьезной проблемой в технологии LLM, а один из руководителей Google назвал снижение галлюцинаций «фундаментальной» задачей для конкурента ChatGPT Google Bard . [9] [27] Демо-версия Bing AI от Microsoft на основе GPT в 2023 году, похоже, содержала несколько галлюцинаций, которые не были уловлены ведущим. [9]
В мае 2023 года было обнаружено, что Стивен Шварц представил шесть фальшивых прецедентов, созданных ChatGPT, в своем заявлении для Южного округа Нью-Йорка по делу Мата против Авианки , делу о телесных повреждениях против авиакомпании Avianca . Шварц сказал, что он никогда ранее не использовал ChatGPT, что он не признавал возможности того, что выходные данные ChatGPT могли быть сфабрикованы, и что ChatGPT продолжал утверждать подлинность прецедентов после того, как было обнаружено их несуществование. [28] В ответ Брантли Старр из Северного округа Техаса запретил подачу сгенерированных ИИ материалов дел, которые не были проверены человеком, отметив, что: [29] [30]
Платформы [генеративного искусственного интеллекта] в их нынешнем состоянии склонны к галлюцинациям и предвзятости . О галлюцинациях они выдумывают всякую ерунду — даже цитаты и цитаты. Другая проблема — надежность или предвзятость. В то время как адвокаты клянутся отказаться от своих личных предубеждений, предубеждений и убеждений, чтобы добросовестно соблюдать закон и представлять своих клиентов, генеративный искусственный интеллект — это продукт программирования, разработанный людьми, которым не приходилось приносить такую клятву. По сути, эти системы не подчиняются ни одному клиенту, верховенству закона, законам и Конституции Соединенных Штатов (или, как говорилось выше, истине). Не связанные никаким чувством долга, чести или справедливости, такие программы действуют в соответствии с компьютерным кодом, а не убеждениями, основанными на программировании, а не на принципах.
23 июня П. Кевин Кастель закрыл дело Маты и наложил штраф в размере 5000 долларов на Шварца и другого адвоката (которые оба продолжали придерживаться фиктивных прецедентов, несмотря на предыдущие заявления Шварца) за недобросовестное поведение. Кастель охарактеризовал многочисленные ошибки и несоответствия в сводках мнений, назвав одно из процитированных мнений «бредом» и «[граничащим] с бессмысленностью». [31]
В июне 2023 года Марк Уолтерс, активист по защите прав на оружие и радиоведущий, подал иск против OpenAI в суд штата Джорджия после того, как ChatGPT неправильно охарактеризовал судебную жалобу , предположительно дискредитируя Уолтерса. Жалоба, о которой идет речь, была подана в мае 2023 года Фондом второй поправки против генерального прокурора Вашингтона Роберта Фергюсона за предполагаемое нарушение свободы слова, тогда как резюме, созданное ChatGPT, не имело никакого сходства и утверждало, что Уолтерс был обвинен в растрате и мошенничестве , когда занимая офисную должность Фонда Второй поправки, которую он никогда не занимал в реальной жизни. По мнению эксперта по правовым вопросам ИИ Евгения Волоха , OpenAI может быть защищена от этого иска разделом 230 , если только суд не установит, что OpenAI «существенно способствовала» публикации дискредитирующего контента. [32]
Модели ИИ могут вызвать проблемы в мире академических и научных исследований из-за своих галлюцинаций. В частности, такие модели, как ChatGPT, были записаны во многих случаях для цитирования источников информации, которые либо неверны, либо не существуют. Исследование, проведенное в журнале Cureus Journal of Medical Science, показало, что из 178 ссылок, цитируемых GPT-3, 69 вернули неправильный или несуществующий DOI . Еще 28 не имели известного DOI и не могли быть найдены с помощью поиска Google . [33]
Другой случай этого явления был задокументирован Джеромом Годдардом из Университета штата Миссисипи . В ходе эксперимента ChatGPT предоставил сомнительную информацию о клещах . Неуверенные в достоверности ответа, они поинтересовались источником, из которого была получена информация. Посмотрев на источник, стало очевидно, что галлюцинацией был не только DOI, но и имена авторов. С некоторыми авторами связались и подтвердили, что им вообще ничего не известно о существовании статьи. [34] Годдард говорит, что «при нынешнем состоянии развития [ChatGPT] врачи и биомедицинские исследователи НЕ должны запрашивать у ChatGPT источники, ссылки или цитаты по конкретной теме. Или, если они это делают, все такие ссылки должны быть тщательно проверены». для точности». [34] Использование этих языковых моделей не подходит для областей академических исследований, и к их использованию следует относиться осторожно [35]
Помимо предоставления неправильных или отсутствующих справочных материалов, ChatGPT также имеет проблемы с галлюцинациями содержания некоторых справочных материалов. Исследование, в котором проанализировано в общей сложности 115 ссылок, предоставленных ChatGPT, показало, что 47% из них были сфабрикованы. Еще 46% привели реальные ссылки, но извлекли из них неверную информацию. Только оставшиеся 7% ссылок были процитированы правильно и предоставили точную информацию. Также было замечено, что ChatGPT «удваивает» большую часть неверной информации. Когда вы спрашиваете ChatGPT об ошибке, которая могла быть вызвана галлюцинациями, иногда он пытается исправить себя, но иногда он утверждает, что ответ правильный, и предоставляет еще более вводящую в заблуждение информацию. [36]
Эти галлюцинированные статьи, созданные языковыми моделями, также создают проблему, поскольку трудно сказать, была ли статья создана искусственным интеллектом. Чтобы доказать это, группа исследователей из Северо-Западного университета Чикаго подготовила 50 рефератов на основе существующих отчетов и проанализировала их оригинальность. Детекторы плагиата присвоили сгенерированным статьям оценку оригинальности 100 %, что означает, что представленная информация кажется полностью оригинальной. Другое программное обеспечение, предназначенное для обнаружения текста, сгенерированного ИИ, смогло правильно идентифицировать эти сгенерированные статьи только с точностью 66%. У ученых-исследователей был аналогичный уровень человеческих ошибок: 68% идентифицировали эти тезисы. [37] На основании этой информации авторы исследования пришли к выводу: «Этические и приемлемые границы использования ChatGPT в научных статьях остаются неясными, хотя некоторые издатели начинают устанавливать политику». [38] Из-за способности ИИ фабриковать исследования незамеченными, использование ИИ в области исследований затруднит определение оригинальности исследований и потребует новой политики, регулирующей его использование в будущем.
Учитывая способность языка, сгенерированного ИИ, в некоторых случаях выдавать себя за настоящее научное исследование, галлюцинации ИИ создают проблемы для применения языковых моделей в академических и научных областях исследований из-за их способности быть необнаружимыми при представлении реальным исследователям. Высокая вероятность возврата несуществующих справочных материалов и неверной информации может потребовать введения ограничений в отношении этих языковых моделей. Некоторые говорят, что эти события больше похожи не на галлюцинации, а на «фабрикации» и «фальсификации» и что использование этих языковых моделей представляет риск для целостности области в целом. [39]
В «Салоне» статистик Гэри Н. Смит утверждает, что студенты магистратуры «не понимают, что означают слова» и, следовательно, что термин «галлюцинация» необоснованно антропоморфизирует машину. [40] Журналист Бендж Эдвардс в Ars Technica пишет, что термин «галлюцинация» является спорным, но некоторая форма метафоры остается необходимой; Эдвардс предлагает « конфабуляцию » как аналогию процессам, которые включают «творческое заполнение пробелов». [1]
Список использования термина «галлюцинация», определений или характеристик в контексте LLM включает:
Понятие «галлюцинация» применяется более широко, чем просто обработка естественного языка. Уверенный ответ любого ИИ, который кажется неоправданным данными обучения, можно назвать галлюцинацией. [5]
Различные исследователи, на которых цитирует Wired , классифицировали состязательные галлюцинации как крупномасштабное статистическое явление или объясняли галлюцинации недостаточными тренировочными данными. Некоторые исследователи полагают, что некоторые «неправильные» реакции ИИ, классифицированные людьми как «галлюцинации» в случае обнаружения объекта , на самом деле могут быть оправданы данными обучения или даже тем, что ИИ может давать «правильный» ответ, который люди-рецензенты не видят. Например, состязательное изображение, которое для человека выглядит как обычное изображение собаки, на самом деле может рассматриваться ИИ как содержащее крошечные узоры, которые (в подлинных изображениях) появляются только при просмотре кошки. Искусственный интеллект обнаруживает визуальные закономерности реального мира, к которым люди нечувствительны. [44]
В 2018 году Wired отметил, что, несмотря на отсутствие зарегистрированных атак «в дикой природе» (то есть за пределамиатак, проводимых исследователями для проверки концепции ), «мало споров» о том, что потребительские гаджеты и системы, такие как автоматическое вождение , уязвимы. к состязательным атакам , которые могут вызвать у ИИ галлюцинации. Примеры включают знак остановки, невидимый для компьютерного зрения; аудиоклип, созданный так, чтобы звучать безобидно для людей, но это программное обеспечение транскрибировалось как «злой дотком»; и изображение двух мужчин на лыжах, которые Google Cloud Vision определил как «собаку» с вероятностью 91%. [45] Однако эти выводы были оспорены другими исследователями. [46] Например, возражали, что модели могут быть смещены в сторону поверхностной статистики, что приводит к тому, что состязательное обучение не будет надежным в реальных сценариях. [46]
Феномен галлюцинаций до сих пор до конца не изучен. [5] Таким образом, все еще продолжаются исследования, направленные на смягчение последствий этого явления. [47] В частности, было показано, что языковые модели не только вызывают галлюцинации, но и усиливают галлюцинации, даже те, которые были разработаны для облегчения этой проблемы. [48] Исследователи предложили различные меры по смягчению последствий, в том числе заставить разных чат-ботов обсуждать друг друга, пока не достигнут консенсуса по ответу. [49] Другой подход предлагает активно проверять правильность, соответствующую генерации модели с низкой достоверностью, с использованием результатов веб-поиска. [50] Nvidia Guardrails, выпущенная в 2023 году, можно настроить для блокировки ответов LLM, которые не проходят проверку фактов со стороны второго LLM. [51]