Объяснимый ИИ ( XAI ), часто пересекающийся с интерпретируемым ИИ или объяснимым машинным обучением ( XML ), относится либо к системе искусственного интеллекта (ИИ), над которой люди могут сохранять интеллектуальный надзор , либо относится к методам достижения этого. [1] [2] Основное внимание обычно уделяется обоснованию решений или прогнозов, сделанных ИИ [3], которые делаются более понятными и прозрачными. [4] XAI противостоит тенденции « черного ящика » машинного обучения, когда даже разработчики ИИ не могут объяснить, почему он пришел к определенному решению. [5] [6]
XAI надеется помочь пользователям систем на базе ИИ работать более эффективно, улучшая их понимание того, как рассуждают эти системы. [7] XAI может быть реализацией социального права на объяснение . [8] Даже если нет такого юридического права или нормативного требования, XAI может улучшить пользовательский опыт продукта или услуги, помогая конечным пользователям верить, что ИИ принимает правильные решения. [9] XAI стремится объяснить, что было сделано, что делается и что будет сделано дальше, а также раскрыть, на какой информации основаны эти действия. [10] Это позволяет подтверждать существующие знания, оспаривать существующие знания и генерировать новые предположения. [11]
Алгоритмы машинного обучения (ML), используемые в ИИ, можно разделить на «белый ящик» и «черный ящик» . [12] Модели «белого ящика» предоставляют результаты, понятные экспертам в данной области. Модели «черного ящика», с другой стороны, чрезвычайно сложно объяснить, и их могут не понять даже эксперты в данной области. [13] Алгоритмы XAI следуют трем принципам прозрачности, интерпретируемости и объяснимости. Модель прозрачна, «если процессы, которые извлекают параметры модели из обучающих данных и генерируют метки из тестовых данных, могут быть описаны и мотивированы разработчиком подхода». [14] Интерпретируемость описывает возможность понимания модели ML и представления базовой основы для принятия решений таким образом, который понятен людям. [15] [16] [17] Объяснимость — это концепция, которая признана важной, но консенсусное определение пока недоступно; [14] одним из возможных вариантов является «совокупность признаков интерпретируемой области, которые способствовали, для данного примера, принятию решения (например, классификации или регрессии)». [18] Если алгоритмы соответствуют этим принципам, они обеспечивают основу для обоснования решений, отслеживания их и, таким образом, их проверки, улучшения алгоритмов и изучения новых фактов. [19]
Иногда также возможно достичь высокоточного результата с помощью алгоритмов машинного обучения с использованием белого ящика. Эти алгоритмы имеют интерпретируемую структуру, которую можно использовать для объяснения прогнозов. [20] Концептуальные модели узкого места, которые используют абстракции на уровне концепций для объяснения рассуждений модели, являются примерами этого и могут применяться как в задачах прогнозирования изображений [21] , так и в задачах прогнозирования текста [22] . Это особенно важно в таких областях, как медицина, оборона, финансы и юриспруденция, где крайне важно понимать решения и создавать доверие к алгоритмам. [10] Многие исследователи утверждают, что, по крайней мере, для контролируемого машинного обучения, путь вперед — это символическая регрессия, где алгоритм просматривает пространство математических выражений, чтобы найти модель, которая лучше всего подходит для заданного набора данных. [23] [24] [25]
Системы ИИ оптимизируют поведение для удовлетворения математически заданной целевой системы, выбранной разработчиками системы, например, команда «максимизировать точность оценки того, насколько положительны обзоры фильмов в тестовом наборе данных». ИИ может выучить полезные общие правила из тестового набора, например, «обзоры, содержащие слово «ужасно», скорее всего, будут отрицательными». Однако он может также выучить неподходящие правила, например, «обзоры, содержащие « Дэниел Дэй-Льюис », обычно положительные»; такие правила могут быть нежелательными, если они, скорее всего, не будут обобщаться за пределами обучающего набора или если люди считают правило «обманным» или «несправедливым». Человек может проверять правила в XAI, чтобы получить представление о том, насколько вероятно, что система будет обобщаться на будущие реальные данные за пределами тестового набора. [26]
Сотрудничество между агентами — в данном случае, алгоритмами и людьми — зависит от доверия. Если люди должны принимать алгоритмические предписания, они должны доверять им. Неполнота формальных критериев доверия является препятствием для оптимизации. Прозрачность, интерпретируемость и объяснимость являются промежуточными целями на пути к этим более всеобъемлющим критериям доверия. [27] Это особенно актуально в медицине, [28] особенно с клиническими системами поддержки принятия решений (CDSS), в которых медицинские специалисты должны иметь возможность понимать, как и почему было принято решение на основе машины, чтобы доверять решению и дополнять свой процесс принятия решений. [29]
Системы ИИ иногда изучают нежелательные трюки, которые оптимально выполняют работу по удовлетворению явных заранее запрограммированных целей на обучающих данных, но не отражают более тонкие неявные желания разработчиков человеческих систем или полную сложность данных домена. Например, система 2017 года, которой было поручено распознавание изображений , научилась «обманывать», ища тег авторских прав, который случайно был связан с изображениями лошадей, вместо того, чтобы научиться определять, была ли лошадь на самом деле изображена. [6] В другой системе 2017 года контролируемый обучающийся ИИ, которому было поручено захватывать предметы в виртуальном мире, научился обманывать, помещая свой манипулятор между объектом и зрителем таким образом, что создавалось ложное впечатление, что он захватывает объект. [30] [31]
Один из проектов прозрачности, программа DARPA XAI, направлена на создание моделей « стеклянного ящика », которые можно объяснить « человеку в контуре », не сильно жертвуя производительностью ИИ. Пользователи-люди такой системы могут понимать когнитивные способности ИИ (как в реальном времени, так и постфактум) и могут определять, доверять ли ИИ. [32] Другие приложения XAI — это извлечение знаний из моделей «черного ящика» и сравнение моделей. [33] В контексте систем мониторинга этического и социально-правового соответствия термин «стеклянный ящик» обычно используется для обозначения инструментов, которые отслеживают входы и выходы рассматриваемой системы и предоставляют основанные на ценностях объяснения их поведения. Эти инструменты направлены на обеспечение того, чтобы система работала в соответствии с этическими и правовыми стандартами, а ее процессы принятия решений были прозрачными и подотчетными. Термин «стеклянный ящик» часто используется в противопоставлении системам «черного ящика», которые непрозрачны и могут быть более сложными для мониторинга и регулирования. [34] Этот термин также используется для обозначения голосового помощника, который выдает контрфактуальные утверждения в качестве объяснений. [35]
В контексте ИИ существует тонкое различие между терминами «объяснимость» и «интерпретируемость». [36]
Некоторые методы объяснимости не предполагают понимания того, как работает модель, и могут работать в различных системах ИИ. Рассмотрение модели как черного ящика и анализ того, как незначительные изменения входных данных влияют на результат, иногда дает достаточное объяснение.
Объясняемость полезна для обеспечения того, чтобы модели ИИ не принимали решений на основе нерелевантных или иным образом несправедливых критериев. Для моделей классификации и регрессии существует несколько популярных методов:
Для изображений карты заметности выделяют те части изображения, которые больше всего повлияли на результат. [41]
Однако эти методы не очень подходят для языковых моделей, таких как генеративные предобученные трансформаторы . Поскольку эти модели генерируют язык, они могут предоставить объяснение, но которое может быть ненадежным. Другие методы включают анализ внимания (изучение того, как модель фокусируется на различных частях ввода), методы зондирования (тестирование того, какая информация захвачена в представлениях модели), каузальное отслеживание (отслеживание потока информации через модель) и обнаружение цепей (идентификация конкретных подсетей, ответственных за определенное поведение). Исследования объяснимости в этой области значительно пересекаются с исследованиями интерпретируемости и выравнивания . [42]
Ученые иногда используют термин «механистическая интерпретируемость» для обозначения процесса обратного проектирования искусственных нейронных сетей с целью понимания их внутренних механизмов и компонентов принятия решений, подобно тому, как можно анализировать сложную машину или компьютерную программу. [43]
Исследования интерпретируемости часто фокусируются на генеративных предварительно обученных трансформаторах. Это особенно актуально для безопасности и выравнивания ИИ , поскольку это может позволить идентифицировать признаки нежелательного поведения, такие как подхалимство , обманчивость или предвзятость, и лучше управлять моделями ИИ. [44]
Изучение интерпретируемости самых передовых базовых моделей часто включает в себя поиск автоматизированного способа идентификации «признаков» в генеративных предобученных трансформаторах. В нейронной сети признак представляет собой шаблон активаций нейронов, который соответствует концепции. Методика с интенсивными вычислениями, называемая « словарным обучением », позволяет в некоторой степени идентифицировать признаки. Ожидается, что улучшение способности идентифицировать и редактировать признаки значительно повысит безопасность пограничных моделей ИИ . [45] [46]
Для сверточных нейронных сетей DeepDream может генерировать изображения, которые сильно активируют определенный нейрон, предоставляя визуальную подсказку о том, что нейрон обучен идентифицировать. [47]
В 1970–1990-х годах символические системы рассуждений , такие как MYCIN , [48] GUIDON, [49] SOPHIE, [50] и PROTOS [51] [52], могли представлять, рассуждать и объяснять свои рассуждения для диагностических, учебных или машинных целей обучения (обучение на основе объяснений). MYCIN, разработанная в начале 1970-х годов как исследовательский прототип для диагностики инфекций кровотока бактериемией , могла объяснить [53], какие из ее вручную закодированных правил способствовали диагностике в конкретном случае. Исследования в области интеллектуальных обучающих систем привели к разработке таких систем, как SOPHIE, которые могли выступать в качестве «членораздельного эксперта», объясняя стратегию решения проблем на уровне, понятном ученику, чтобы он знал, какие действия предпринять дальше. Например, SOPHIE могла объяснять качественные рассуждения, лежащие в основе устранения неполадок в электронике, хотя в конечном итоге она полагалась на симулятор схемы SPICE . Аналогично, GUIDON добавил обучающие правила, чтобы дополнить правила MYCIN на уровне домена, чтобы он мог объяснить стратегию медицинской диагностики. Символические подходы к машинному обучению, основанные на обучении на основе объяснений, такие как PROTOS, использовали явные представления объяснений, выраженные на специальном языке объяснений, как для объяснения своих действий, так и для получения новых знаний. [52]
В 1980-х и начале 1990-х годов системы поддержания истины (TMS) расширили возможности систем причинно-следственной связи, основанных на правилах и логических выводов. [54] : 360–362 TMS явно отслеживает альтернативные линии рассуждений, обоснования выводов и линии рассуждений, которые приводят к противоречиям, позволяя будущим рассуждениям избегать этих тупиков. Чтобы предоставить объяснение, они прослеживают рассуждения от выводов до предположений через операции правил или логические выводы, позволяя генерировать объяснения из следов рассуждений. В качестве примера рассмотрим решатель проблем на основе правил с несколькими правилами о Сократе, который приходит к выводу, что он умер от яда:
Просто прослеживая структуру зависимости, решатель проблемы может построить следующее объяснение: «Сократ умер, потому что он был смертным и выпил яд, и все смертные умирают, когда выпивают яд. Сократ был смертен, потому что он был человеком, а все люди смертны. Сократ выпил яд, потому что придерживался диссидентских убеждений, правительство было консервативным, и те, кто придерживается консервативных диссидентских убеждений при консервативных правительствах, должны выпить яд». [55] : 164–165
К 1990-м годам исследователи начали изучать, возможно ли осмысленно извлекать некодированные вручную правила, генерируемые непрозрачными обученными нейронными сетями. [56] Исследователи в клинических экспертных системах, создающих [ требуется разъяснение ] поддержку принятия решений на основе нейронных сетей для врачей, стремились разработать динамические объяснения, которые позволили бы этим технологиям быть более надежными и заслуживающими доверия на практике. [8] В 2010-х годах обеспокоенность общественности расовой и другой предвзятостью при использовании ИИ для принятия решений о вынесении уголовных приговоров и выводов о кредитоспособности могла привести к увеличению спроса на прозрачный искусственный интеллект. [6] В результате многие ученые и организации разрабатывают инструменты, помогающие обнаруживать предвзятость в своих системах. [57]
Марвин Мински и др. подняли вопрос о том, что ИИ может функционировать как форма наблюдения, с присущими наблюдению предубеждениями, предложив ИИ (гуманистический интеллект) как способ создания более справедливого и сбалансированного ИИ с «человеком в петле». [58]
Современные сложные методы ИИ, такие как глубокое обучение , по своей природе непрозрачны. [59] Для решения этой проблемы были разработаны методы, позволяющие сделать новые модели более объяснимыми и интерпретируемыми. [60] [16] [15] [61] [62] [63] Сюда входит послойное распространение релевантности (LRP), метод определения того, какие признаки в определенном входном векторе вносят наибольший вклад в выходные данные нейронной сети. [64] [65] Другие методы объясняют некоторые конкретные предсказания, сделанные (нелинейной) моделью черного ящика, цель, называемая «локальной интерпретируемостью». [66] [67] [68] [69] [70] [71] Простое перенесение концепций локальной интерпретируемости в удаленный контекст (где модель черного ящика выполняется третьей стороной) в настоящее время находится под пристальным вниманием [ неопределенно ] . [ требуется разъяснение ] [72] [73]
Была проведена работа по созданию моделей «стеклянного ящика», которые были бы более прозрачны для проверки. [20] [74] Сюда входят деревья решений , [75] байесовские сети , разреженные линейные модели , [76] и многое другое. [77] Ассоциация по вычислительной технике, конференция по справедливости, подотчетности и прозрачности (ACM FAccT) была создана в 2018 году для изучения прозрачности и объяснимости в контексте социально-технических систем, многие из которых включают искусственный интеллект. [78] [79]
Некоторые методы позволяют визуализировать входные данные, на которые отдельные программные нейроны реагируют сильнее всего. Несколько групп обнаружили, что нейроны могут быть объединены в схемы, которые выполняют понятные человеку функции, некоторые из которых надежно возникают в различных сетях, обученных независимо. [80] [81]
Существуют различные методы извлечения сжатых представлений особенностей заданных входов, которые затем могут быть проанализированы стандартными методами кластеризации . В качестве альтернативы сети могут быть обучены выводить лингвистические объяснения своего поведения, которые затем могут быть непосредственно интерпретированы человеком. [82] Поведение модели также может быть объяснено со ссылкой на данные обучения — например, путем оценки того, какие входы обучения повлияли на заданное поведение больше всего. [83]
Использование объяснимого искусственного интеллекта (XAI) в исследовании боли, в частности, в понимании роли электродермальной активности для автоматизированного распознавания боли : созданные вручную признаки и модели глубокого обучения в распознавании боли, подчеркивающие понимание того, что простые созданные вручную признаки могут обеспечить сопоставимые характеристики с моделями глубокого обучения, и что как традиционные методы проектирования признаков, так и методы глубокого обучения признаков полагаются на простые характеристики входных данных временного ряда. [84]
Поскольку регулирующие органы, официальные органы и обычные пользователи начинают зависеть от динамических систем на основе ИИ, для автоматизированных процессов принятия решений потребуется более четкая подотчетность, чтобы гарантировать доверие и прозрачность. Первой глобальной конференцией, посвященной исключительно этой новой дисциплине, стала Международная совместная конференция по искусственному интеллекту 2017 года : семинар по объяснимому искусственному интеллекту (XAI). [85]
Европейский союз ввел право на объяснение в Общее право на защиту данных (GDPR) для решения потенциальных проблем, вытекающих из растущей важности алгоритмов. Реализация регулирования началась в 2018 году. Однако право на объяснение в GDPR охватывает только локальный аспект интерпретируемости. В Соединенных Штатах страховые компании обязаны иметь возможность объяснять свои решения по тарифам и покрытию. [86] Во Франции Закон о цифровой республике (Loi pour une République numérique) предоставляет субъектам право запрашивать и получать информацию, касающуюся реализации алгоритмов, которые обрабатывают данные о них.
Несмотря на постоянные усилия по повышению объяснимости моделей ИИ, им по-прежнему присущ ряд ограничений.
Делая систему ИИ более объяснимой, мы также раскрываем больше ее внутренних механизмов. Например, метод объяснимости важности признаков определяет признаки или переменные, которые наиболее важны для определения выходных данных модели, в то время как метод влиятельных образцов определяет обучающие образцы, которые наиболее влиятельны для определения выходных данных, учитывая конкретные входные данные. [87] Стороны-соперники могли бы воспользоваться этими знаниями.
Например, фирмы-конкуренты могли бы воспроизводить аспекты оригинальной системы ИИ в своем собственном продукте, тем самым снижая конкурентное преимущество. [88] Объяснимая система ИИ также подвержена «игре» — влиянию таким образом, что это подрывает ее предполагаемое назначение. В одном исследовании приводится пример предиктивной системы полицейской деятельности; в этом случае те, кто потенциально может «играть» с системой, являются преступниками, подпадающими под решения системы. В этом исследовании разработчики системы обсуждали проблему преступных банд, желающих незаконно получить паспорта, и они выразили обеспокоенность тем, что, если дать им представление о том, какие факторы могут вызвать предупреждение в процессе подачи заявления на паспорт, эти банды смогут «отправить подопытных кроликов» для проверки этих триггеров, в конечном итоге найдя лазейку, которая позволит им «надежно получать паспорта из-под носа у властей». [89]
Основным препятствием для объяснения систем ИИ является техническая сложность таких систем. Конечным пользователям часто не хватает знаний в области кодирования, необходимых для понимания программного обеспечения любого типа. Текущие методы, используемые для объяснения ИИ, в основном технические и ориентированы на инженеров машинного обучения для целей отладки, а не на конечных пользователей, на которых в конечном итоге влияет система, что приводит к «разрыву между объяснимостью на практике и целью прозрачности». [87] Предлагаемые решения для решения проблемы технической сложности включают либо содействие обучению кодированию широкой общественности, чтобы технические объяснения были более доступными для конечных пользователей, либо предоставление объяснений в терминах неспециалистов. [88]
Решение должно избегать чрезмерного упрощения. Важно найти баланс между точностью — насколько точно объяснение отражает процесс системы ИИ — и объяснимостью — насколько хорошо конечные пользователи понимают процесс. Этого баланса трудно достичь, поскольку сложность машинного обучения затрудняет даже для инженеров МО полное понимание, не говоря уже о неспециалистах. [87]
Целью объяснимости для конечных пользователей систем ИИ является повышение доверия к системам, даже «решение проблем, связанных с отсутствием «справедливости» и дискриминационными эффектами». [88] Однако даже при хорошем понимании системы ИИ конечные пользователи не обязательно доверяют ей. [90] В одном исследовании участникам были представлены комбинации объяснений в стиле «белого ящика» и «черного ящика», а также статические и интерактивные объяснения систем ИИ. Хотя эти объяснения способствовали повышению как их самооценки, так и объективного понимания, они не оказали никакого влияния на их уровень доверия, который оставался скептическим. [91]
Этот результат был особенно верен для решений, которые существенно влияли на конечного пользователя, например, при поступлении в аспирантуру. Участники посчитали алгоритмы слишком негибкими и беспощадными по сравнению с людьми, принимающими решения; вместо того, чтобы жестко придерживаться набора правил, люди способны рассматривать исключительные случаи, а также апелляции к своему первоначальному решению. [91] Для таких решений объяснимость не обязательно заставит конечных пользователей принять использование алгоритмов принятия решений. Нам нужно будет либо обратиться к другому методу, чтобы повысить доверие и принятие алгоритмов принятия решений, либо поставить под сомнение необходимость полагаться исключительно на ИИ для принятия таких важных решений в первую очередь.
Однако некоторые подчеркивают, что цель объяснимости искусственного интеллекта заключается не только в повышении доверия пользователей к решениям системы, но и в калибровке уровня доверия пользователей до правильного уровня. [92] Согласно этому принципу, слишком большое или слишком малое доверие пользователей к системе ИИ нанесет ущерб общей производительности блока человек-система. Когда доверие чрезмерно, пользователи не критично относятся к возможным ошибкам системы, а когда пользователи не имеют достаточного доверия к системе, они не исчерпают присущие ей преимущества.
Некоторые ученые предположили, что объяснимость в ИИ следует считать целью, вторичной по отношению к эффективности ИИ, и что поощрение исключительной разработки XAI может ограничить функциональность ИИ в более широком смысле. [93] [94] Критики XAI опираются на развитые концепции механистического и эмпирического мышления из доказательной медицины, чтобы предположить, что технологии ИИ могут быть клинически подтверждены, даже если их функции не могут быть поняты их операторами. [93]
Некоторые исследователи выступают за использование изначально интерпретируемых моделей машинного обучения, а не за использование post-hoc объяснений, в которых вторая модель создается для объяснения первой. Это отчасти потому, что post-hoc модели увеличивают сложность в пути принятия решения, а отчасти потому, что часто неясно, насколько точно post-hoc объяснение может имитировать вычисления совершенно отдельной модели. [20] Однако другая точка зрения заключается в том, что важно то, чтобы объяснение выполняло поставленную задачу, и не имеет значения, является ли оно pre- или post-hoc. Если метод post-hoc объяснения помогает врачу лучше диагностировать рак, то имеет второстепенное значение, является ли это правильным/неправильным объяснением.
Цели XAI сводятся к форме сжатия с потерями , которая будет становиться менее эффективной по мере роста числа параметров моделей ИИ. Наряду с другими факторами это приводит к теоретическому пределу объяснимости. [95]
Объясняемость изучалась также в теории социального выбора . Теория социального выбора направлена на поиск решений проблем социальных решений, которые основаны на устоявшихся аксиомах. Ариэль Д. Прокаччиа [96] объясняет, что эти аксиомы могут быть использованы для построения убедительных объяснений решений. Этот принцип использовался для построения объяснений в различных подобластях социального выбора.
Кайю и Эндрисс [97] представляют метод объяснения правил голосования с использованием аксиом , которые их характеризуют. Они иллюстрируют свой метод на примере правила голосования Борда .
Петерс, Прокачча, Псомас и Чжоу [98] представляют алгоритм для объяснения результатов правила Борда с использованием O( m 2 ) объяснений и доказывают, что это является точным в худшем случае.
Янг, Хаусладен, Петерс, Пурнарас, Фрикер и Хелбинг [99] представляют эмпирическое исследование объяснимости в партисипаторном бюджетировании . Они сравнили жадные и равные правила долей и три типа объяснений: объяснение механизма (общее объяснение того, как работает правило агрегации с учетом входных данных для голосования), индивидуальное объяснение (объяснение того, сколько избирателей имели по крайней мере один одобренный проект, по крайней мере 10000 швейцарских франков в одобренных проектах) и групповое объяснение (объяснение того, как бюджет распределяется между округами и темами). Они сравнили воспринимаемую надежность и справедливость жадных и равных долей до и после объяснений. Они обнаружили, что для MES объяснение механизма дает самый высокий рост воспринимаемой справедливости и надежности; вторым по величине было групповое объяснение. Для жадного объяснение механизма увеличивает воспринимаемую надежность, но не справедливость, тогда как индивидуальное объяснение увеличивает как воспринимаемую справедливость, так и надежность. Групповое объяснение снижает воспринимаемую справедливость и надежность.
Низри, Азария и Хазон [100] представляют алгоритм для вычисления объяснений для значения Шепли . При наличии коалиционной игры их алгоритм разлагает ее на подигры, для которых легко сгенерировать словесные объяснения на основе аксиом, характеризующих значение Шепли. Распределение выплат для каждой подигры воспринимается как справедливое, поэтому распределение выплат на основе Шепли для данной игры также должно казаться справедливым. Эксперимент с 210 людьми показывает, что с их автоматически сгенерированными объяснениями испытуемые воспринимают распределение выплат на основе Шепли как значительно более справедливое, чем с общим стандартным объяснением.
{{cite journal}}
: Цитировать журнал требует |journal=
( помощь ){{cite arXiv}}
: CS1 maint: multiple names: authors list (link){{cite journal}}
: Цитировать журнал требует |journal=
( помощь ){{cite journal}}
: Цитировать журнал требует |journal=
( помощь )