Частично наблюдаемый марковский процесс принятия решений ( POMDP ) является обобщением марковского процесса принятия решений (MDP). POMDP моделирует агентский процесс принятия решений, в котором предполагается, что динамика системы определяется MDP, но агент не может напрямую наблюдать базовое состояние. Вместо этого он должен поддерживать сенсорную модель ( распределение вероятностей различных наблюдений с учетом базового состояния) и базовый MDP. В отличие от функции политики в MDP, которая сопоставляет базовые состояния с действиями, политика POMDP представляет собой сопоставление истории наблюдений (или состояний убеждений) с действиями.
Структура POMDP достаточно общая для моделирования множества реальных последовательных процессов принятия решений. Приложения включают проблемы навигации роботов, обслуживания машин и планирования в условиях неопределенности в целом. Общая структура марковских процессов принятия решений с несовершенной информацией была описана Карлом Йоханом Острёмом в 1965 году [1] в случае дискретного пространства состояний, и она была дополнительно изучена в сообществе исследователей операций , где была придумана аббревиатура POMDP. Позднее она была адаптирована для задач искусственного интеллекта и автоматизированного планирования Лесли П. Кэлблингом и Майклом Л. Литтманом . [2]
Точное решение POMDP дает оптимальное действие для каждого возможного убеждения в состояниях мира. Оптимальное действие максимизирует ожидаемое вознаграждение (или минимизирует стоимость) агента в течение возможно бесконечного горизонта. Последовательность оптимальных действий известна как оптимальная политика агента для взаимодействия с его средой.
Дискретно-временной POMDP моделирует отношения между агентом и его средой. Формально POMDP — это 7-кортеж , где
В каждый период времени среда находится в некотором состоянии . Агент выполняет действие , которое приводит к переходу среды в состояние с вероятностью . В то же время агент получает наблюдение , которое зависит от нового состояния среды, , и от только что выполненного действия, , с вероятностью (или иногда в зависимости от модели датчика). Наконец, агент получает вознаграждение, равное . Затем процесс повторяется. Цель состоит в том, чтобы агент на каждом временном шаге выбирал действия, которые максимизируют его ожидаемое будущее дисконтированное вознаграждение: , где — вознаграждение, полученное в момент времени . Коэффициент дисконтирования определяет, насколько немедленные вознаграждения предпочтительнее более отдаленных вознаграждений. Когда агент заботится только о том, какое действие принесет наибольшее ожидаемое немедленное вознаграждение; когда агент заботится о максимизации ожидаемой суммы будущих вознаграждений.
Поскольку агент не наблюдает состояние среды напрямую, он должен принимать решения в условиях неопределенности истинного состояния среды. Однако, взаимодействуя со средой и получая наблюдения, агент может обновить свое убеждение в истинном состоянии, обновив распределение вероятностей текущего состояния. Следствием этого свойства является то, что оптимальное поведение часто может включать действия (сбор информации), которые предпринимаются исключительно потому, что они улучшают оценку агентом текущего состояния, тем самым позволяя ему принимать более обоснованные решения в будущем.
Поучительно сравнить приведенное выше определение с определением процесса принятия решений Маркова . MDP не включает набор наблюдений, поскольку агент всегда точно знает текущее состояние среды. В качестве альтернативы MDP можно переформулировать как POMDP, установив набор наблюдений равным набору состояний и определив условные вероятности наблюдений для детерминированного выбора наблюдения, соответствующего истинному состоянию.
После выполнения действия и наблюдения агенту необходимо обновить свое убеждение в состоянии, в котором может (или не может) находиться окружающая среда. Поскольку состояние является марковским (по предположению), поддержание убеждения в состояниях требует только знания предыдущего состояния убеждения, выполненного действия и текущего наблюдения. Операция обозначается . Ниже мы описываем, как вычисляется это обновление убеждения.
После достижения , агент наблюдает с вероятностью . Пусть будет распределением вероятностей в пространстве состояний . обозначает вероятность того, что среда находится в состоянии . Учитывая , то после выполнения действия и наблюдения ,
где — нормирующая константа с .
Марковское состояние убеждения позволяет сформулировать POMDP как марковский процесс принятия решений , где каждое убеждение является состоянием. Результирующее убеждение MDP будет, таким образом, определено в непрерывном пространстве состояний (даже если «исходный» POMDP имеет конечное число состояний: существует бесконечное число состояний убеждения (в ), поскольку существует бесконечное число распределений вероятностей по состояниям (из )). [2]
Формально убеждение MDP определяется как кортеж, где
Из них и нужно вывести исходный POMDP .
где — значение, полученное в предыдущем разделе, и
Функция вознаграждения MDP убеждения ( ) представляет собой ожидаемое вознаграждение от функции вознаграждения POMDP по распределению состояний убеждения:
.
Убеждение MDP больше не является частично наблюдаемым, поскольку в любой момент времени агент знает свое убеждение и, следовательно, состояние убеждения MDP.
В отличие от "исходного" POMDP (где каждое действие доступно только из одного состояния), в соответствующем убеждении MDP все состояния убеждения допускают все действия, поскольку у вас (почти) всегда есть некоторая вероятность верить, что вы находитесь в любом (исходном) состоянии. Таким образом, определяет действие для любого убеждения .
Здесь предполагается, что цель состоит в максимизации ожидаемого общего дисконтированного вознаграждения на бесконечном горизонте. Когда определяет стоимость, целью становится минимизация ожидаемой стоимости.
Ожидаемое вознаграждение за политику, начинающуюся с убеждения, определяется как
где - коэффициент дисконтирования. Оптимальная политика получается путем оптимизации долгосрочного вознаграждения.
где находится первоначальное убеждение.
Оптимальная политика, обозначенная как , дает наивысшее ожидаемое значение вознаграждения для каждого состояния убеждения, компактно представленное функцией оптимального значения . Эта функция значения является решением уравнения оптимальности Беллмана :
Для POMDP с конечным горизонтом функция оптимального значения является кусочно-линейной и выпуклой. [3] Она может быть представлена как конечный набор векторов. В формулировке с бесконечным горизонтом конечный набор векторов может быть аппроксимирован произвольно близко, форма которого остается выпуклой. Итерация значения применяет динамическое программирование обновления для постепенного улучшения значения до сходимости к -оптимальной функции значения и сохраняет ее кусочно-линейность и выпуклость. [4] Улучшая значение, политика неявно улучшается. Другой метод динамического программирования, называемый итерацией политики, вместо этого явно представляет и улучшает политику. [5] [6]
На практике POMDP часто вычислительно неразрешимы для точного решения. Эта неразрешимость часто обусловлена проклятием размерности или проклятием истории (тот факт, что оптимальная политика может зависеть от всей истории действий и наблюдений). Чтобы решить эти проблемы, специалисты по информатике разработали методы, которые аппроксимируют решения для POMDP. Эти решения обычно пытаются аппроксимировать проблему или решение с ограниченным числом параметров, [7] планируют только небольшую часть пространства убеждений онлайн или компактно суммируют историю действий-наблюдений.
Алгоритмы на основе сетки [8] включают один метод приближенного решения. В этом подходе функция значения вычисляется для набора точек в пространстве убеждений, а интерполяция используется для определения оптимального действия, которое следует предпринять для других состояний убеждений, которые встречаются и не входят в набор точек сетки. Более поздние работы используют методы выборки, методы обобщения и эксплуатацию структуры проблемы и расширили решение POMDP на большие области с миллионами состояний. [9] [10] Например, адаптивные сетки и методы на основе точек выбирают случайные достижимые точки убеждений, чтобы ограничить планирование соответствующими областями в пространстве убеждений. [11] [12] Также было исследовано снижение размерности с использованием PCA . [13]
Онлайн-алгоритмы планирования подходят к большим POMDP, конструируя новую политику для текущего убеждения каждый раз, когда получено новое наблюдение. Такая политика должна учитывать только будущие убеждения, достижимые из текущего убеждения, которое часто является лишь очень небольшой частью полного пространства убеждений. Это семейство включает варианты поиска по дереву Монте-Карло [14] и эвристического поиска. [15] Подобно MDP, можно конструировать онлайн-алгоритмы, которые находят произвольно близкие к оптимальным политики и не имеют прямой зависимости вычислительной сложности от размера пространств состояний и наблюдений. [16]
Другая линия методов приближенного решения для решения POMDPs основана на использовании (подмножества) истории предыдущих наблюдений, действий и вознаграждений вплоть до текущего временного шага в качестве псевдосостояния. Затем можно использовать обычные методы решения MDPs, основанные на этих псевдосостояниях (например, Q-learning ). В идеале псевдосостояния должны содержать самую важную информацию из всей истории (для уменьшения смещения), будучи при этом максимально сжатыми (для уменьшения переобучения). [17]
Планирование в POMDP в общем случае неразрешимо . Однако некоторые настройки были определены как разрешимые (см. Таблицу 2 в [18] , воспроизведенную ниже). Были рассмотрены различные цели. Цели Бюхи определяются автоматами Бюхи . Достижимость является примером условия Бюхи (например, достижение хорошего состояния, в котором все роботы находятся дома). Цели coBüchi соответствуют следам, которые не удовлетворяют заданному условию Бюхи (например, не достижение плохого состояния, в котором какой-то робот умер). Цели четности определяются через игры четности ; они позволяют определять сложные цели, такие, что достижение хорошего состояния каждые 10 временных шагов. Цель может быть удовлетворена:
Мы также рассматриваем случай конечной памяти, в котором агент представляет собой конечный автомат, и общий случай, в котором агент имеет бесконечную память.
POMDP можно использовать для моделирования многих видов реальных проблем. Известные приложения включают использование POMDP в лечении пациентов с ишемической болезнью сердца, [19] вспомогательные технологии для людей с деменцией, [9] [10] сохранение находящихся под угрозой исчезновения и трудно обнаруживаемых суматранских тигров [20] и предотвращение столкновений самолетов. [21]
Одним из примеров является обучающий случай, проблема плачущего ребенка, когда родителю необходимо последовательно решить, кормить ли ребенка, основываясь на наблюдении за тем, плачет ребенок или нет, что является несовершенным представлением фактического состояния голода ребенка. [22] [23]
{{cite journal}}
: CS1 maint: multiple names: authors list (link){{cite journal}}
: CS1 maint: multiple names: authors list (link){{cite conference}}
: CS1 maint: multiple names: authors list (link){{cite journal}}
: CS1 maint: multiple names: authors list (link){{cite journal}}
: CS1 maint: multiple names: authors list (link){{cite conference}}
: CS1 maint: multiple names: authors list (link){{cite journal}}
: CS1 maint: multiple names: authors list (link){{cite journal}}
: CS1 maint: multiple names: authors list (link)