stringtranslate.com

Линейная функция доверия

Линейные функции убеждения являются расширением теории функций убеждения Демпстера –Шейфера на случай, когда интересующие переменные являются непрерывными . Примерами таких переменных являются цены финансовых активов, эффективность портфеля и другие предшествующие и последующие переменные. Теория была первоначально предложена Артуром П. Демпстером [1] в контексте фильтров Калмана, а затем была разработана, уточнена и применена к представлению знаний в искусственном интеллекте и принятию решений в финансах и бухгалтерском учете Липином Лю. [2]

Концепция

Линейная функция убеждения намеревается представить наше убеждение относительно местоположения истинного значения следующим образом: мы уверены, что истина находится на так называемой гиперплоскости определенности , но мы не знаем ее точного местоположения; вдоль некоторых измерений гиперплоскости определенности мы считаем, что истинное значение может быть где угодно от –∞ до +∞, а вероятность нахождения в определенном месте описывается нормальным распределением ; вдоль других измерений наши знания пусты , т. е. истинное значение находится где-то от –∞ до +∞, но соответствующая вероятность неизвестна. Функция убеждения в общем случае определяется функцией массы над классом фокальных элементов, которые могут иметь непустые пересечения. Линейная функция убеждения является особым типом функции убеждения в том смысле, что ее фокальные элементы являются исключительными, параллельными подгиперплоскостями над гиперплоскостью определенности, а ее функция массы является нормальным распределением по подгиперплоскостям.

На основе приведенного выше геометрического описания Шафер [3] и Лю [4] предлагают два математических представления LBF: скалярное произведение в широком смысле и линейный функционал в пространстве переменных, а также их дуальные над гиперплоскостью в пространстве выборок. Монни [5] предлагает еще одну структуру, называемую гауссовыми подсказками. Хотя эти представления математически аккуратны, они, как правило, не подходят для представления знаний в экспертных системах.

Представление знаний

Линейная функция убеждения может представлять как логическое, так и вероятностное знание для трех типов переменных: детерминированное, например, наблюдаемое или контролируемое, случайное, распределение которого является нормальным, и пустое, на которое не опирается никакое знание. Логическое знание представлено линейными уравнениями или геометрически гиперплоскостью определенности. Вероятностное знание представлено нормальным распределением по всем параллельным фокальным элементам.

В общем случае предположим, что X — вектор нескольких нормальных переменных со средним значением μ и ковариацией Σ. Тогда многомерное нормальное распределение можно эквивалентно представить в виде матрицы моментов:

Если распределение невырожденное, т.е. Σ имеет полный ранг и существует его обратная матрица, то матрицу моментов можно полностью вымести:

За исключением константы нормировки, приведенное выше уравнение полностью определяет нормальную функцию плотности для X. Таким образом, представляет собой распределение вероятностей X в потенциальной форме.

Эти две простые матрицы позволяют нам представить три особых случая линейных функций доверия. Во-первых, для обычного нормального распределения вероятностей M(X) представляет его. Во-вторых, предположим, что кто-то делает прямое наблюдение над X и получает значение μ. В этом случае, поскольку нет никакой неопределенности, и дисперсия, и ковариация исчезают, т. е. Σ = 0. Таким образом, прямое наблюдение можно представить как:

В-третьих, предположим, что кто-то совершенно не осведомлен о X. Это очень щекотливый случай в байесовской статистике, поскольку функция плотности не существует. Используя полностью пройденную матрицу моментов, мы представляем пустые линейные функции доверия как нулевую матрицу в пройденной форме следующим образом:

Один из способов понять представление — представить себе полное невежество как предельный случай, когда дисперсия X стремится к ∞, где можно показать, что Σ −1 = 0 и, следовательно, исчезает. Однако приведенное выше уравнение не то же самое, что неправильное априорное или нормальное распределение с бесконечной дисперсией. Фактически, оно не соответствует никакому уникальному распределению вероятностей. По этой причине лучший способ — понимать пустые линейные функции убеждения как нейтральный элемент для комбинации (см. ниже).

Для представления оставшихся трех особых случаев нам понадобится концепция частичной подметки. В отличие от полной подметки, частичная подметка является преобразованием подмножества переменных. Предположим, что X и Y — два вектора нормальных переменных с совместной матрицей моментов:

Тогда M(X, Y) может быть частично заметен. Например, мы можем определить частичную заметку на X следующим образом:

Если X одномерный, частичная очистка заменяет дисперсию X на ее отрицательную обратную и умножает обратную на другие элементы. Если X многомерный, операция включает в себя обратную матрицу ковариации X и другие умножения. Развернутая матрица, полученная из частичной очистки на подмножестве переменных, может быть эквивалентно получена последовательностью частичных очисток на каждой отдельной переменной в подмножестве, и порядок последовательности не имеет значения. Аналогично, полностью развернутая матрица является результатом частичной очистки на всех переменных.

Мы можем сделать два наблюдения. Во-первых, после частичной подметки по  X средний вектор и ковариационная матрица X соответственно равны и , что совпадает с таковыми при полной подметке матрицы маргинальных моментов  X . Таким образом, элементы, соответствующие X в приведенном выше уравнении частичной подметки, представляют собой маргинальное распределение X в потенциальной форме. Во-вторых, согласно статистике, — это условное среднее Y при условии, что X  = 0; — это условная ковариационная матрица Y при условии, что X  = 0; и — это наклон регрессионной модели Y по  X . Следовательно, элементы, соответствующие индексам Y и пересечению X и Y в , представляют собой условное распределение Y при условии, что  X  = 0.

Эти семантики делают операцию частичного выметания полезным методом для манипулирования многомерными нормальными распределениями. Они также формируют основу представлений матрицы моментов для трех оставшихся важных случаев линейных функций доверия, включая собственные функции доверия, линейные уравнения и модели линейной регрессии.

Правильные линейные функции доверия

Для переменных X и Y предположим, что существует часть доказательств, подтверждающих нормальное распределение для переменных Y , не несущих никаких мнений относительно переменных  X. Также предположим, что X и Y не являются идеально линейно связанными, т. е. их корреляция меньше 1. Этот случай включает смесь обычного нормального распределения для Y и пустой функции убеждения для  X. Таким образом, мы представляем его с помощью частично заметенной матрицы следующим образом:

Вот как мы могли бы понять представление. Поскольку мы не знаем о  X , мы используем его прогоночную форму и устанавливаем и . Поскольку корреляция между X и Y меньше 1, коэффициент регрессии X на Y стремится к 0, когда дисперсия X стремится к ∞. Следовательно, . Аналогично можно доказать, что и .

Линейные уравнения

Предположим, что X и Y — два вектора-строки, а Y = XA + b, где A и b — матрицы коэффициентов. Мы представляем уравнение с использованием частично пройденной матрицы следующим образом:

Мы можем понять представление, основываясь на том факте, что линейное уравнение содержит два элемента знания: (1) полное незнание обо всех переменных; и (2) вырожденное условное распределение зависимых переменных при наличии независимых переменных. Поскольку X является независимым вектором в уравнении, мы полностью не осведомлены о нем. Таким образом, и . При X = 0 Y полностью определено как b. Таким образом, условное среднее Y равно b, а условная дисперсия равна 0. Кроме того, матрица коэффициентов регрессии равна A.

Обратите внимание, что знание, которое должно быть представлено в линейных уравнениях, очень близко к знанию в правильной линейной функции убеждения, за исключением того, что первое предполагает идеальную корреляцию между X и Y, а второе — нет. Это наблюдение интересно; оно характеризует разницу между частичным незнанием и линейными уравнениями по одному параметру — корреляции.

Модели линейной регрессии

Модель линейной регрессии является более общим и интересным случаем, чем предыдущие. Предположим, что X и Y — два вектора, а Y = XA + b + E, где A и b — соответствующие матрицы коэффициентов, а E — независимый белый шум, удовлетворяющий E ~ N(0, Σ). Мы представляем модель в виде следующей частично пройденной матрицы:

Эту модель линейной регрессии можно рассматривать как комбинацию двух частей знаний (см. ниже), одна из которых задается линейным уравнением, включающим три переменные X, Y и E, а другая — простым нормальным распределением E, т. е. E ~ N(0, Σ). С другой стороны, ее можно считать похожей на линейное уравнение, за исключением того, что при X = 0 Y не полностью определено как b. Вместо этого условное среднее значение Y равно b, а условная дисперсия равна Σ. Обратите внимание, что в этой альтернативной интерпретации линейная регрессионная модель образует базовый строительный блок для представления знаний и кодируется как матрица одного момента. Кроме того, шумовой член E не появляется в представлении. Следовательно, это делает представление более эффективным.

Из представления шести особых случаев мы видим явное преимущество представления матрицы моментов, т. е. оно позволяет унифицировать представление для, казалось бы, различных типов знаний, включая линейные уравнения, совместные и условные распределения и невежество. Унификация важна не только для представления знаний в искусственном интеллекте, но и для статистического анализа и инженерных вычислений. Например, представление рассматривает типичные логические и вероятностные компоненты в статистике — наблюдения, распределения, несобственные априорные данные (для байесовской статистики) и модели линейных уравнений — не как отдельные концепции, а как проявления одной концепции. Это позволяет увидеть внутренние связи между этими концепциями или проявлениями и взаимодействовать с ними для вычислительных целей.

Операции со знаниями

Существуют две основные операции для вывода выводов в экспертных системах с использованием линейных функций убеждения: комбинирование и маргинализация. Комбинация соответствует интеграции знаний, тогда как маргинализация соответствует огрублению знаний. Выполнение вывода включает в себя объединение соответствующих знаний в полный объем знаний, а затем проекцию полного объема знаний на частичную область, в которой необходимо ответить на вопрос вывода.

Маргинализация

Маргинализация проецирует линейную функцию убеждения в функцию с меньшим количеством переменных. Выраженная как матрица моментов, это просто ограничение неразвернутой матрицы моментов на подматрицу, соответствующую оставшимся переменным. Например, для совместного распределения M(X, Y) его маргинал для Y равен:

При удалении переменной важно, чтобы переменная не была захвачена в соответствующей матрице моментов, т. е. не имела знака стрелки над переменной. Например, проецирование матрицы на Y дает:

что не является той же линейной функцией доверия Y. Однако легко видеть, что удаление любой или всех переменных в Y из частично очищенной матрицы все равно даст правильный результат — матрицу, представляющую ту же функцию для оставшихся переменных.

Чтобы удалить переменную, которая уже была заметена, мы должны обратить заметание, используя частичные или полные обратные заметания. Предположим, что это полностью заметенная матрица моментов,

Тогда полная обратная прогонка восстановит матрицу моментов M(X) следующим образом:

Если матрица моментов находится в частично заметаемой форме, скажем,

его частично обратная подметаемость по X определяется следующим образом:

Обратные подметания похожи на прямые, за исключением знаковой разницы для некоторых умножений. Однако прямые и обратные подметания являются противоположными операциями. Можно легко показать, что применение полностью обратной подметки к восстановит начальную матрицу моментов M(X). Можно также доказать, что применение частичной обратной подметки к матрице X восстановит матрицу моментов M(X,Y). Фактически, Лю [6] доказывает, что матрица моментов будет восстановлена ​​посредством обратной подметки после прямой подметки на том же наборе переменных. Ее также можно восстановить посредством прямой подметки после обратной подметки. Интуитивно, частичная прямая подметка факторизует сустав на маргинальный и условный, тогда как частичная обратная подметка умножает их на сустав.

Комбинация

Согласно правилу Демпстера, комбинация функций доверия может быть выражена как пересечение фокальных элементов и умножение функций плотности вероятности. Липин Лю применяет правило к линейным функциям доверия в частности и получает формулу комбинации в терминах функций плотности. Позже он доказывает утверждение Артура П. Демпстера и переформулирует формулу как сумму двух полностью пройденных матриц. Математически предположим, что и являются двумя LBF для одного и того же вектора переменных X. Тогда их комбинация является полностью пройденной матрицей:

Это уравнение выше часто используется для умножения двух нормальных распределений. Здесь мы используем его для определения комбинации двух линейных функций доверия, которые включают нормальные распределения как частный случай. Также обратите внимание, что пустая линейная функция доверия (матрица с нулевым размахом) является нейтральным элементом для комбинации. При применении уравнения нам нужно рассмотреть два особых случая. Во-первых, если две матрицы, которые нужно объединить, имеют разные размеры, то одна или обе матрицы должны быть пусто расширены, т. е. предполагать незнание переменных, которые отсутствуют в каждой матрице. Например, если M 1 (X,Y) и M 2 (X,Z) должны быть объединены, мы сначала расширим их до и соответственно так, что не знает о Z и не знает о Y. Пустое расширение было первоначально предложено Конгом [7] для дискретных функций доверия. Во-вторых, если переменная имеет нулевую дисперсию, она не позволит выполнить операцию подметания. В этом случае мы можем притвориться, что дисперсия — это чрезвычайно малое число, скажем, ε, и выполнить желаемую подгонку и комбинацию. Затем мы можем применить обратную подгонку к объединенной матрице по той же переменной и позволить ε стремиться к 0. Поскольку нулевая дисперсия означает полную определенность относительно переменной, эта ε-процедура уничтожит ε-члены в конечном результате.

В общем случае, чтобы объединить две линейные функции доверия, их матрицы моментов должны быть полностью заметены. Однако можно объединить полностью заметенную матрицу с частично заметенной напрямую, если все переменные первой матрицы были заметены в последней. Мы можем использовать модель линейной регрессии — Y = XA + b + E — для иллюстрации этого свойства. Как мы уже упоминали, модель регрессии можно рассматривать как комбинацию двух частей знаний: одна задается линейным уравнением, включающим три переменные X, Y и E, а другая — простым нормальным распределением E, т. е. E ~ N(0, Σ). Пусть и будут их матрицами моментов соответственно. Тогда две матрицы можно объединить напрямую, не заметая сначала Y. Результатом комбинации является частично заметенная матрица следующим образом:

Если мы применим обратную подгонку к E, а затем удалим E из матрицы, мы получим то же самое представление регрессионной модели.

Приложения

Мы можем использовать аудиторскую задачу для иллюстрации трех типов переменных следующим образом. Предположим, мы хотим провести аудит конечного остатка дебиторской задолженности ( E ). Как мы видели ранее, E равен начальному остатку ( B ) плюс продажи ( S ) за период минус денежные поступления ( C ) от продаж плюс остаток ( R ), который представляет собой незначительные возвраты продаж и скидки при оплате наличными. Таким образом, мы можем представить логическую связь в виде линейного уравнения:

Кроме того, если аудитор полагает, что E и B в среднем составляют 100 тысяч долларов со стандартным отклонением 5 и ковариацией 15, мы можем представить это убеждение как многомерное нормальное распределение. Если исторические данные указывают на то, что остаток R в среднем равен нулю со стандартным отклонением 0,5 тысячи долларов, мы можем суммировать исторические данные с помощью нормального распределения R  ~ N(0, 0,5 2 ). Если есть прямое наблюдение за денежными поступлениями, мы можем представить доказательства в виде уравнения, скажем, C = 50 (тысяч долларов). Если аудитор ничего не знает о начальном балансе дебиторской задолженности, мы можем представить его или ее невежество пустым LBF. Наконец, если исторические данные предполагают, что при данных денежных поступлениях  C продажи S в среднем составляют 8 C  + 4 и имеют стандартное отклонение 4 тысячи долларов, мы можем представить это знание в виде линейной регрессионной модели S  ~ N(4 + 8 C , 16).

Ссылки

  1. ^ AP Dempster, «Нормальные функции убеждения и фильтр Калмана », в книге «Анализ данных из статистических основ» , AKME Saleh, ред.: Nova Science Publishers, 2001, стр. 65–84.
  2. ^ Лю, Липинг, Кэтрин Шеной и Пракаш П. Шеной, «Представление и интеграция знаний для оценки портфеля с использованием линейных функций доверия», Труды IEEE по системам, человеку и кибернетике, серия A, т. 36 (4), 2006, стр. 774–785.
  3. ^ Г. Шафер, «Заметка о гауссовых функциях доверия Демпстера», Школа бизнеса, Университет Канзаса, Лоуренс, Канзас, Технический отчет 1992.
  4. ^ Л. Лю, «Теория гауссовых функций доверия», Международный журнал приближенного рассуждения , т. 14, стр. 95–126, 1996 г.
  5. ^ П. А. Монни, Математическая теория аргументов для статистических доказательств . Нью-Йорк, штат Нью-Йорк: Springer, 2003.
  6. ^ Л. Лю, «Локальное вычисление гауссовых функций доверия», Международный журнал приближенного рассуждения , т. 22, стр. 217–248, 1999
  7. ^ А. Конг, «Многомерные функции убеждений и графические модели», в журнале «Департамент статистики». Кембридж, Массачусетс: Гарвардский университет, 1986