Лоза — это графический инструмент для маркировки ограничений в многомерных распределениях вероятностей . Обычная лоза — это частный случай, для которого все ограничения двумерны или условно двумерны. Обычные лозы обобщают деревья и сами являются специализацией дерева Кантора . [1]
В сочетании с двумерными копулами обычные лозы оказались гибким инструментом в моделировании многомерных зависимостей. Копулы [2] [3] представляют собой многомерные распределения с равномерными одномерными границами. Представление совместного распределения в виде одномерных полей плюс копул позволяет отделить проблемы оценки одномерных распределений от проблем оценки зависимости. Это удобно, поскольку одномерные распределения во многих случаях можно адекватно оценить на основе данных, тогда как информация о зависимости примерно неизвестна и включает сводные показатели и суждения. [4] [5] Хотя количество параметрических семейств многомерных копул с гибкой зависимостью ограничено, существует множество параметрических семейств двумерных копул. Обычные лозы обязаны своей растущей популярностью тому факту, что они используют двумерные связки и позволяют расширять их до произвольных размеров. Теория выборки и теория оценки для обычных виноградных лоз хорошо развиты [6] [7] , а вывод моделей не используется. [8] [9] [7] Регулярные лозы оказались полезными в других задачах, таких как (ограниченная) выборка корреляционных матриц, [10] [11] построение непараметрических непрерывных байесовских сетей . [12] [13]
Например, в сфере финансов было показано, что копулы Vine эффективно моделируют хвостовой риск в приложениях по оптимизации портфеля. [14]
Первую регулярную лозу avant la lettre представил Гарри Джо. [15] Целью было расширить параметрические двумерные семейства копул с экстремальными значениями до более высоких измерений. С этой целью он представил то, что позже будет названо D-vine . Джо [16] интересовался классом распределений с n-вариантами с заданными одномерными границами и параметрами зависимости n ( n - 1), при этом n - 1 параметров соответствуют двумерным границам, а остальные соответствуют условным двумерным границам. В случае многомерного нормального распределения параметрами будут n - 1 корреляций и ( n - 1)( n - 2)/2 частичные корреляции , которые, как было отмечено, алгебраически независимы в (-1, 1).
Совершенно иная мотивация легла в основу первого формального определения виноградной лозы у Кука. [17] Анализ неопределенности крупных моделей риска, таких как те, которые проводятся для Европейского Союза и Комиссии по ядерному регулированию США для аварий на атомных электростанциях, включают количественную оценку и распространение неопределенности по сотням переменных. [18] [19] [20] Информация о зависимостях для таких исследований была получена с помощью деревьев Маркова , [21] которые представляют собой деревья, построенные с узлами как одномерные случайные величины и ребрами как двумерные связки. Для n переменных существует не более n − 1 ребер, для которых можно задать зависимость. Новые методы того времени включали получение распределений неопределенностей параметров моделирования путем выявления неопределенностей экспертов по другим переменным, которые предсказываются моделями. Эти распределения неопределенностей возвращаются к параметрам модели с помощью процесса, известного как вероятностная инверсия. [8] [18] Полученные распределения часто отображали структуру зависимости, которую невозможно было отразить в виде дерева Маркова.
Графические модели, называемые виноградными лозами , были представлены в 1997 году и доработаны Роджером М. Куком , Тимом Бедфордом и Доротой Куровицкой. [17] [1] [8] Важной особенностью vine является то, что они могут добавлять условные зависимости между переменными поверх дерева Маркова, что, как правило, слишком экономно, чтобы суммировать зависимости между переменными.
Лоза V от n переменных — это вложенное множество связанных деревьев, где ребра первого дерева являются узлами второго дерева, ребра второго дерева — узлами третьего дерева и т. д. Обычная лоза или R- лоза от n переменных — это лоза, в которой два ребра в дереве j соединены ребром в дереве j + 1, только если эти ребра имеют общий узел, j = 1, ..., n − 2. Узлы в первом дерево являются одномерными случайными величинами. Края — это ограничения или условные ограничения, поясняемые следующим образом.
Напомним, что ребро дерева — это неупорядоченный набор из двух узлов. Каждое ребро лозы связано с набором ограничений , представляющим собой набор переменных (узлов в первом дереве), достижимых с помощью отношения принадлежности к множеству. Для каждого ребра набор ограничений представляет собой объединение наборов ограничений двух членов ребра, называемых наборами ограничений компонентов (для ребра в первом дереве наборы ограничений компонентов пусты). Ограничение, связанное с каждым ребром, теперь представляет собой симметричную разность наборов ограничений его компонентов, обусловленную пересечением его наборов ограничений. Можно показать, что для обычной лозы симметричная разность наборов ограничений компонентов всегда представляет собой дубль и что каждая пара переменных встречается ровно один раз в качестве переменных с ограничениями. Другими словами, все ограничения являются двумерными или условно двумерными.
Степень узла — это количество ребер, присоединяющихся к нему. Простейшие регулярные лозы имеют простейшую ступенчатую структуру; D-Vine присваивает каждому узлу степень 1 или 2, C-Vine присваивает одному узлу в каждом дереве максимальную степень. Для крупных лиан удобнее рисовать каждое дерево отдельно.
Число правильных лоз от n переменных быстро растёт по n : существует 2 n −3 способов расширения регулярной лозы одной дополнительной переменной, и существует n ( n − 1)( n − 2)!2 ( n − 2 )( n − 3)/2 /2 помеченных правильных лоз от n переменных [22] . [23]
Ограничения на регулярную лозу могут быть связаны с частичными корреляциями или с условной двумерной копулой . В первом случае мы говорим о частичной корреляционной лозе , а во втором случае о лозе-связке .
Бедфорд и Кук [1] показывают, что любое присвоение значений в открытом интервале (−1, 1) ребрам в любой лозе частичной корреляции является непротиворечивым, присвоения алгебраически независимы и существует взаимно однозначное соотношение между все такие назначения и набор корреляционных матриц. Другими словами, частичные корреляционные лозы обеспечивают алгебраически независимую параметризацию набора корреляционных матриц, члены которых имеют интуитивную интерпретацию. Более того, определителем корреляционной матрицы является произведение по ребрам (1 − ρ 2 ik ; D ( ik ) ), где ρ ik ; D ( ik ) — это частичная корреляция, присвоенная ребру с условными переменными i , k и кондиционирующими переменными D ( ik ). Подобное разложение характеризует взаимную информацию , обобщающую определитель корреляционной матрицы. [17] Эти функции использовались при ограниченной выборке корреляционных матриц, [10] построении непараметрических непрерывных байесовских сетей [12] [13] и решении проблемы расширения частично заданных матриц до положительно определенных матриц [24] . [25]
При подходящих условиях дифференцируемости любая многомерная плотность f 1... n от n переменных с одномерными плотностями f 1 ,..., f n может быть представлена в замкнутой форме как произведение одномерных плотностей и (условных) плотностей копул на любая R-лоза V
ж 1...n знак равно ж 1 ... ж п Π e اE( V ) C е 1 , е 2 |D е ( F е 1 |D е , F е 2 |D е )
где ребра e = (e 1 , e 2 ) с набором обусловленности D e находятся в множестве ребер E( V ) любой регулярной лозы V . Условные плотности копул C e 1 ,e 2 |D e в этом представлении зависят от кумулятивных условных функций распределения условных переменных F e 1 |D e , F e 2 |D e , и потенциально от значений кондиционирующие переменные. Когда условные связки не зависят от значений обуславливающих переменных, говорят об упрощающем предположении о постоянных условных связках. Хотя большинство приложений используют это предположение, началось исследование свободы моделирования, полученной за счет отказа от этого предположения [27] [28] . [29] Когда двумерные гауссовы копулы присваиваются краям лозы, тогда результирующая многомерная плотность представляет собой гауссову плотность, параметризованную лозой частичной корреляции, а не корреляционной матрицей.
Конструкция пары-копулы лозы, основанная на последовательном смешивании условных распределений, была адаптирована к дискретным переменным и смешанной дискретной/непрерывной реакции [30] . [31] Также были предложены фактор-копулы, в которых к лозе добавлялись скрытые переменные (например, [32] ).
Исследователи виноградной лозы разработали алгоритмы для оценки максимального правдоподобия и моделирования копул лоз, поиска усеченных лоз, которые суммируют зависимость в данных, перебора лоз и т. д. Глава 6 « Моделирования зависимостей с копулами» [33] суммирует эти алгоритмы в псевдокоде.
Усеченные копулы лозы (введенные Э. К. Брехманном в его докторской диссертации) - это копулы лозы, которые имеют копулы независимости на последних деревьях. Таким образом, усеченные связки лозы кодируют в своей структуре условные независимости. Усеченные лозы очень полезны, поскольку содержат гораздо меньше параметров, чем обычные лозы. Важный вопрос – каким должно быть дерево на самом высоком уровне. Интересная связь между усеченными лозами и копулами вишневого дерева представлена в ( [34] ). Представления графов вишневого дерева были введены в качестве альтернативы обычным графическим представлениям копул виноградной лозы, причем условные независимости, кодируемые последним деревом (первым деревом после усечение) также выделено здесь ( [35] ) и в ( [36] ). Представление копул лозы последовательностью вишневого дерева дает новый способ взглянуть на усеченные копулы, основанный на условной независимости, которая вызвана усечением.
Для параметрических копул с двумерным семейством копул на каждом краю лозы доступны алгоритмы и программное обеспечение для оценки максимального правдоподобия параметров копулы, при условии, что данные были преобразованы в однородные оценки после подгонки одномерных полей. Существуют также алгоритмы (например, [37] ) для выбора хороших усеченных правильных лоз, в которых ребра деревьев высокого уровня принимаются как условная независимость. Эти алгоритмы присваивают переменным с сильной зависимостью или сильной условной зависимостью деревьям низкого порядка, чтобы деревья более высокого порядка имели слабую условную зависимость или условную независимость. Таким образом, для большого числа переменных получаются экономные усеченные лозы. Доступно программное обеспечение с пользовательским интерфейсом на языке R (например, [38] ).
Порядок выборки для n переменных представляет собой последовательность условных плотностей, в которой первая плотность является безусловной, а плотности для других переменных обусловлены предыдущими переменными в порядке. Порядок выборки подразумевает представление плотности в виде обычной лозы, если каждая условная плотность может быть записана как произведение плотностей копул в лозе и одномерных полей. [23]
Подразумеваемый порядок выборки создается с помощью вложенной последовательности ветвей, где каждая веточка в последовательности содержит одну новую переменную, отсутствующую в предыдущей ветке. Для любой регулярной лозы с n переменными существует 2 n−1 подразумеваемых порядка выборки. Подразумеваемые порядки выборки представляют собой небольшое подмножество всех n! заказы, но они значительно облегчают отбор проб. Обуславливание регулярной лозы значениями произвольного подмножества переменных — сложная операция. Однако создание условий для начальной последовательности подразумеваемого порядка выборки тривиально: нужно просто подставить начальные условные значения и продолжить выборку. Общей теории кондиционализации в настоящее время не существует.
{{cite web}}
: CS1 maint: неподходящий URL ( ссылка )