Лоза — это графический инструмент для маркировки ограничений в многомерных распределениях вероятностей . Регулярная лоза — это особый случай, для которого все ограничения двумерны или условны двумерны. Регулярные лозы обобщают деревья и сами являются специализациями дерева Кантора . [1]
В сочетании с двумерными копулами регулярные лозы оказались гибким инструментом в моделировании многомерной зависимости. Копулы [2] [3] являются многомерными распределениями с равномерными одномерными границами. Представление совместного распределения в виде одномерных границ плюс копулы позволяет отделить проблемы оценки одномерных распределений от проблем оценки зависимости. Это удобно, поскольку одномерные распределения во многих случаях могут быть адекватно оценены по данным, тогда как информация о зависимости приблизительно неизвестна, включая сводные показатели и суждение. [4] [5] Хотя количество параметрических многомерных семейств копул с гибкой зависимостью ограничено, существует много параметрических семейств двумерных копул. Регулярные лозы обязаны своей растущей популярностью тому факту, что они используют двумерные копулы и допускают расширения до произвольных измерений. Теория выборки и теория оценки для регулярных лоз хорошо развиты [6] [7] , а вывод модели оставил пост. [8] [9] [7] Регулярные виноградные лозы оказались полезными в других задачах, таких как (ограниченная) выборка корреляционных матриц, [10] [11] построение непараметрических непрерывных байесовских сетей . [12] [13]
Например, в финансах было показано, что виноградные копулы эффективно моделируют хвостовой риск в приложениях оптимизации портфеля. [14]
Первая регулярная лоза, avant la lettre, была введена Гарри Джо [15] . Мотивом было расширение параметрических двумерных экстремальных значений копул семейств на более высокие измерения. С этой целью он ввел то, что позже будет названо D-лоза . Джо [16] интересовался классом n-мерных распределений с заданными одномерными полями и n ( n − 1) параметрами зависимости, при этом n − 1 параметров соответствуют двумерным полям, а остальные соответствуют условным двумерным полям. В случае многомерных нормальных распределений параметрами будут n − 1 корреляции и ( n − 1)( n − 2)/2 частичных корреляций , которые, как было отмечено, алгебраически независимы в (−1, 1).
Совершенно иная мотивация лежала в основе первого формального определения виноградных лоз у Кука. [17] Анализ неопределенности больших моделей риска, таких как те, которые были проведены для Европейского союза и Комиссии по ядерному регулированию США для аварий на атомных электростанциях, включает в себя количественную оценку и распространение неопределенности на сотни переменных. [18] [19] [20] Информация о зависимости для таких исследований была получена с помощью деревьев Маркова , [21] которые представляют собой деревья, построенные с узлами как одномерные случайные величины и ребрами как двумерными копулами. Для n переменных существует не более n − 1 ребра, для которых можно указать зависимость. Новые методы в то время включали получение распределений неопределенности по параметрам моделирования путем выявления неопределенностей экспертов по другим переменным, которые предсказываются моделями. Эти распределения неопределенности возвращаются к параметрам модели с помощью процесса, известного как вероятностная инверсия. [8] [18] Полученные распределения часто демонстрировали структуру зависимости, которую нельзя было захватить как дерево Маркова.
Графические модели , называемые виноградными лозами, были введены в 1997 году и в дальнейшем усовершенствованы Роджером М. Куком, Тимом Бедфордом и Доротой Куровицкой. [17] [1] [8] Важной особенностью виноградных лоз является то, что они могут добавлять условные зависимости между переменными поверх дерева Маркова, которое, как правило, слишком экономно для суммирования зависимости между переменными.
Лоза V на n переменных — это вложенный набор связанных деревьев, где ребра в первом дереве являются узлами второго дерева, ребра второго дерева являются узлами третьего дерева и т. д. Обычная лоза или R-лоза на n переменных — это лоза, в которой два ребра в дереве j соединены ребром в дереве j + 1 только в том случае, если эти ребра имеют общий узел, j = 1, ..., n − 2. Узлы в первом дереве являются одномерными случайными величинами. Ребра являются ограничениями или условными ограничениями, которые объясняются следующим образом.
Напомним, что ребро в дереве — это неупорядоченный набор из двух узлов. Каждое ребро в виноградной лозе связано с набором ограничений , представляющим собой набор переменных (узлов в первом дереве), достижимых отношением принадлежности к набору. Для каждого ребра набор ограничений — это объединение наборов ограничений двух членов ребра, называемых его наборами ограничений компонентов (для ребра в первом дереве наборы ограничений компонентов пусты). Ограничение, связанное с каждым ребром, теперь является симметричной разностью его наборов ограничений компонентов, условной на пересечении его наборов ограничений. Можно показать, что для обычной виноградной лозы симметричная разность наборов ограничений компонентов всегда является дублетоном и что каждая пара переменных встречается ровно один раз как ограниченные переменные. Другими словами, все ограничения являются двумерными или условными двумерными.
Степень узла — это количество ребер, присоединенных к нему. Простейшие регулярные лозы имеют простейшую структуру степеней; D-Vine назначает каждому узлу степень 1 или 2, C-Vine назначает одному узлу в каждом дереве максимальную степень. Для больших лоз нагляднее рисовать каждое дерево отдельно.
Число регулярных лоз на n переменных быстро растет с n : существует 2 n −3 способов расширения регулярной лозы с одной дополнительной переменной, и существует n ( n − 1)( n − 2)!2 ( n − 2)( n − 3)/2 /2 помеченных регулярных лоз на n переменных [22] . [23]
Ограничения на регулярную виноградную лозу могут быть связаны с частичными корреляциями или с условной двумерной копулой . В первом случае мы говорим о частичной корреляции виноградной лозы , а во втором случае о виноградной копуле .
Бедфорд и Кук [1] показывают, что любое назначение значений в открытом интервале (−1, 1) ребрам в любой частичной корреляционной лозе является согласованным, назначения алгебраически независимы, и существует взаимно-однозначное отношение между всеми такими назначениями и набором корреляционных матриц. Другими словами, частичные корреляционные лозы обеспечивают алгебраически независимую параметризацию набора корреляционных матриц, члены которой имеют интуитивную интерпретацию. Более того, определитель корреляционной матрицы является произведением по ребрам (1 − ρ 2 ik ; D ( ik ) ) , где ρ ik ; D ( ik ) — это частичная корреляция, назначенная ребру с условными переменными i , k и условными переменными D ( ik ). Аналогичное разложение характеризует взаимную информацию , которая обобщает определитель корреляционной матрицы. [17] Эти особенности использовались при ограниченной выборке корреляционных матриц, [10] построении непараметрических непрерывных байесовских сетей [12] [13] и решении проблемы расширения частично определенных матриц до положительно определенных матриц [24] . [25]
При подходящих условиях дифференцируемости любая многомерная плотность f 1... n от n переменных с одномерными плотностями f 1 ,..., f n может быть представлена в замкнутой форме как произведение одномерных плотностей и (условных) плотностей копулы на любой R-лозе V
f 1...n = f 1 ...f n Π e∈E( V ) C e 1 ,e 2 |D e ( F e 1 |D e , F e 2 |D e )
где ребра e = (e 1 , e 2 ) с множеством обусловленности D e находятся в множестве ребер E( V ) любой регулярной лозы V . Условные плотности копул C e 1 ,e 2 |D e в этом представлении зависят от кумулятивных условных функций распределения условных переменных, F e 1 |D e , F e 2 |D e , и, потенциально, от значений условных переменных. Когда условные копулы не зависят от значений условных переменных, говорят об упрощающем предположении постоянных условных копул. Хотя большинство приложений ссылаются на это предположение, исследование свободы моделирования, полученной при освобождении от этого предположения, началось [27] [28] . [29] Когда двумерные гауссовы копулы назначаются ребрам лозы, то результирующая многомерная плотность является гауссовской плотностью, параметризованной частичной корреляционной лозой, а не корреляционной матрицей.
Конструкция пары-копулы виноградной лозы, основанная на последовательном смешивании условных распределений, была адаптирована к дискретным переменным и смешанному дискретному/непрерывному отклику [30] . [31] Также были предложены факторные копулы, в которых к виноградной лозе добавлялись скрытые переменные (например, [32] ).
Исследователи виноградной лозы разработали алгоритмы для оценки максимального правдоподобия и моделирования копул виноградной лозы, поиска усеченных лоз, которые суммируют зависимость в данных, перечисления по лозам и т. д. Глава 6 книги « Моделирование зависимости с помощью копул» [33] суммирует эти алгоритмы в псевдокоде.
Усеченные лианы (введенные EC Brechmann в его докторской диссертации) — это лианы, которые имеют независимые лианы в последних деревьях. Таким образом, усеченные лианы кодируют в своей структуре условные независимости. Усеченные лианы очень полезны, поскольку содержат гораздо меньше параметров, чем обычные лианы. Важный вопрос — каким должно быть дерево на самом высоком уровне. Интересная связь между усеченными виноградными лозами и копулами вишневого дерева представлена в ( [34] ). Представления графа вишневого дерева были введены в качестве альтернативы обычным графическим представлениям копул виноградной лозы, более того, условные независимости, закодированные последним деревом (первым деревом после усечения), также выделены здесь ( [35] ) и в ( [36] ). Представление последовательности вишневого дерева копул виноградной лозы дает новый способ взглянуть на усеченные копулы, основанный на условной независимости, которая вызвана усечением.
Для параметрических копул виноградной лозы с двумерным семейством копул на каждом ребре виноградной лозы доступны алгоритмы и программное обеспечение для оценки максимального правдоподобия параметров копулы, предполагая, что данные были преобразованы в однородные оценки после подгонки одномерных границ. Также доступны алгоритмы (например, [37] ) для выбора хороших усеченных регулярных виноградных лоз, где ребра деревьев высокого уровня принимаются как условная независимость. Эти алгоритмы назначают переменные с сильной зависимостью или сильной условной зависимостью деревьям низкого порядка, чтобы деревья более высокого порядка имели слабую условную зависимость или условную независимость. Следовательно, экономные усеченные виноградные лозы получаются для большого количества переменных. Доступно программное обеспечение с пользовательским интерфейсом на R (например, [38] ).
Порядок выборки для n переменных — это последовательность условных плотностей, в которой первая плотность безусловна, а плотности для других переменных обусловлены предыдущими переменными в порядке. Порядок выборки подразумевается регулярным представлением плотности виноградной лозы, если каждая условная плотность может быть записана как произведение плотностей копулы в виноградной лозе и одномерных полях. [23]
Подразумеваемый порядок выборки генерируется вложенной последовательностью подложек, где каждая подложка в последовательности содержит одну новую переменную, отсутствующую в предыдущей подложке. Для любой обычной лозы на n переменных существует 2 n−1 подразумеваемых порядков выборки. Подразумеваемые порядки выборки являются небольшим подмножеством всех n! порядков, но они значительно облегчают выборку. Условие обычной лозы на значениях произвольного подмножества переменных является сложной операцией. Однако условие на исходной последовательности подразумеваемого порядка выборки является тривиальным, нужно просто подставить начальные условные значения и продолжить выборку. Общей теории условности в настоящее время не существует.
{{cite web}}
: CS1 maint: неподходящий URL ( ссылка )