stringtranslate.com

Связка виноградной лозы

Лоза это графический инструмент для маркировки ограничений в многомерных распределениях вероятностей . Регулярная лоза — это особый случай, для которого все ограничения двумерны или условны двумерны. Регулярные лозы обобщают деревья и сами являются специализациями дерева Кантора . [1]

В сочетании с двумерными копулами регулярные лозы оказались гибким инструментом в моделировании многомерной зависимости. Копулы [2] [3] являются многомерными распределениями с равномерными одномерными границами. Представление совместного распределения в виде одномерных границ плюс копулы позволяет отделить проблемы оценки одномерных распределений от проблем оценки зависимости. Это удобно, поскольку одномерные распределения во многих случаях могут быть адекватно оценены по данным, тогда как информация о зависимости приблизительно неизвестна, включая сводные показатели и суждение. [4] [5] Хотя количество параметрических многомерных семейств копул с гибкой зависимостью ограничено, существует много параметрических семейств двумерных копул. Регулярные лозы обязаны своей растущей популярностью тому факту, что они используют двумерные копулы и допускают расширения до произвольных измерений. Теория выборки и теория оценки для регулярных лоз хорошо развиты [6] [7] , а вывод модели оставил пост. [8] [9] [7] Регулярные виноградные лозы оказались полезными в других задачах, таких как (ограниченная) выборка корреляционных матриц, [10] [11] построение непараметрических непрерывных байесовских сетей . [12] [13]

Например, в финансах было показано, что виноградные копулы эффективно моделируют хвостовой риск в приложениях оптимизации портфеля. [14]

Историческое происхождение

Первая регулярная лоза, avant la lettre, была введена Гарри Джо [15] . Мотивом было расширение параметрических двумерных экстремальных значений копул семейств на более высокие измерения. С этой целью он ввел то, что позже будет названо D-лоза . Джо [16] интересовался классом n-мерных распределений с заданными одномерными полями и n ( n − 1) параметрами зависимости, при этом n − 1 параметров соответствуют двумерным полям, а остальные соответствуют условным двумерным полям. В случае многомерных нормальных распределений параметрами будут n − 1 корреляции и ( n − 1)( n − 2)/2 частичных корреляций , которые, как было отмечено, алгебраически независимы в (−1, 1).

Совершенно иная мотивация лежала в основе первого формального определения виноградных лоз у Кука. [17] Анализ неопределенности больших моделей риска, таких как те, которые были проведены для Европейского союза и Комиссии по ядерному регулированию США для аварий на атомных электростанциях, включает в себя количественную оценку и распространение неопределенности на сотни переменных. [18] [19] [20] Информация о зависимости для таких исследований была получена с помощью деревьев Маркова , [21] которые представляют собой деревья, построенные с узлами как одномерные случайные величины и ребрами как двумерными копулами. Для n переменных существует не более n − 1 ребра, для которых можно указать зависимость. Новые методы в то время включали получение распределений неопределенности по параметрам моделирования путем выявления неопределенностей экспертов по другим переменным, которые предсказываются моделями. Эти распределения неопределенности возвращаются к параметрам модели с помощью процесса, известного как вероятностная инверсия. [8] [18] Полученные распределения часто демонстрировали структуру зависимости, которую нельзя было захватить как дерево Маркова.

Графические модели , называемые виноградными лозами, были введены в 1997 году и в дальнейшем усовершенствованы Роджером М. Куком, Тимом Бедфордом и Доротой Куровицкой. [17] [1] [8] Важной особенностью виноградных лоз является то, что они могут добавлять условные зависимости между переменными поверх дерева Маркова, которое, как правило, слишком экономно для суммирования зависимости между переменными.

Обычные лозы (R-лозы)

C-vine на 4 переменных
D-vine на 4 переменных
R-vine на 5 переменных

Лоза V на n переменных — это вложенный набор связанных деревьев, где ребра в первом дереве являются узлами второго дерева, ребра второго дерева являются узлами третьего дерева и т. д. Обычная лоза или R-лоза на n переменных — это лоза, в которой два ребра в дереве j соединены ребром в дереве j + 1 только в том случае, если эти ребра имеют общий узел, j = 1, ..., n − 2. Узлы в первом дереве являются одномерными случайными величинами. Ребра являются ограничениями или условными ограничениями, которые объясняются следующим образом.

Напомним, что ребро в дереве — это неупорядоченный набор из двух узлов. Каждое ребро в виноградной лозе связано с набором ограничений , представляющим собой набор переменных (узлов в первом дереве), достижимых отношением принадлежности к набору. Для каждого ребра набор ограничений — это объединение наборов ограничений двух членов ребра, называемых его наборами ограничений компонентов (для ребра в первом дереве наборы ограничений компонентов пусты). Ограничение, связанное с каждым ребром, теперь является симметричной разностью его наборов ограничений компонентов, условной на пересечении его наборов ограничений. Можно показать, что для обычной виноградной лозы симметричная разность наборов ограничений компонентов всегда является дублетоном и что каждая пара переменных встречается ровно один раз как ограниченные переменные. Другими словами, все ограничения являются двумерными или условными двумерными.

Степень узла — это количество ребер, присоединенных к нему. Простейшие регулярные лозы имеют простейшую структуру степеней; D-Vine назначает каждому узлу степень 1 или 2, C-Vine назначает одному узлу в каждом дереве максимальную степень. Для больших лоз нагляднее рисовать каждое дерево отдельно.

Число регулярных лоз на n переменных быстро растет с n : существует 2 n −3 способов расширения регулярной лозы с одной дополнительной переменной, и существует n ( n − 1)( n − 2)!2 ( n − 2)( n − 3)/2 /2 помеченных регулярных лоз на n переменных [22] . [23]

Ограничения на регулярную виноградную лозу могут быть связаны с частичными корреляциями или с условной двумерной копулой . В первом случае мы говорим о частичной корреляции виноградной лозы , а во втором случае о виноградной копуле .

Частичная корреляция лозы

Бедфорд и Кук [1] ​​показывают, что любое назначение значений в открытом интервале (−1, 1) ребрам в любой частичной корреляционной лозе является согласованным, назначения алгебраически независимы, и существует взаимно-однозначное отношение между всеми такими назначениями и набором корреляционных матриц. Другими словами, частичные корреляционные лозы обеспечивают алгебраически независимую параметризацию набора корреляционных матриц, члены которой имеют интуитивную интерпретацию. Более того, определитель корреляционной матрицы является произведением по ребрам (1 − ρ 2 ik ; D ( ik ) ) , где ρ ik ; D ( ik ) — это частичная корреляция, назначенная ребру с условными переменными i , k и условными переменными D ( ik ). Аналогичное разложение характеризует взаимную информацию , которая обобщает определитель корреляционной матрицы. [17] Эти особенности использовались при ограниченной выборке корреляционных матриц, [10] построении непараметрических непрерывных байесовских сетей [12] [13] и решении проблемы расширения частично определенных матриц до положительно определенных матриц [24] . [25]

Связи виноградной лозы или конструкция парных связок

При подходящих условиях дифференцируемости любая многомерная плотность f 1... n от n переменных с одномерными плотностями f 1 ,..., f n может быть представлена ​​в замкнутой форме как произведение одномерных плотностей и (условных) плотностей копулы на любой R-лозе V

[26]

f 1...n = f 1 ...f n Π e∈E( V ) C e 1 ,e 2 |D e ​​( F e 1 |D e ​​, F e 2 |D e ​​)

где ребра e = (e 1 , e 2 ) с множеством обусловленности D e находятся в множестве ребер E( V ) любой регулярной лозы V . Условные плотности копул C e 1 ,e 2 |D e ​​в этом представлении зависят от кумулятивных условных функций распределения условных переменных, F e 1 |D e ​​, F e 2 |D e ​​, и, потенциально, от значений условных переменных. Когда условные копулы не зависят от значений условных переменных, говорят об упрощающем предположении постоянных условных копул. Хотя большинство приложений ссылаются на это предположение, исследование свободы моделирования, полученной при освобождении от этого предположения, началось [27] [28] . [29] Когда двумерные гауссовы копулы назначаются ребрам лозы, то результирующая многомерная плотность является гауссовской плотностью, параметризованной частичной корреляционной лозой, а не корреляционной матрицей.

Конструкция пары-копулы виноградной лозы, основанная на последовательном смешивании условных распределений, была адаптирована к дискретным переменным и смешанному дискретному/непрерывному отклику [30] . [31] Также были предложены факторные копулы, в которых к виноградной лозе добавлялись скрытые переменные (например, [32] ).

Исследователи виноградной лозы разработали алгоритмы для оценки максимального правдоподобия и моделирования копул виноградной лозы, поиска усеченных лоз, которые суммируют зависимость в данных, перечисления по лозам и т. д. Глава 6 книги « Моделирование зависимости с помощью копул» [33] суммирует эти алгоритмы в псевдокоде.


Усеченные лианы (введенные EC Brechmann в его докторской диссертации) — это лианы, которые имеют независимые лианы в последних деревьях. Таким образом, усеченные лианы кодируют в своей структуре условные независимости. Усеченные лианы очень полезны, поскольку содержат гораздо меньше параметров, чем обычные лианы. Важный вопрос — каким должно быть дерево на самом высоком уровне. Интересная связь между усеченными виноградными лозами и копулами вишневого дерева представлена ​​в ( [34] ). Представления графа вишневого дерева были введены в качестве альтернативы обычным графическим представлениям копул виноградной лозы, более того, условные независимости, закодированные последним деревом (первым деревом после усечения), также выделены здесь ( [35] ) и в ( [36] ). Представление последовательности вишневого дерева копул виноградной лозы дает новый способ взглянуть на усеченные копулы, основанный на условной независимости, которая вызвана усечением.

Оценка параметров

Для параметрических копул виноградной лозы с двумерным семейством копул на каждом ребре виноградной лозы доступны алгоритмы и программное обеспечение для оценки максимального правдоподобия параметров копулы, предполагая, что данные были преобразованы в однородные оценки после подгонки одномерных границ. Также доступны алгоритмы (например, [37] ) для выбора хороших усеченных регулярных виноградных лоз, где ребра деревьев высокого уровня принимаются как условная независимость. Эти алгоритмы назначают переменные с сильной зависимостью или сильной условной зависимостью деревьям низкого порядка, чтобы деревья более высокого порядка имели слабую условную зависимость или условную независимость. Следовательно, экономные усеченные виноградные лозы получаются для большого количества переменных. Доступно программное обеспечение с пользовательским интерфейсом на R (например, [38] ).

Выборка и кондиционирование

Порядок выборки для n переменных — это последовательность условных плотностей, в которой первая плотность безусловна, а плотности для других переменных обусловлены предыдущими переменными в порядке. Порядок выборки подразумевается регулярным представлением плотности виноградной лозы, если каждая условная плотность может быть записана как произведение плотностей копулы в виноградной лозе и одномерных полях. [23]

Подразумеваемый порядок выборки генерируется вложенной последовательностью подложек, где каждая подложка в последовательности содержит одну новую переменную, отсутствующую в предыдущей подложке. Для любой обычной лозы на n переменных существует 2 n−1 подразумеваемых порядков выборки. Подразумеваемые порядки выборки являются небольшим подмножеством всех n! порядков, но они значительно облегчают выборку. Условие обычной лозы на значениях произвольного подмножества переменных является сложной операцией. Однако условие на исходной последовательности подразумеваемого порядка выборки является тривиальным, нужно просто подставить начальные условные значения и продолжить выборку. Общей теории условности в настоящее время не существует.

Дальнейшее чтение

Ссылки

  1. ^ abc Bedford, TJ; Cooke, RM (2002). «Вайнс — новая графическая модель для зависимых случайных величин». Annals of Statistics . 30 (4): 1031–1068. CiteSeerX 10.1.1.26.8965 . doi :10.1214/aos/1031689016. 
  2. ^ Джо, Х. (1997). Многомерные модели и концепции зависимости . Лондон: Chapman & Hall.
  3. ^ Нельсен, РБ (2006). Введение в связку, 2-е изд . Нью-Йорк: Springer.
  4. ^ Краан, BCP; Кук, RM (2000). «Обработка экспертных оценок при моделировании последствий аварий». Радиационная защита Дозиметрия . 90 (3): 311–315. doi :10.1093/oxfordjournals.rpd.a033153.
  5. ^ Ale, BJM; Bellamy, LJ; van der Boom, R.; Cooper, J.; Cooke, RM; Goossens, LHJ; Hale, AR; Kurowicka, D.; Morales, O.; Roelen, ALC; Spouge, J. (2009). «Дальнейшая разработка причинно-следственной модели для безопасности воздушного транспорта (CATS): создание математического сердца». Журнал «Надежность и безопасность систем» . 94 (9): 1433–1441. doi :10.1016/j.ress.2009.02.024.
  6. ^ Куровицка, Д.; Кук, Р. М. (2007). «Алгоритмы выборки для генерации совместных равномерных распределений с использованием метода виноградной связки». Вычислительная статистика и анализ данных . 51 (6): 2889–2906. doi :10.1016/j.csda.2006.11.043.
  7. ^ ab Aas, K.; Czado, C.; Frigessi, A.; Bakken, H. (2009). «Парно-связочные конструкции множественной зависимости». Страхование: Математика и экономика . 44 (2): 182–198. CiteSeerX 10.1.1.61.3984 . doi :10.1016/j.insmatheco.2007.02.001. S2CID  18320750. 
  8. ^ abc Куровицка, Д.; Кук, Р. М. (2006). Анализ неопределенности с помощью моделирования высокоразмерной зависимости . Wiley.
  9. ^ Куровицка, Д.; Кук, Р. М.; Кэллис, У. (2007). «Вывод винограда». Бразильский журнал вероятности и статистики .
  10. ^ ab Левандовски, Д.; Куровицка, Д.; Джо, Х. (2009). «Создание случайных корреляционных матриц на основе метода винограда и расширенного лука». Журнал многомерного анализа . 100 (9): 1989–2001. doi : 10.1016/j.jmva.2009.04.008 .
  11. ^ Куровицка, Д. (2014). «Создание случайных корреляционных матриц на основе метода виноградных лоз и расширенного лука». Совместная плотность корреляций в матрице корреляции с хордовыми паттернами разреженности . 129 (C): 160–170. doi : 10.1016/j.jmva.2014.04.006 .
  12. ^ ab Hanea, AM (2008). Алгоритмы для непараметрических байесовских сетей доверия (Ph.D.). Делфтский институт прикладной математики, Делфтский технический университет.
  13. ^ ab Ханеа, AM; Куровицка, D.; Кук, RM; Абабей, DA (2010). «Извлечение и визуализация порядковых данных с помощью непараметрических непрерывных BBN». Computational Statistics and Data Analysis . 54 (3): 668–687. doi :10.1016/j.csda.2008.09.032.
  14. ^ Лоу, RKY; Олкок, Дж.; Фафф, Р.; Брейлсфорд, Т. (2013). «Канонические виноградные копулы в контексте современного управления портфелем: стоят ли они того?». Журнал банковского дела и финансов . 37 (8): 3085–3099. doi :10.1016/j.jbankfin.2013.02.036. S2CID  154138333.
  15. ^ Джо, Х. (1994). «Многомерные распределения экстремальных значений с приложениями в данных об окружающей среде». Канадский журнал статистики . 22 (1): 47–64. doi :10.2307/3315822. JSTOR  3315822.
  16. ^ Джо, Х. (1996), «Семейства m-мерных распределений с заданными пределами и m(m−1)/2 двумерных параметров зависимости», в Рюшендорф, Л.; Швейцер, Б.; Тейлор, М. Д. (ред.), Распределения с фиксированными пределами и смежные темы , т. 28, стр. 120–141
  17. ^ abc Cooke, RM (1997). "Марковские и энтропийные свойства зависимых от деревьев и виноградных лоз переменных". Proc. ASA Section of Bayesian Statistical Science .
  18. ^ ab Goossens, LHJ; Harper, FT; Kraan, BCP; Metivier, H. (2000). «Экспертная оценка вероятностного анализа неопределенности последствий аварии». Radiation Protection Dosimetry . 90 (3): 295–301. doi :10.1093/oxfordjournals.rpd.a033151.
  19. ^ Harper, F.; Goossens, LHJ; Cooke, RM; Hora, S.; Young, M.; Pasler-Ssauer, J.; Miller, L.; Kraan, BCP; Lui, C.; McKay, M.; Helton, J.; Jones, A. (1994), Совместное исследование последствий неопределенности USNRC CEC: Резюме целей, подхода, применения и результатов для оценки неопределенности дисперсии и осаждения , т. III, NUREG/CR-6244, EUR 15755 EN, SAND94-1453
  20. ^ Геган, Д.; Хассани, Б.К. (2013), «Многомерные VaR для расчета капитала операционного риска: подход с использованием структуры виноградной лозы», Международный журнал по оценке и управлению рисками , 17 (2): 148–170, CiteSeerX 10.1.1.686.4277 , doi : 10.1504/IJRAM.2013.057104, S2CID  4989901 
  21. ^ Уиттекер, Дж. (1990). Графические модели в прикладной многомерной статистике . Чичестер: Wiley.
  22. ^ Моралес Наполес, О.; Кук, Р. М.; Куровицка, Д. (2008), Количество виноградных лоз и регулярных виноградных лоз на n узлах , т. Технический отчет, Делфтский институт прикладной математики, Делфтский технический университет
  23. ^ ab Cooke, RM; Kurowicka, D.; Wilson, K. (2015). «Выборка, кондиционирование, подсчет, слияние, поиск регулярных виноградных лоз». Журнал многомерного анализа . 138 : 4–18. doi : 10.1016/j.jmva.2015.02.001 .
  24. ^ Куровицка, Д.; Кук, Р. М. (2003). «Параметризация положительно определенных матриц в терминах частично корреляционных лоз». Линейная алгебра и ее приложения . 372 : 225–251. doi : 10.1016/s0024-3795(03)00507-x .
  25. ^ Куровицка, Д.; Кук, Р. М. (2006). «Проблема завершения с частичной корреляцией виноградных лоз». Линейная алгебра и ее приложения . 418 (1): 188–200. doi :10.1016/j.laa.2006.01.031.
  26. ^ Beford, TJ; Cooke, RM (2001). «Разложение плотности вероятности для условно зависимых случайных величин, моделируемых виноградными лозами». Annals of Mathematics and Artificial Intelligence . 32 : 245–268. doi :10.1023/A:1016725902970. S2CID  42550420.
  27. ^ Хобек Хафф, И.; Аас, К.; Фригесси, А. (2010). «Об упрощенной конструкции парной копулы — просто полезно или слишком упрощенно?». Журнал многомерного анализа . 101 (5): 1296–1310. doi :10.1016/j.jmva.2009.12.001. hdl : 10852/34736 .
  28. ^ Акар, ЭФ; Дженест, К.; Нешлехова, Й. (2012). «За пределами упрощенных конструкций пар-копул». Журнал многомерного анализа . 110 : 74–90. doi : 10.1016/j.jmva.2012.02.001 .
  29. ^ Stoeber, J.; Joe, H.; Czado, C. (2013). «Упрощенные конструкции парных копул, ограничения и расширения». Журнал многомерного анализа . 119 : 101–118. doi : 10.1016/j.jmva.2013.04.014 .
  30. ^ Панагиотелис, А.; Чадо, К .; Джо, Х. (2012). «Регулярные распределения виноградной лозы для дискретных данных». Журнал Американской статистической ассоциации . 105 (499): 1063–1072. doi :10.1080/01621459.2012.682850. S2CID  123502012.
  31. ^ Stoeber, J.; Hong, HG; Czado, C .; Ghosh, P. (2015). «Коморбидность хронических заболеваний у пожилых людей: закономерности, выявленные с помощью копулы для смешанных ответов». Computational Statistics and Data Analysis . 88 : 28–39. doi :10.1016/j.csda.2015.02.001.
  32. ^ Крупский, П.; Джо, Х. (2013). «Факторные копула-модели для многомерных данных». Журнал многомерного анализа . 120 : 85–101. doi :10.1016/j.jmva.2013.05.001.
  33. ^ Джо, Х. (2014). Моделирование зависимости с помощью копул . Chapman Hall. ISBN 978-1-4665-8322-1.
  34. ^ Ковач, Э.; Сантай, Т. (2017). «О связи между копулами вишневого дерева и усеченными копулами R-виноградной лозы». Kybernetika . 53 (3): 437–460. arXiv : 1604.03269 . doi :10.14736/kyb-2017-3-0437. S2CID  45343495.
  35. ^ Ковач, Э.; Сантай, Т. (2012), «Связи винограда как средство для построения высокоразмерного распределения вероятностей, связанного с марковской сетью», arXiv : 1105.1697 [math.ST]
  36. ^ Ковач, Э.; Сантай, Т. (2012). «Гиперграфы в характеристике структур регулярной виноградной копулы». Труды 13-й Международной конференции по математике и ее приложениям, Тимишоара . 2012(a): 335–344.
  37. ^ Брехманн, EC; Чадо, C .; Аас, K. (2012). «Усеченные регулярные виноградные лозы в больших измерениях с применением к финансовым данным». Канадский журнал статистики . 40 (1): 68–85. CiteSeerX 10.1.1.185.2933 . doi :10.1002/cjs.10141. S2CID  2155236. 
  38. ^ Шепсмайер, У.; Штёбер, Дж.; Брехманн, Э.К.; Грэлер, Б. (2014). «Связка винограда: статистический вывод копул винограда, пакет R версии 1.3».

Внешние ссылки