stringtranslate.com

Виноградная копула

Лоза это графический инструмент для маркировки ограничений в многомерных распределениях вероятностей . Обычная лоза — это частный случай, для которого все ограничения двумерны или условно двумерны. Обычные лозы обобщают деревья и сами являются специализацией дерева Кантора . [1]

В сочетании с двумерными копулами обычные лозы оказались гибким инструментом в моделировании многомерных зависимостей. Копулы [2] [3] представляют собой многомерные распределения с равномерными одномерными границами. Представление совместного распределения в виде одномерных полей плюс копул позволяет отделить проблемы оценки одномерных распределений от проблем оценки зависимости. Это удобно, поскольку одномерные распределения во многих случаях можно адекватно оценить на основе данных, тогда как информация о зависимости примерно неизвестна и включает сводные показатели и суждения. [4] [5] Хотя количество параметрических семейств многомерных копул с гибкой зависимостью ограничено, существует множество параметрических семейств двумерных копул. Обычные лозы обязаны своей растущей популярностью тому факту, что они используют двумерные связки и позволяют расширять их до произвольных размеров. Теория выборки и теория оценки для обычных виноградных лоз хорошо развиты [6] [7] , а вывод моделей не используется. [8] [9] [7] Регулярные лозы оказались полезными в других задачах, таких как (ограниченная) выборка корреляционных матриц, [10] [11] построение непараметрических непрерывных байесовских сетей . [12] [13]

Например, в сфере финансов было показано, что копулы Vine эффективно моделируют хвостовой риск в приложениях по оптимизации портфеля. [14]

Историческое происхождение

Первую регулярную лозу avant la lettre представил Гарри Джо. [15] Целью было расширить параметрические двумерные семейства копул с экстремальными значениями до более высоких измерений. С этой целью он представил то, что позже будет названо D-vine . Джо [16] интересовался классом распределений с n-вариантами с заданными одномерными границами и параметрами зависимости n ( n - 1), при этом n - 1 параметров соответствуют двумерным границам, а остальные соответствуют условным двумерным границам. В случае многомерного нормального распределения параметрами будут n - 1 корреляций и ( n - 1)( n - 2)/2 частичные корреляции , которые, как было отмечено, алгебраически независимы в (-1, 1).

Совершенно иная мотивация легла в основу первого формального определения виноградной лозы у Кука. [17] Анализ неопределенности крупных моделей риска, таких как те, которые проводятся для Европейского Союза и Комиссии по ядерному регулированию США для аварий на атомных электростанциях, включают количественную оценку и распространение неопределенности по сотням переменных. [18] [19] [20] Информация о зависимостях для таких исследований была получена с помощью деревьев Маркова , [21] которые представляют собой деревья, построенные с узлами как одномерные случайные величины и ребрами как двумерные связки. Для n переменных существует не более n − 1 ребер, для которых можно задать зависимость. Новые методы того времени включали получение распределений неопределенностей параметров моделирования путем выявления неопределенностей экспертов по другим переменным, которые предсказываются моделями. Эти распределения неопределенностей возвращаются к параметрам модели с помощью процесса, известного как вероятностная инверсия. [8] [18] Полученные распределения часто отображали структуру зависимости, которую невозможно было отразить в виде дерева Маркова.

Графические модели, называемые виноградными лозами , были представлены в 1997 году и доработаны Роджером М. Куком , Тимом Бедфордом и Доротой Куровицкой. [17] [1] [8] Важной особенностью vine является то, что они могут добавлять условные зависимости между переменными поверх дерева Маркова, что, как правило, слишком экономно, чтобы суммировать зависимости между переменными.

Обычные лозы (R-лозы)

C-vine на 4 переменных
D-vine по 4 переменным
R-vine по 5 переменным

Лоза V от n переменных — это вложенное множество связанных деревьев, где ребра первого дерева являются узлами второго дерева, ребра второго дерева — узлами третьего дерева и т. д. Обычная лоза или R- лоза от n переменных — это лоза, в которой два ребра в дереве j соединены ребром в дереве j + 1, только если эти ребра имеют общий узел, j = 1, ..., n − 2. Узлы в первом дерево являются одномерными случайными величинами. Края — это ограничения или условные ограничения, поясняемые следующим образом.

Напомним, что ребро дерева — это неупорядоченный набор из двух узлов. Каждое ребро лозы связано с набором ограничений , представляющим собой набор переменных (узлов в первом дереве), достижимых с помощью отношения принадлежности к множеству. Для каждого ребра набор ограничений представляет собой объединение наборов ограничений двух членов ребра, называемых наборами ограничений компонентов (для ребра в первом дереве наборы ограничений компонентов пусты). Ограничение, связанное с каждым ребром, теперь представляет собой симметричную разность наборов ограничений его компонентов, обусловленную пересечением его наборов ограничений. Можно показать, что для обычной лозы симметричная разность наборов ограничений компонентов всегда представляет собой дубль и что каждая пара переменных встречается ровно один раз в качестве переменных с ограничениями. Другими словами, все ограничения являются двумерными или условно двумерными.

Степень узла — это количество ребер, присоединяющихся к нему. Простейшие регулярные лозы имеют простейшую ступенчатую структуру; D-Vine присваивает каждому узлу степень 1 или 2, C-Vine присваивает одному узлу в каждом дереве максимальную степень. Для крупных лиан удобнее рисовать каждое дерево отдельно.

Число правильных лоз от n переменных быстро растёт по n : существует 2 n −3 способов расширения регулярной лозы одной дополнительной переменной, и существует n ( n − 1)( n − 2)!2 ( n − 2 )( n − 3)/2 /2 помеченных правильных лоз от n переменных [22] . [23]

Ограничения на регулярную лозу могут быть связаны с частичными корреляциями или с условной двумерной копулой . В первом случае мы говорим о частичной корреляционной лозе , а во втором случае о лозе-связке .

Лозы частичной корреляции

Бедфорд и Кук [1] ​​показывают, что любое присвоение значений в открытом интервале (−1, 1) ребрам в любой лозе частичной корреляции является непротиворечивым, присвоения алгебраически независимы и существует взаимно однозначное соотношение между все такие назначения и набор корреляционных матриц. Другими словами, частичные корреляционные лозы обеспечивают алгебраически независимую параметризацию набора корреляционных матриц, члены которых имеют интуитивную интерпретацию. Более того, определителем корреляционной матрицы является произведение по ребрам (1 − ρ 2 ik ; D ( ik ) ), где ρ ik ; D ( ik ) — это частичная корреляция, присвоенная ребру с условными переменными i , k и кондиционирующими переменными D ( ik ). Подобное разложение характеризует взаимную информацию , обобщающую определитель корреляционной матрицы. [17] Эти функции использовались при ограниченной выборке корреляционных матриц, [10] построении непараметрических непрерывных байесовских сетей [12] [13] и решении проблемы расширения частично заданных матриц до положительно определенных матриц [24] . [25]

Виноградные копулы или конструкция парных связок

При подходящих условиях дифференцируемости любая многомерная плотность f 1... n от n переменных с одномерными плотностями f 1 ,..., f n может быть представлена ​​в замкнутой форме как произведение одномерных плотностей и (условных) плотностей копул на любая R-лоза V

[26]

ж 1...n знак равно ж 1 ... ж п Π e اE( V ) C е 1 , е 2 |D е ( F е 1 |D е , F е 2 |D е )

где ребра e = (e 1 , e 2 ) с набором обусловленности D e находятся в множестве ребер E( V ) любой регулярной лозы V . Условные плотности копул C e 1 ,e 2 |D e ​​в этом представлении зависят от кумулятивных условных функций распределения условных переменных F e 1 |D e ​​, F e 2 |D e ​​, и потенциально от значений кондиционирующие переменные. Когда условные связки не зависят от значений обуславливающих переменных, говорят об упрощающем предположении о постоянных условных связках. Хотя большинство приложений используют это предположение, началось исследование свободы моделирования, полученной за счет отказа от этого предположения [27] [28] . [29] Когда двумерные гауссовы копулы присваиваются краям лозы, тогда результирующая многомерная плотность представляет собой гауссову плотность, параметризованную лозой частичной корреляции, а не корреляционной матрицей.

Конструкция пары-копулы лозы, основанная на последовательном смешивании условных распределений, была адаптирована к дискретным переменным и смешанной дискретной/непрерывной реакции [30] . [31] Также были предложены фактор-копулы, в которых к лозе добавлялись скрытые переменные (например, [32] ).

Исследователи виноградной лозы разработали алгоритмы для оценки максимального правдоподобия и моделирования копул лоз, поиска усеченных лоз, которые суммируют зависимость в данных, перебора лоз и т. д. Глава 6 « Моделирования зависимостей с копулами» [33] суммирует эти алгоритмы в псевдокоде.


Усеченные копулы лозы (введенные Э. К. Брехманном в его докторской диссертации) - это копулы лозы, которые имеют копулы независимости на последних деревьях. Таким образом, усеченные связки лозы кодируют в своей структуре условные независимости. Усеченные лозы очень полезны, поскольку содержат гораздо меньше параметров, чем обычные лозы. Важный вопрос – каким должно быть дерево на самом высоком уровне. Интересная связь между усеченными лозами и копулами вишневого дерева представлена ​​в ( [34] ). Представления графов вишневого дерева были введены в качестве альтернативы обычным графическим представлениям копул виноградной лозы, причем условные независимости, кодируемые последним деревом (первым деревом после усечение) также выделено здесь ( [35] ) и в ( [36] ). Представление копул лозы последовательностью вишневого дерева дает новый способ взглянуть на усеченные копулы, основанный на условной независимости, которая вызвана усечением.

Оценка параметров

Для параметрических копул с двумерным семейством копул на каждом краю лозы доступны алгоритмы и программное обеспечение для оценки максимального правдоподобия параметров копулы, при условии, что данные были преобразованы в однородные оценки после подгонки одномерных полей. Существуют также алгоритмы (например, [37] ) для выбора хороших усеченных правильных лоз, в которых ребра деревьев высокого уровня принимаются как условная независимость. Эти алгоритмы присваивают переменным с сильной зависимостью или сильной условной зависимостью деревьям низкого порядка, чтобы деревья более высокого порядка имели слабую условную зависимость или условную независимость. Таким образом, для большого числа переменных получаются экономные усеченные лозы. Доступно программное обеспечение с пользовательским интерфейсом на языке R (например, [38] ).

Выборка и кондиционализация

Порядок выборки для n переменных представляет собой последовательность условных плотностей, в которой первая плотность является безусловной, а плотности для других переменных обусловлены предыдущими переменными в порядке. Порядок выборки подразумевает представление плотности в виде обычной лозы, если каждая условная плотность может быть записана как произведение плотностей копул в лозе и одномерных полей. [23]

Подразумеваемый порядок выборки создается с помощью вложенной последовательности ветвей, где каждая веточка в последовательности содержит одну новую переменную, отсутствующую в предыдущей ветке. Для любой регулярной лозы с n переменными существует 2 n−1 подразумеваемых порядка выборки. Подразумеваемые порядки выборки представляют собой небольшое подмножество всех n! заказы, но они значительно облегчают отбор проб. Обуславливание регулярной лозы значениями произвольного подмножества переменных — сложная операция. Однако создание условий для начальной последовательности подразумеваемого порядка выборки тривиально: нужно просто подставить начальные условные значения и продолжить выборку. Общей теории кондиционализации в настоящее время не существует.

дальнейшее чтение

Рекомендации

  1. ^ abc Бедфорд, Ти Джей; Кук, РМ (2002). «Лозы — новая графическая модель зависимых случайных величин». Анналы статистики . 30 (4): 1031–1068. CiteSeerX 10.1.1.26.8965 . дои : 10.1214/aos/1031689016. 
  2. ^ Джо, Х. (1997). Многомерные модели и концепции зависимостей . Лондон: Чепмен и Холл.
  3. ^ Нельсен, РБ (2006). Введение в копулы, 2-е изд . Нью-Йорк: Спрингер.
  4. ^ Краан, BCP; Кук, РМ (2000). «Обработка экспертных заключений при моделировании последствий аварий». Радиационная защита Дозиметрия . 90 (3): 311–315. doi : 10.1093/oxfordjournals.rpd.a033153.
  5. ^ Але, БЖМ; Беллами, Эл Джей; ван дер Бум, Р.; Купер, Дж.; Кук, Р.М.; Гуссенс, LHJ; Хейл, Арканзас; Куровицка, Д.; Моралес, О.; Роелен, ОДО; Спудж, Дж. (2009). «Дальнейшее развитие причинно-следственной модели безопасности воздушного транспорта (CATS): построение математического ядра». Журнал «Техника надежности и системная безопасность» . 94 (9): 1433–1441. дои : 10.1016/j.ress.2009.02.024.
  6. ^ Куровицка, Д.; Кук, РМ (2007). «Алгоритмы выборки для создания совместных равномерных распределений с использованием метода лозы-связки». Вычислительная статистика и анализ данных . 51 (6): 2889–2906. дои : 10.1016/j.csda.2006.11.043.
  7. ^ аб Аас, К.; Чадо, К. ; Фригесси, А.; Баккен, Х. (2009). «Парно-связочные конструкции множественной зависимости». Страхование: Математика и Экономика . 44 (2): 182–198. CiteSeerX 10.1.1.61.3984 . doi :10.1016/j.insmatheco.2007.02.001. S2CID  18320750. 
  8. ^ abc Куровицка, Д.; Кук, РМ (2006). Анализ неопределенностей с моделированием многомерных зависимостей . Уайли.
  9. ^ Куровицка, Д.; Кук, Р.М.; Кэллис, У. (2007). «Вывод виноградной лозы». Бразильский журнал вероятности и статистики .
  10. ^ Аб Левандовски, Д.; Куровицка, Д.; Джо, Х. (2009). «Создание случайных корреляционных матриц на основе виноградных лоз и расширенного метода лука». Журнал многомерного анализа . 100 (9): 1989–2001. дои : 10.1016/j.jmva.2009.04.008 .
  11. ^ Куровицка, Д. (2014). «Создание случайных корреляционных матриц на основе виноградных лоз и расширенного метода лука». Совместная плотность корреляций в корреляционной матрице с шаблонами хордальной разреженности . 129 (С): 160–170. дои : 10.1016/j.jmva.2014.04.006 .
  12. ^ Аб Ханеа, AM (2008). Алгоритмы для непараметрических байесовских сетей доверия (доктор философии). Делфтский институт прикладной математики Делфтского технологического университета.
  13. ^ аб Ханеа, AM; Куровицка, Д.; Кук, Р.М.; Абабей, Д.А. (2010). «Извлечение и визуализация порядковых данных с помощью непараметрических непрерывных BBN». Вычислительная статистика и анализ данных . 54 (3): 668–687. дои : 10.1016/j.csda.2008.09.032.
  14. ^ Лоу, РКИ; Алкок, Дж.; Фафф, Р.; Брэйлсфорд, Т. (2013). «Канонические связки виноградной лозы в контексте современного управления портфелем: стоят ли они того?». Журнал банковского дела и финансов . 37 (8): 3085–3099. doi :10.1016/j.jbankfin.2013.02.036. S2CID  154138333.
  15. ^ Джо, Х. (1994). «Многомерные распределения экстремальных значений с применением в данных об окружающей среде». Канадский статистический журнал . 22 (1): 47–64. дои : 10.2307/3315822. JSTOR  3315822.
  16. ^ Джо, Х. (1996), «Семейства распределений с m-вариантами с заданными пределами и параметрами двумерной зависимости m (m-1)/2», в Рюшендорфе, Л.; Швейцер, Б.; Тейлор, доктор медицинских наук (ред.), Распределения с фиксированными маргинальными значениями и смежные темы , вып. 28, стр. 120–141.
  17. ^ abc Cooke, RM (1997). «Марковские и энтропийные свойства переменных, зависящих от дерева и виноградной лозы». Учеб. ASA Секция байесовской статистической науки .
  18. ^ Аб Гуссенс, LHJ; Харпер, штат Форт; Краан, Британская Колумбия; Метивье, Х. (2000). «Экспертное заключение по вероятностному анализу неопределенности последствий аварий». Радиационная защита Дозиметрия . 90 (3): 295–301. doi : 10.1093/oxfordjournals.rpd.a033151.
  19. ^ Харпер, Ф.; Гуссенс, LHJ; Кук, Р.М.; Хора, С.; Янг, М.; Паслер-Ссауэр, Дж.; Миллер, Л.; Краан, Британская Колумбия; Луи, К.; Маккей, М.; Хелтон, Дж.; Джонс, А. (1994), Совместное исследование неопределенности последствий USNRC CEC: Краткое изложение целей, подхода, применения и результатов для оценки неопределенности последствий рассеяния и осаждения , том. III, НУРЭГ/CR-6244, EUR 15755 EN, ПЕСОК94-1453
  20. ^ Геган, Д.; Хассани, Б.К. (2013), «Многомерные VaR для расчета капитала операционного риска: подход к структуре лозы», International Journal of Risk Assessment and Management , 17 (2): 148–170, CiteSeerX 10.1.1.686.4277 , doi : 10.1504/ IJRAM.2013.057104, S2CID  4989901 
  21. ^ Уиттакер, Дж. (1990). Графические модели в прикладной многомерной статистике . Чичестер: Уайли.
  22. ^ Моралес Наполес, О.; Кук, Р.М.; Куровицка, Д. (2008), Число виноградных лоз и обычных лоз на n узлах , вып. Технический отчет, Делфтский институт прикладной математики, Делфтский технологический университет
  23. ^ Аб Кук, РМ; Куровицка, Д.; Уилсон, К. (2015). «Отбор проб, кондиционирование, подсчет, объединение, поиск обычных лоз». Журнал многомерного анализа . 138 : 4–18. дои : 10.1016/j.jmva.2015.02.001 .
  24. ^ Куровицка, Д.; Кук, РМ (2003). «Параметризация положительно определенных матриц с точки зрения частных корреляционных лоз». Линейная алгебра и ее приложения . 372 : 225–251. дои : 10.1016/s0024-3795(03)00507-x .
  25. ^ Куровицка, Д.; Кук, РМ (2006). «Проблема завершения с лозами частичной корреляции». Линейная алгебра и ее приложения . 418 (1): 188–200. дои : 10.1016/j.laa.2006.01.031.
  26. ^ Бефорд, Ти Джей; Кук, РМ (2001). «Разложение плотности вероятности для условно зависимых случайных величин, моделируемых лозами». Анналы математики и искусственного интеллекта . 32 : 245–268. дои : 10.1023/А: 1016725902970. S2CID  42550420.
  27. ^ Хобек Хафф, И.; Аас, К.; Фригесси, А. (2010). «Об упрощенной парно-связочной конструкции – просто полезно или слишком упрощенно?». Журнал многомерного анализа . 101 (5): 1296–1310. дои :10.1016/j.jmva.2009.12.001. hdl : 10852/34736 .
  28. ^ Акар, EF; Дженест, К.; Нешлехова, Ю. (2012). «За пределами упрощенных парно-связочных конструкций». Журнал многомерного анализа . 110 : 74–90. дои : 10.1016/j.jmva.2012.02.001 .
  29. ^ Стобер, Дж.; Джо, Х.; Чадо, К. (2013). «Упрощенные конструкции парных копул, ограничения и расширения». Журнал многомерного анализа . 119 : 101–118. дои : 10.1016/j.jmva.2013.04.014 .
  30. ^ Панагиотелис, А.; Чадо, К. ; Джо, Х. (2012). «Регулярные распределения виноградной лозы для дискретных данных». Журнал Американской статистической ассоциации . 105 (499): 1063–1072. дои : 10.1080/01621459.2012.682850. S2CID  123502012.
  31. ^ Стобер, Дж.; Хонг, ХГ; Чадо, К. ; Гош, П. (2015). «Коморбидность хронических заболеваний у пожилых людей: закономерности, выявленные с помощью конструкции связки для смешанных ответов». Вычислительная статистика и анализ данных . 88 : 28–39. doi :10.1016/j.csda.2015.02.001.
  32. ^ Крупский, П.; Джо, Х. (2013). «Модели факторной копулы для многомерных данных». Журнал многомерного анализа . 120 : 85–101. дои :10.1016/j.jmva.2013.05.001.
  33. ^ Джо, Х. (2014). Моделирование зависимостей с помощью копул . Чепмен Холл. ISBN 978-1-4665-8322-1.
  34. ^ Ковач, Э.; Сантай, Т. (2017). «О связи копул вишневого дерева и усеченных копул R-лозы». Кибернетика . 53 (3): 437–460. arXiv : 1604.03269 . дои : 10.14736/kyb-2017-3-0437. S2CID  45343495.
  35. ^ Ковач, Э.; Сантай, Т. (2012), «Вайн-копулы как средство построения многомерного распределения вероятностей, связанного с марковской сетью», arXiv : 1105.1697 [math.ST]
  36. ^ Ковач, Э.; Сантай, Т. (2012). «Гиперграфы в характеристике структур копулы правильной лозы». Учеб. 13-я Международная конференция по математике и ее приложениям, Тимишоара . 2012(а): 335–344.
  37. ^ Брехманн, ЕС; Чадо, К. ; Аас, К. (2012). «Усеченные обычные лозы в больших размерах с применением к финансовым данным». Канадский статистический журнал . 40 (1): 68–85. CiteSeerX 10.1.1.185.2933 . дои : 10.1002/cjs.10141. S2CID  2155236. 
  38. ^ Шепсмайер, У.; Стобер, Дж.; Брехманн, ЕС; Грелер, Б. (2014). «Винная копула: статистический вывод виноградных копул, пакет R, версия 1.3».

Внешние ссылки