stringtranslate.com

Направленная статистика

Направленная статистика (также круговая статистика или сферическая статистика ) — это раздел статистики , который имеет дело с направлениями ( единичными векторами в евклидовом пространстве R n ) , осями ( прямыми, проходящими через начало координат в R n ) или вращениями в R n . В более общем смысле направленная статистика имеет дело с наблюдениями на компактных римановых многообразиях, включая многообразие Штифеля .

Общая форма белка может быть параметризована как последовательность точек на единичной сфере . Показаны два вида сферической гистограммы таких точек для большой коллекции структур белка. Статистическая обработка таких данных находится в области направленной статистики. [1]

Тот факт, что 0 градусов и 360 градусов являются идентичными углами , так что, например, 180 градусов не являются разумным средним значением 2 градусов и 358 градусов, дает одну иллюстрацию того, что для анализа некоторых типов данных (в данном случае угловых данных) требуются специальные статистические методы. Другие примеры данных, которые можно рассматривать как направленные, включают статистику, включающую временные периоды (например, время дня, неделя, месяц, год и т. д.), направления компаса, двугранные углы в молекулах, ориентации, вращения и т. д.

Круговые распределения

Любая функция плотности вероятности (pdf) на линии может быть «обернута» вокруг окружности единичного радиуса. [2] То есть, pdf обернутой переменной равна

Эту концепцию можно распространить на многомерный контекст, расширив простую сумму до ряда сумм, охватывающих все измерения в пространстве признаков: где — -й евклидов базисный вектор.

В следующих разделах показаны некоторые соответствующие круговые распределения.

Круговое распределение фон Мизеса

Распределение фон Мизеса является круговым распределением, которое, как и любое другое круговое распределение, можно рассматривать как обертывание определенного линейного распределения вероятностей вокруг круга. Базовое линейное распределение вероятностей для распределения фон Мизеса математически не поддается обработке; однако для статистических целей нет необходимости иметь дело с базовым линейным распределением. Полезность распределения фон Мизеса двояка: оно является наиболее математически поддающимся обработке из всех круговых распределений, позволяя проводить более простой статистический анализ, и оно является близким приближением к обернутому нормальному распределению, которое, аналогично линейному нормальному распределению, важно, поскольку является предельным случаем для суммы большого числа малых угловых отклонений. Фактически, распределение фон Мизеса часто называют «круговым нормальным» распределением из-за его простоты использования и его тесной связи с обернутым нормальным распределением. [3]

PDF распределения фон Мизеса имеет вид: где — модифицированная функция Бесселя порядка 0.

Круговое равномерное распределение

Функция плотности вероятности (pdf) кругового равномерного распределения определяется выражением

Его также можно рассматривать как аналогичный подход фон Мизеса.

Нормальное распределение в обертке

PDF обернутого нормального распределения (WN) имеет вид: где μ и σ — среднее значение и стандартное отклонение развернутого распределения соответственно, а — тета-функция Якоби : где и

Обернутое распределение Коши

PDF обернутого распределения Коши (WC) имеет вид: где — масштабный коэффициент, а — положение пика.

Распределение упакованных Леви

PDF обернутого распределения Леви (WL) имеет вид: где значение слагаемого принимается равным нулю, когда , — масштабный коэффициент, а — параметр местоположения.

Прогнозируемое нормальное распределение

Проецируемое нормальное распределение представляет собой круговое распределение, представляющее направление случайной величины с многомерным нормальным распределением, полученное радиальной проекцией переменной на единичную (n-1)-сферу. В связи с этим, и в отличие от других обычно используемых круговых распределений, оно не является ни симметричным, ни унимодальным .

Распределения на многообразиях более высокой размерности

Три набора точек, выбранных из разных распределений Кента на сфере.

Существуют также распределения на двумерной сфере (например, распределение Кента [4] ), N -мерной сфере ( распределение фон Мизеса–Фишера [5] ) или торе ( двумерное распределение фон Мизеса [6] ).

Матричное распределение фон Мизеса–Фишера [7] является распределением на многообразии Штифеля и может быть использовано для построения распределений вероятностей по матрицам вращения . [8]

Распределение Бингама — это распределение по осям в N измерениях или, что эквивалентно, по точкам на ( N  − 1)-мерной сфере с идентифицированными антиподами. [9] Например, если N  = 2, оси являются ненаправленными прямыми, проходящими через начало координат на плоскости. В этом случае каждая ось пересекает единичную окружность на плоскости (которая является одномерной сферой) в двух точках, которые являются антиподами друг друга. Для N  = 4 распределение Бингама — это распределение по пространству единичных кватернионов ( версоров ). Поскольку версор соответствует матрице вращения, распределение Бингама для N  = 4 можно использовать для построения распределений вероятностей по пространству вращений, как и распределение Матрицы фон Мизеса–Фишера.

Эти распределения используются, например, в геологии , [10] кристаллографии [11] и биоинформатике . [1] [12] [13]

Моменты

Необработанные векторные (или тригонометрические) моменты кругового распределения определяются как

где — любой интервал длины , — функция плотности вероятности кругового распределения, и . Поскольку интеграл равен единице, а интервал интегрирования конечен, отсюда следует, что моменты любого кругового распределения всегда конечны и хорошо определены.

Аналогично определяются выборочные моменты:

Результирующий вектор популяции, длина и средний угол определяются по аналогии с соответствующими параметрами выборки.

Кроме того, длины высших моментов определяются как:

в то время как угловые части высших моментов просто . Длины всех моментов будут лежать между 0 и 1.

Меры местоположения и распространения

Различные меры центральной тенденции и статистической дисперсии могут быть определены как для совокупности, так и для выборки, взятой из этой совокупности. [3]

Центральная тенденция

Наиболее распространенной мерой местоположения является круговое среднее. Круговое среднее по популяции — это просто первый момент распределения, тогда как выборочное среднее — это первый момент выборки. Выборочное среднее будет служить несмещенной оценкой среднего по популяции.

Когда данные сконцентрированы, медиану и моду можно определить по аналогии с линейным случаем, но для более разбросанных или многомодальных данных эти концепции бесполезны.

Дисперсия

Наиболее распространенными мерами кругового спреда являются:

Распределение среднего

При наличии набора из N измерений среднее значение z определяется как:

что может быть выражено как

где

или, альтернативно, как:

где

Распределение среднего угла ( ) для круговой функции распределения P ( θ ) будет определяться выражением:

где — на любом интервале длины , а интеграл подчиняется ограничению, что и являются постоянными, или, альтернативно, что и являются постоянными.

Расчет распределения среднего значения для большинства круговых распределений аналитически невозможен, и для проведения дисперсионного анализа необходимы числовые или математические приближения. [14]

Центральная предельная теорема может быть применена к распределению выборочных средних значений. (основная статья: Центральная предельная теорема для направленной статистики ). Можно показать [14] , что распределение приближается к двумерному нормальному распределению в пределе большого размера выборки.

Проверка соответствия и значимости

Для циклических данных (например, равномерно ли они распределены):

Смотрите также

Ссылки

  1. ^ ab Хамельрик, Томас; Кент, Джон Т.; Крог, Андерс (2006). "Хамельрик, Т., Кент, Дж., Крог, А. (2006) Выборка реалистичных конформаций белка с использованием локального структурного смещения. PLoS Comput. Biol., 2(9): e131". PLOS Computational Biology . 2 (9): e131. Bibcode :2006PLSCB...2..131H. doi : 10.1371/journal.pcbi.0020131 . PMC  1570370 . PMID  17002495.
  2. ^ Бальманн, К., (2006), Направленные признаки в онлайн-распознавании рукописного текста, Распознавание образов, 39
  3. ^ Фишер 1993.
  4. ^ Кент, Дж. (1982) Распределение Фишера–Бингама на сфере. J Royal Stat Soc, 44, 71–80.
  5. ^ Фишер, РА (1953) Дисперсия на сфере. Proc. Roy. Soc. London Ser. A., 217, 295–305
  6. ^ Мардиа, К.М. Тейлор; CC; Субраманиам, ГК. (2007). «Белковая биоинформатика и смеси двумерных распределений фон Мизеса для угловых данных». Биометрия . 63 (2): 505–512. doi :10.1111/j.1541-0420.2006.00682.x. PMID  17688502. S2CID  14293602.
  7. ^ Пал, Субхадип; Сенгупта, Субхаджит; Митра, Ритен; Банерджи, Арунава (сентябрь 2020 г.). «Сопряженные априорные распределения и апостериорный вывод для матричного распределения Ланжевена на многообразии Штифеля». Байесовский анализ . 15 (3): 871–908. doi : 10.1214/19-BA1176 . ISSN  1936-0975. S2CID  209974627.
  8. ^ Даунс (1972). «Ориентационная статистика». Biometrika . 59 (3): 665–676. doi :10.1093/biomet/59.3.665.
  9. ^ Бингем, К. (1974). «Антиподально симметричное распределение на сфере». Ann. Stat . 2 (6): 1201–1225. doi : 10.1214/aos/1176342874 .
  10. ^ Пил, Д.; Уайтен, В. Дж.; Маклахлан, Г. Дж. (2001). «Подгонка смесей распределений Кента для помощи в идентификации совместных множеств» (PDF) . J. Am. Stat. Assoc . 96 (453): 56–63. doi :10.1198/016214501750332974. S2CID  11667311.
  11. ^ Кригер Лассен, NC; Юул Йенсен, D.; Конрадсен, K. (1994). «О статистическом анализе данных об ориентации». Acta Crystallogr . A50 (6): 741–748. Bibcode : 1994AcCrA..50..741K. doi : 10.1107/S010876739400437X.
  12. ^ Кент, Дж. Т., Хамелрик, Т. (2005). Использование распределения Фишера–Бингама в стохастических моделях для структуры белка. В S. Barber, PD Baxter, KVMardia, & RE Walls (ред.), Количественная биология, анализ формы и вейвлеты, стр. 57–60. Лидс, Leeds University Press
  13. ^ Boomsma, Wouter; Mardia, Kanti V.; Taylor, Charles C.; Ferkinghoff-Borg, Jesper; Krogh, Anders; Hamelryck, Thomas (2008). «Генеративная, вероятностная модель локальной структуры белка». Труды Национальной академии наук . 105 (26): 8932–8937. Bibcode : 2008PNAS..105.8932B. doi : 10.1073/pnas.0801715105 . PMC 2440424. PMID  18579771 . 
  14. ^ аб Джаммаламадака и Сенгупта 2001.

Книги по направленной статистике