Направленная статистика

Статистика направлений (также круговая статистика или ^{сферическая} статистика ) — это раздел статистики , который занимается направлениями ( единичными векторами в евклидовом пространстве , Rn ⁾ , осями ( линиями , проходящими через начало координат в ^Rn ) или вращениями в Rn . В более общем смысле, направленная статистика имеет дело с наблюдениями над компактными римановыми многообразиями , включая многообразие Штифеля .

Тот факт, что 0 градусов и 360 градусов являются идентичными углами , так что, например, 180 градусов не являются разумным средним значением 2 градусов и 358 градусов, служит иллюстрацией того, что для анализа некоторых типов данных требуются специальные статистические методы (в данном случае случай, угловые данные). Другие примеры данных, которые можно рассматривать как направленные, включают статистику, включающую временные периоды (например, время суток, неделю, месяц, год и т. д.), направления по компасу, двугранные углы в молекулах, ориентации, вращения и т. д.

Круговые распределения

Любую функцию плотности вероятности (pdf) на прямой можно «обернуть» вокруг окружности единичного радиуса. ^[2] То есть PDF-файл обернутой переменной. ${\ displaystyle \ p (x)}$

\theta =x_{w}=x{\bmod {2}}\pi \ \ \in (-\pi,\pi ]

p_{w}(\theta)=\sum _{k=-\infty }^{\infty }{p(\theta +2\pi k)}.

Эту концепцию можно распространить на многомерный контекст путем расширения простой суммы до ряда сумм, которые охватывают все измерения в пространстве признаков: $F$

p_{w}({\boldsymbol {\theta }})=\sum _{k_{1} = -\infty }^{\infty }\cdots \sum _{k_{F}=-\infty }^{\infty }{p({\boldsymbol {\theta }}+2\pi k_{1}\mathbf {e} _{1}+\dots +2\pi k_{F}\mathbf {e} _{Ф})}

\mathbf {e} _{k}=(0,\dots,0,1,0,\dots,0)^{\mathsf {T}}

k

В следующих разделах показаны некоторые соответствующие циклические распределения.

Круговое распределение фон Мизеса

Распределение фон Мизеса — это круговое распределение, которое, как и любое другое круговое распределение, можно рассматривать как обертку определенного линейного распределения вероятностей вокруг круга. Основное линейное распределение вероятностей для распределения фон Мизеса математически неразрешимо; однако для статистических целей нет необходимости иметь дело с лежащим в основе линейным распределением. Полезность распределения фон Мизеса двояка: оно является наиболее математически понятным из всех круговых распределений, что позволяет упростить статистический анализ, и оно является близким приближением к завернутому нормальному распределению, которое, аналогично линейному нормальному распределению, важно, потому что это предельный случай суммы большого числа малых угловых отклонений. Фактически, распределение фон Мизеса часто называют «круговым нормальным» распределением из-за его простоты использования и его тесной связи с завернутым нормальным распределением (Fisher, 1993).

PDF-файл дистрибутива фон Мизеса:

f(\theta;\mu,\kappa)={\frac {e^{\kappa \cos(\theta -\mu)}}{2\pi I_{0}(\kappa)}}

функция Бесселя

I_{0}

Круговое равномерное распределение

Функция плотности вероятности (pdf) кругового равномерного распределения определяется выражением

U(\theta)={\frac {1}{2\pi }}.

Его также можно рассматривать как фон Мизеса, упомянутого выше. $\каппа =0$

Завернутое нормальное распределение

PDF-файл завернутого нормального распределения (WN):

WN(\theta;\mu,\sigma)={\frac {1}{\sigma {\sqrt {2\pi }}}}\sum _{k=-\infty }^{\infty } \exp \left[{\frac {-(\theta -\mu -2\pi k)^{2}}{2\sigma ^{2}}}\right]={\frac {1}{2\ pi }}\vartheta \left({\frac {\theta -\mu }{2\pi }},{\frac {i\sigma ^{2}}{2\pi }}\right)

тэта-функция Якоби

\vartheta (\theta,\tau)

\vartheta (\theta,\tau)=\sum _{n=-\infty }^{\infty }(w^{2})^{n}q^{n^{2}}

w\equiv e^{i\pi \theta}

q\equiv e^{i\pi \tau }.

Завернутое распределение Коши

PDF-файл завернутого дистрибутива Коши (WC):

WC(\theta;\theta _{0},\gamma)=\sum _{n=-\infty }^{\infty }{\frac {\gamma }{\pi (\gamma ^{2) }+(\theta +2\pi n-\theta _{0})^{2})}}={\frac {1}{2\pi }}\,\,{\frac {\sinh \gamma }{\cosh \gamma -\cos(\theta -\theta _{0})}}

\гамма

\theta _{0}

Завернутое распределение Леви

PDF-файл завернутого дистрибутива Леви (WL):

f_{WL}(\theta;\mu,c)=\sum _{n=-\infty }^{\infty }{\sqrt {\frac {c}{2\pi }}}\, {\frac {e^{-c/2(\theta +2\pi n-\mu )}}{(\theta +2\pi n-\mu )^{3/2}}}

\theta +2\pi n-\mu \leq 0

с

\mu

Прогнозируемое нормальное распределение

Проецируемое нормальное распределение представляет собой круговое распределение, представляющее направление случайной величины с многомерным нормальным распределением, полученное путем радиальной проекции переменной на единичную (n-1)-сферу. Из-за этого, в отличие от других часто используемых круговых распределений, оно не является ни симметричным, ни унимодальным.

Распределения на многомерных многообразиях

Также существуют распределения на двумерной сфере (например, распределение Кента ^[3] ), N -мерной сфере ( распределение фон Мизеса-Фишера ^[4] ) или торе ( двумерное распределение фон Мизеса ^[5] ). .

Матричное распределение фон Мизеса-Фишера ^[6] представляет собой распределение на многообразии Штифеля и может использоваться для построения вероятностных распределений по матрицам вращения . ^[7]

Распределение Бингама — это распределение по осям в N измерениях или, что то же самое, по точкам на ( N — 1)-мерной сфере с идентифицированными антиподами. ^[8] Например, если N = 2, оси представляют собой ненаправленные линии, проходящие через начало координат на плоскости. В этом случае каждая ось разрезает единичный круг на плоскости (которая является одномерной сферой) в двух точках, которые являются антиподами друг друга. Для N = 4 распределение Бингама представляет собой распределение по пространству единичных кватернионов ( версоров ). Поскольку версор соответствует матрице вращения, распределение Бингема для N = 4 можно использовать для построения распределений вероятностей в пространстве вращений, как и распределение матрицы-фон Мизеса-Фишера.

Эти распределения используются, например, в геологии , ^[9] кристаллографии ^[10] и биоинформатике . ^[1]^[11]^[12]

Моменты

Необработанные векторные (или тригонометрические) моменты кругового распределения определяются как

m_{n}=\operatorname {E} (z^{n})=\int _{\Gamma }P(\theta)z^{n}\,d\theta

где – любой интервал длины , – PDF кругового распределения и . Поскольку интеграл равен единице, а интервал интегрирования конечен, отсюда следует, что моменты любого кругового распределения всегда конечны и четко определены. $\Гамма$ $2\pi$ $P(\theta )$ $z=e^{i\theta }$ $P(\theta )$

Аналогично определяются выборочные моменты:

{\overline {m}}_{n}={\frac {1}{N}}\sum _{i=1}^{N}z_{i}^{n}.

Результирующий вектор совокупности, длина и средний угол определяются аналогично соответствующим параметрам выборки.

\rho =m_{1}

R=|m_{1}|

\theta _{n}=\operatorname {Arg} (m_{n}).

Кроме того, длины высших моментов определяются как:

R_{n}=|m_{n}|

в то время как угловые части высших моментов равны всего . Длины всех моментов будут лежать между 0 и 1. $(n\theta _{n}){\bmod {2}}\pi$

Меры местоположения и распространения

Различные меры центральной тенденции и статистической дисперсии могут быть определены как для совокупности, так и для выборки, составленной из этой совокупности. ^[13]

Главная тенденция

Наиболее распространенной мерой местоположения является среднее круговое. Круговое среднее населения — это просто первый момент распределения, а среднее выборочное — это первый момент выборки. Выборочное среднее будет служить несмещенной оценкой среднего значения генеральной совокупности.

Когда данные сконцентрированы, медиану и моду можно определить по аналогии с линейным случаем, но для более рассредоточенных или мультимодальных данных эти концепции бесполезны.

Дисперсия

Наиболее распространенными мерами кругового распространения являются:

The Круговая дисперсия . Для выборки круговая дисперсия определяется как: ${\overline {\operatorname {Var} (z)}}=1-{\overline {R}}$ и для населения $\operatorname {Var} (z)=1-R$ Оба будут иметь значения от 0 до 1.
The круговое стандартное отклонение $S(z)={\sqrt {\ln(1/R^{2})}}={\sqrt {-2\ln(R)}}$ ${\overline {S}}(z)={\sqrt {\ln(1/{\overline {R}}^{2})}}={\sqrt {-2\ln({\overline {R}})}}$ со значениями от 0 до бесконечности. Это определение стандартного отклонения (а не квадратного корня из дисперсии) полезно, поскольку для завернутого нормального распределения оно является оценкой стандартного отклонения основного нормального распределения. Таким образом, это позволит стандартизировать круговое распределение, как и в линейном случае, для небольших значений стандартного отклонения. Это также относится к распределению фон Мизеса, которое близко приближается к завернутому нормальному распределению. Обратите внимание, что для small мы имеем . $S(z)$ $S(z)^{2}=2\operatorname {Var} (z)$
The круговая дисперсия $\delta ={\frac {1-R_{2}}{2R^{2}}}$ ${\overline {\delta }}={\frac {1-{{\overline {R}}_{2}}}{2{\overline {R}}^{2}}}$ со значениями от 0 до бесконечности. Эта мера разброса оказывается полезной при статистическом анализе дисперсии.

Распределение среднего значения

Учитывая набор из N измерений , среднее значение z определяется как: $z_{n}=e^{i\theta _{n}}$

{\overline {z}}={\frac {1}{N}}\sum _{n=1}^{N}z_{n}

что может быть выражено как

{\overline {z}}={\overline {C}}+i{\overline {S}}

где

{\overline {C}}={\frac {1}{N}}\sum _{n=1}^{N}\cos(\theta _{n}){\text{ and }}{\overline {S}}={\frac {1}{N}}\sum _{n=1}^{N}\sin(\theta _{n})

или, альтернативно, как:

{\overline {z}}={\overline {R}}e^{i{\overline {\theta }}}

где

{\overline {R}}={\sqrt {{\overline {C}}^{2}+{\overline {S}}^{2}}}{\text{ and }}{\overline {\theta }}=\arctan({\overline {S}}/{\overline {C}}).

Распределение среднего угла ( ) для кругового PDF P ( θ ) будет определяться следующим образом: ${\overline {\theta }}$

P({\overline {C}},{\overline {S}})\,d{\overline {C}}\,d{\overline {S}}=P({\overline {R}},{\overline {\theta }})\,d{\overline {R}}\,d{\overline {\theta }}=\int _{\Gamma }\cdots \int _{\Gamma }\prod _{n=1}^{N}\left[P(\theta _{n})\,d\theta _{n}\right]

где находится в любом интервале длины, а интеграл подлежит ограничению, что и постоянны или, альтернативно, и постоянны. $\Gamma$ $2\pi$ ${\overline {S}}$ ${\overline {C}}$ ${\overline {R}}$ ${\overline {\theta }}$

Расчет распределения среднего значения для большинства круговых распределений аналитически невозможен, и для проведения дисперсионного анализа необходимы численные или математические аппроксимации. ^[14]

Центральная предельная теорема может быть применена к распределению выборочных средних. (основная статья: Центральная предельная теорема для направленной статистики ). Можно показать ^[14] , что распределение приближается к двумерному нормальному распределению в пределе большого размера выборки. $[{\overline {C}},{\overline {S}}]$

Проверка соответствия и значимости

Для циклических данных (например, равномерно ли они распределены):

Тест Рэлея для унимодального кластера
Тест Койпера на возможность мультимодальных данных.

Смотрите также

Книги по направленной статистике

Батчелет, Э. Круговая статистика в биологии, Academic Press , Лондон, 1981. ISBN 0-12-081050-6 .
Фишер, Н.И. , Статистический анализ круговых данных , издательство Кембриджского университета , 1993. ISBN 0-521-35018-2.
Фишер, Н.И. , Льюис, Т., Эмблтон, BJJ. Статистический анализ сферических данных , издательство Кембриджского университета , 1993. ISBN 0-521-45699-1
Джаммаламадака С. Рао и СенГупта А. Темы круговой статистики , World Scientific, 2001. ISBN 981-02-3778-2
Мардия, К.В. и Джапп П., Статистика направления (2-е издание) , John Wiley and Sons Ltd., 2000. ISBN 0-471-95333-4
Лей, К. и Вердебоут, Т., Современная направленная статистика , CRC Press Taylor & Francisco Group , 2017. ISBN 978-1-4987-0664-3