t-распределение Стьюдента

В теории вероятностей и статистике $t$ - распределение Стьюдента (или просто $t$ - распределение ) представляет собой непрерывное распределение вероятностей , которое обобщает стандартное нормальное распределение . Как и последний, он симметричен вокруг нуля и имеет колоколообразную форму. $\ t_{\nu }\$

Однако имеет более тяжелые хвосты , а количество вероятностной массы в хвостах контролируется параметром. Для $t-$ распределения Стьюдента становится стандартным распределением Коши , которое имеет очень «толстые» хвосты ; тогда как для него это становится стандартным нормальным распределением , имеющим очень «тонкие» хвосты. $\ t_{\nu }\$ $\ \nu ~~.$ $\ \nu =1\$ $t_{\nu }$ $\ \nu \rightarrow \infty \$ $\ {\mathcal {N}}(0,1)\,$

$Распределение$ Стьюдента играет роль в ряде широко используемых статистических анализов, включая $критерий$ Стьюдента для оценки статистической значимости разницы между двумя выборочными средними, построения доверительных интервалов для разницы между двумя генеральными средними и в линейной регрессии . анализ .

В форме $t$ - распределения в масштабе местоположения оно обобщает нормальное распределение , а также возникает при байесовском анализе данных из нормального семейства как составное распределение при маргинализации по параметру дисперсии. $lst(\mu ,\tau ^{2},\nu )$

История и этимология

В статистике $t-$ распределение было впервые получено как апостериорное распределение в 1876 году Хелмертом ^[3]^[4]^[5] и Люротом . ^[6]^[7]^[8] Распределение $t$ также появилось в более общей форме как распределение Пирсона типа IV в статье Карла Пирсона 1895 года. ^[9]

В англоязычной литературе распространение получило свое название от статьи Уильяма Сили Госсета 1908 года в журнале «Биометрика» под псевдонимом «Студент». ^[10] Одна из версий происхождения псевдонима заключается в том, что работодатель Госсета предпочитал, чтобы сотрудники использовали псевдонимы при публикации научных статей вместо своего настоящего имени, поэтому он использовал имя «Студент», чтобы скрыть свою личность. Другая версия заключается в том, что компания Guinness не хотела, чтобы конкуренты знали, что они используют $t-$ тест для определения качества сырья. ^[11]^[12]

Госсет работал на пивоварне Guinness Brewery в Дублине, Ирландия , и интересовался проблемами небольших образцов – например, химическими свойствами ячменя, где размеры выборок могли составлять всего 3. В статье Госсета это распределение называется «частотным распределением». стандартных отклонений выборок, взятых из нормальной популяции». Оно стало широко известно благодаря работе Рональда Фишера , который назвал распределение «распределением Стьюдента» и обозначил проверочное значение буквой $t$ . ^[13]^[14]

Определение

Функция плотности вероятности

$Распределение$ Стьюдента имеет функцию плотности вероятности (PDF) , определяемую выражением

f(t)={\frac {\ \Gamma ({\frac {\ \nu +1\ }{2}})\ }{\ {\sqrt {\pi \ \nu \ }}\ \Gamma ({\frac {\nu }{2}})}}\left(\ 1+{\frac {~t^{2}\ }{\nu }}\ \right)^{-(\nu +1)/2}\ ,

где – число степеней свободы , – гамма-функция . Это также можно записать как $\nu$ $\Gamma$

f(t)={\frac {1}{\ {\sqrt {\nu \ }}\ {\mathrm {B} }\left({\frac {\ 1\ }{2}},\ {\frac {\ \nu \ }{2}}\right)\ }}\ \left(\ 1+{\frac {\ t^{2}\ }{\nu }}\ \right)^{-(\nu +1)/2}\ ,

где бета -функция . В частности, для целочисленных степеней свободы мы имеем: $\ {\mathrm {B} }\$ $\ \nu \$

Ибо и даже, $\ \nu >1\$

\ {\frac {\ \Gamma \left({\frac {\ \nu +1\ }{2}}\right)\ }{\ {\sqrt {\pi \ \nu \ }}\ \Gamma \left({\frac {\ \nu \ }{2}}\right)\ }}={\frac {\ (\nu -1)\cdot (\nu -3)\cdots 5\cdot 3\ }{2{\sqrt {\nu \ }}\ (\nu -2)\cdot (\nu -4)\cdots 4\cdot 2\ }}~.

Для и странного, $\ \nu >1\$

\ {\frac {\ \Gamma \left({\frac {\ \nu +1\ }{2}}\right)\ }{\ {\sqrt {\pi \ \nu \ }}\ \Gamma \left({\frac {\ \nu \ }{2}}\right)}}={\frac {(\nu -1)\cdot (\nu -3)\cdots 4\cdot 2\ }{\ \pi {\sqrt {\nu \ }}\ (\nu -2)\cdot (\nu -4)\cdots 5\cdot 3\ }}~.

Функция плотности вероятности симметрична , и ее общая форма напоминает колоколообразную форму нормально распределенной переменной со средним значением 0 и дисперсией 1, за исключением того, что она немного ниже и шире. По мере роста числа степеней свободы распределение $t$ приближается к нормальному распределению со средним значением 0 и дисперсией 1. По этой причине его также называют параметром нормальности. ^[15] ${\ \nu \ }$

На следующих изображениях показана плотность распределения $t$ для возрастающих значений. Нормальное распределение показано для сравнения синей линией. Обратите внимание, что распределение $t$ (красная линия) по мере увеличения становится ближе к нормальному распределению . $\ \nu ~.$ $\ \nu \$

Плотность

t

-распределения (красный) для 1, 2, 3, 5, 10 и 30 степеней свободы по сравнению со стандартным нормальным распределением (синий).
Предыдущие графики показаны зеленым цветом.

Кумулятивная функция распределения

Кумулятивную функцию распределения (CDF) можно записать через $I$ , регуляризованную неполную бета-функцию . Для $t$ $> 0$ ,

F(t)=\int _{-\infty }^{t}\ f(u)\ \operatorname {d} u~=~1-{\frac {1}{2}}I_{x(t)}\!\left({\frac {\ \nu \ }{2}},\ {\frac {\ 1\ }{2}}\right)\ ,

где

x(t)={\frac {\nu }{\ t^{2}+\nu \ }}~.

Другие значения будут получены путем симметрии. Альтернативная формула, действительная для $\ t^{2}<\nu \ ,$

\int _{-\infty }^{t}f(u)\ \operatorname {d} u~=~{\frac {1}{2}}+t\ {\frac {\ \Gamma \!\left({\frac {\ \nu +1\ }{2}}\right)\ }{\ {\sqrt {\pi \ \nu \ }}\ \Gamma \!\left({\frac {\nu }{\ 2\ }}\right)\ }}\ {}_{2}F_{1}\!\left(\ {\frac {1}{2}},{\frac {\ \nu +1\ }{2}}\ ;{\frac {3}{\ 2\ }}\ ;\ -{\frac {~t^{2}\ }{\nu }}\ \right)\ ,

где – частный случай гипергеометрической функции . $\ {}_{2}F_{1}(\ ,\ ;\ ;\ )\$

Информацию об обратной кумулятивной функции распределения см. в разделе « Функция квантиля § t-распределение Стьюдента ».

Особые случаи

Определенные значения дают простую форму t-распределения Стьюдента. $\ \nu \$

Моменты

Ибо необработанные моменты распределения $t$ равны $\nu >1\ ,$

\operatorname {\mathbb {E} } \left\{\ T^{k}\ \right\}={\begin{cases}\quad 0&k{\text{ odd }},\quad 0<k<\nu \ ,\\{}\\{\frac {1}{\ {\sqrt {\pi \ }}\ \Gamma \left({\frac {\ \nu \ }{2}}\right)}}\ \left[\ \Gamma \!\left({\frac {\ k+1\ }{2}}\right)\ \Gamma \!\left({\frac {\ \nu -k\ }{2}}\right)\ \nu ^{\frac {\ k\ }{2}}\ \right]&k{\text{ even }},\quad 0<k<\nu ~.\\\end{cases}}

Моментов порядка и выше не существует. ^[16] $\ \nu \$

Термин для четного $k$ можно упростить, используя свойства гамма-функции : $\ 0<k<\nu \ ,$

\operatorname {\mathbb {E} } \left\{\ T^{k}\ \right\}=\nu ^{\frac {\ k\ }{2}}\ \prod _{j=1}^{k/2}\ {\frac {~2j-1~}{\nu -2j}}\qquad k{\text{ even}},\quad 0<k<\nu ~.

Для распределения $t$ со степенями свободы ожидаемое значение равно if , а его дисперсия равна if . Асимметрия равна 0 if , а избыточный эксцесс равен if. $\ \nu \$ $\ 0\$ $\ \nu >1\ ,$ $\ {\frac {\nu }{\ \nu -2\ }}\$ $\ \nu >2~.$ $\ \nu >3\$ $\ {\frac {6}{\ \nu -4\ }}\$ $\ \nu >4~.$

Распределение t в масштабе местоположения

Преобразование в масштабе местоположения

Распределение Стьюдента обобщает трехпараметрическое распределение $t$ в масштабе местоположения путем введения параметра местоположения и параметра масштаба With $.$ $\ {\mathcal {lst}}(\mu ,\ \tau ^{2},\ \nu )\$ $\ \mu \$ $\ \tau ~.$

\ T\sim t_{\nu }\

и трансформация семьи в масштабе локации

\ X=\mu +\tau \ T\

мы получаем

\ X\sim {\mathcal {lst}}(\mu ,\ \tau ^{2},\ \nu )~.

Полученное распределение также называют нестандартизованным $t$ - распределением Стьюдента .

Плотность и первые два момента

$Распределение t$ в масштабе местоположения имеет плотность, определяемую следующим образом: ^[17]

p(x\mid \nu ,\mu ,\tau )={\frac {\ \Gamma \left({\frac {\ \nu +1\ }{2}}\right)\ }{\ \Gamma \left({\frac {\ \nu \ }{2}}\right)\ {\sqrt {\pi \ \nu \ }}\ \tau \ }}\ \left(1+{\frac {\ 1\ }{\nu }}\ \left(\ {\frac {\ x-\mu \ }{\tau }}\ \right)^{2}\ \right)^{-(\nu +1)/2}\

Эквивалентно плотность можно записать как : $\tau ^{2}$

\ p(x\ \mid \ \nu ,\ \mu ,\ \tau ^{2})={\frac {\ \Gamma ({\frac {\nu +1}{2}})\ }{\ \Gamma \left({\frac {\ \nu \ }{2}}\right)\ {\sqrt {\pi \ \nu \ \tau ^{2}}}\ }}\ \left(\ 1+{\frac {\ 1\ }{\nu }}\ {\frac {\ (x-\mu )^{2}\ }{\ \tau ^{2}\ }}\ \right)^{-(\nu +1)/2}\

Другие свойства этой версии дистрибутива: ^[17]

{\begin{aligned}\operatorname {\mathbb {E} } \{\ X\ \}&=\mu &{\text{ for }}\nu >1\ ,\\\operatorname {var} \{\ X\ \}&=\tau ^{2}{\frac {\nu }{\nu -2}}&{\text{ for }}\nu >2\ ,\\\operatorname {mode} \{\ X\ \}&=\mu ~.\end{aligned}}

Особые случаи

Если следует распределению $t$ в масштабе местоположения, то для обычно распределяется со средним значением и дисперсией. $\ X\$ $\ X\sim {\mathcal {lst}}\left(\mu ,\ \tau ^{2},\ \nu \right)\$ $\ \nu \rightarrow \infty \$ $\ X\$ $X\sim \mathrm {N} \left(\mu ,\tau ^{2}\right)$ $\mu$ $\ \tau ^{2}~.$
Распределение $t$ в масштабе местоположения со степенью свободы эквивалентно распределению Коши $\ {\mathcal {lst}}\left(\mu ,\ \tau ^{2},\ \nu =1\right)\$ $\nu =1$ $\mathrm {Cau} \left(\mu ,\tau \right)~.$
Распределение $t$ в масштабе местоположения с помощью и сводится к $t-$ распределению Стьюдента. $\ {\mathcal {lst}}\left(\mu =0,\ \tau ^{2}=1,\ \nu \right)\$ $\mu =0$ $\ \tau ^{2}=1\$ $\ t_{\nu }~.$

Как возникает распределение t (характеристика)

Выборочное распределение t-статистики

Распределение $t$ возникает как выборочное распределение $t$ - статистики. Ниже обсуждается $t-$ статистика для одной выборки , соответствующую $t-$ статистику для двух выборок см. в t-критерии Стьюдента .

Несмещенная оценка дисперсии

Пусть это независимые и одинаково распределенные выборки из нормального распределения со средним значением и дисперсией. Выборочное среднее и несмещенная выборочная дисперсия определяются выражением: $\ x_{1},\ldots ,x_{n}\sim {\mathcal {N}}(\mu ,\sigma ^{2})\$ $\mu$ $\ \sigma ^{2}~.$

{\begin{aligned}{\bar {x}}&={\frac {\ x_{1}+\cdots +x_{n}\ }{n}}\ ,\\[5pt]s^{2}&={\frac {1}{\ n-1\ }}\ \sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}~.\end{aligned}}

Результирующая (одна выборка) $t-$ статистика определяется выражением

t={\frac {{\bar {x}}-\mu }{\ {\sqrt {s^{2}/n\ }}\ }}\sim t_{n-1}~.

$и распределяется согласно t$ -распределению Стьюдента со степенями свободы. $\ n-1\$

Таким образом, для целей вывода $t-$ статистика является полезной « основной величиной » в случае, когда среднее значение и дисперсия являются неизвестными параметрами совокупности, в том смысле, что $t-$ статистика имеет распределение вероятностей, которое не зависит ни от того, ни от других факторов . $(\mu ,\sigma ^{2})$ $\mu$ $\ \sigma ^{2}~.$

Оценка отклонения ML

Вместо несмещенной оценки мы можем также использовать оценку максимального правдоподобия. $\ s^{2}\$

\ s_{\mathsf {ML}}^{2}={\frac {\ 1\ }{n}}\ \sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}\

получение статистики

\ t_{\mathsf {ML}}={\frac {{\bar {x}}-\mu }{\sqrt {s_{\mathsf {ML}}^{2}/n\ }}}={\sqrt {{\frac {n}{n-1}}\ }}\ t~.

Оно распределяется в соответствии с распределением $t$ в масштабе местоположения :

t_{\mathsf {ML}}\sim {\mathcal {lst}}(0,\ \tau ^{2}=n/(n-1),\ n-1)~.

Сложное распределение нормального с обратным гамма-распределением

$Распределение t$ в масштабе местоположения получается в результате объединения гауссовского распределения (нормального распределения) со средним и неизвестным отклонением с обратным гамма-распределением, помещенным над отклонением с параметрами и . Другими словами, предполагается, что случайная величина X имеет гауссово распределение с неизвестная дисперсия распределяется как обратная гамма, а затем дисперсия исключается ( интегрируется). $\ \mu \$ $\ a={\frac {\ \nu \ }{2}}\$ $b={\frac {\ \nu \ \tau ^{2}\ }{2}}~.$

Эквивалентно, это распределение является результатом объединения гауссовского распределения с масштабированным распределением обратного хи-квадрата с параметрами и Масштабированное распределение обратного хи-квадрата представляет собой точно такое же распределение, как обратное гамма-распределение, но с другой параметризацией, т.е. $\nu$ $\ \tau ^{2}~.$ $\ \nu =2\ a,\;{\tau }^{2}={\frac {\ b\ }{a}}~.$

Причина полезности этой характеристики заключается в том, что в байесовской статистике обратное гамма-распределение представляет собой сопряженное априорное распределение дисперсии гауссовского распределения. В результате распределение $t$ в масштабе местоположения естественным образом возникает во многих задачах байесовского вывода. ^[18]

Максимальное распределение энтропии

$Распределение$ Стьюдента — это распределение вероятностей максимальной энтропии для случайной величины X , для которой фиксировано. ^[19]^[^{необходимы разъяснения}^]^[^{нужен лучший источник}^] $\ \operatorname {\mathbb {E} } \left\{\ \ln(\nu +X^{2})\ \right\}\$

Дополнительные свойства

Выборка Монте-Карло

$Существуют различные подходы к построению случайных выборок на основе t$ -распределения Стьюдента . Вопрос зависит от того, требуются ли выборки на отдельной основе или они должны быть построены путем применения функции квантиля к однородным выборкам; например, в многомерных приложениях, основанных на зависимости от копулы . ^{[ нужна ссылка ]} В случае автономной выборки легко применить расширение метода Бокса-Мюллера и его полярную форму . ^[20] Его достоинство заключается в том, что он одинаково хорошо применим ко всем реальным положительным степеням свободы $ν$ , в то время как многие другие методы-кандидаты терпят неудачу, если $ν$ близко к нулю. ^[20]

Интеграл от функции плотности вероятности Стьюдента и значения p

Функция $A (t | ν)$ является интегралом функции плотности вероятности Стьюдента $f (t)$ между $-t$ и $t$ , для $t$ $\geq 0$ . Таким образом, это дает вероятность того, что значение t меньше, чем рассчитанное на основе наблюдаемых данных, возникнет случайно. Следовательно, функцию $A$ $($ $t$ $|$ $ν$ $)$ можно использовать при проверке того, является ли разница между средними значениями двух наборов данных статистически значимой, путем расчета соответствующего значения $t$ и вероятности его появления, если два набора данных были взятые из того же населения. Это используется в различных ситуациях, особенно в t- тестах . Для статистики $t$ с $ν$ степенями свободы $A$ $($ $t$ $|$ $ν$ $)$ — это вероятность того, что $t$ будет меньше наблюдаемого значения, если бы два средних были одинаковыми (при условии, что меньшее среднее вычитается из большего, так что $т$ $\geq 0$ ). Его можно легко вычислить из кумулятивной функции распределения $F$ $ν$ $($ $t$ $)$ $t$ - распределения:

A(t\mid \nu )=F_{\nu }(t)-F_{\nu }(-t)=1-I_{\frac {\nu }{\nu +t^{2}}}\!\left({\frac {\nu }{2}},{\frac {1}{2}}\right),

где $Ix$ $($ $a$ $,$ $b$ $)$ — регуляризованная $неполная$ бета-функция .

Для проверки статистических гипотез эта функция используется для построения значения p .

Связанные дистрибутивы

Нецентральное распределение t обобщает распределение $t$ , включив в него параметр нецентральности. В отличие от нестандартизованных $t-$ распределений, нецентральные распределения не симметричны (медиана не совпадает с модой).

Дискретное $t-$ распределение Стьюдента определяется его функцией массы вероятности при r , пропорциональной: ^[21] $\prod _{j=1}^{k}{\frac {1}{(r+j+a)^{2}+b^{2}}}\quad \quad r=\ldots ,-1,0,1,\ldots ~.$ Здесь a , b и k — параметры. Это распределение возникает в результате построения системы дискретных распределений, аналогичной системе распределений Пирсона для непрерывных распределений. ^[22]

Можно сгенерировать выборки Стьюдента $A$ $($ $t$ $|$ $ν$ $)$ , взяв соотношение переменных из нормального распределения и квадратный корень из $распределения$ $χ²$ . Если мы используем вместо нормального распределения, например, распределение Ирвина-Холла , мы получаем в целом симметричное распределение с четырьмя параметрами, которое включает нормальное, равномерное , треугольное , распределение Стьюдента $и$ Коши . Это также более гибко, чем некоторые другие симметричные обобщения нормального распределения.

$Распределение t$ является примером распределения соотношений .

Использование

В частотном статистическом выводе

$Распределение$ Стьюдента возникает в различных задачах статистического оценивания, цель которых состоит в том, чтобы оценить неизвестный параметр, например среднее значение, в условиях, когда данные наблюдаются с аддитивными ошибками . Если (как почти во всех практических статистических работах) стандартное отклонение генеральной совокупности этих ошибок неизвестно и должно быть оценено на основе данных, $t-$ распределение часто используется для учета дополнительной неопределенности, возникающей в результате этой оценки. В большинстве таких задач, если бы было известно стандартное отклонение ошибок, вместо $t-$ распределения использовалось бы нормальное распределение.

Доверительные интервалы и проверка гипотез — это две статистические процедуры, в которых требуются квантили выборочного распределения конкретной статистики (например, стандартного балла ). В любой ситуации, когда эта статистика является линейной функцией данных , разделенной на обычную оценку стандартного отклонения, полученную величину можно масштабировать и центрировать, чтобы она соответствовала $t-$ распределению Стьюдента . Статистический анализ, включающий средние, взвешенные средние и коэффициенты регрессии, приводит к тому, что статистика имеет такую форму.

$Довольно часто в задачах учебников стандартное отклонение генеральной совокупности рассматривается так, как если бы оно было известно, и тем самым устраняется необходимость использования t-$ распределения Стьюдента . Эти проблемы обычно бывают двух видов: (1) те, в которых размер выборки настолько велик, что можно рассматривать основанную на данных оценку дисперсии, как если бы она была достоверной, и (2) те, которые иллюстрируют математические рассуждения, в которых проблема оценки стандартного отклонения временно игнорируется, потому что это не тот момент, который затем объясняет автор или преподаватель.

Проверка гипотезы

Можно показать, что ряд статистических данных имеют $t-$ распределения для выборок среднего размера при нулевых гипотезах , которые представляют интерес, так что $t-$ распределение формирует основу для тестов значимости. Например, распределение коэффициента ранговой корреляции Спирмена $ρ в нулевом случае (нулевая корреляция$ ⁾ хорошо аппроксимируется распределением $t$ для размеров выборки выше примерно ²⁰^.

Доверительные интервалы

Предположим, что число A выбрано так, что

\ \operatorname {\mathbb {P} } \left\{\ -A<T<A\ \right\}=0.9\ ,

когда $T$ имеет распределение $t$ с $n - 1$ степенями свободы. По симметрии это то же самое, что сказать, что $A$ удовлетворяет

\ \operatorname {\mathbb {P} } \left\{\ T<A\ \right\}=0.95\ ,

так что A - это «95-й процентиль» этого распределения вероятностей, или Тогда $\ A=t_{(0.05,n-1)}~.$

\ \operatorname {\mathbb {P} } \left\{\ -A<{\frac {\ {\overline {X}}_{n}-\mu \ }{S_{n}/{\sqrt {n\ }}}}<A\ \right\}=0.9\ ,

и это эквивалентно

\ \operatorname {\mathbb {P} } \left\{\ {\overline {X}}_{n}-A{\frac {S_{n}}{\ {\sqrt {n\ }}\ }}<\mu <{\overline {X}}_{n}+A\ {\frac {S_{n}}{\ {\sqrt {n\ }}\ }}\ \right\}=0.9.

Следовательно, интервал, конечные точки которого

\ {\overline {X}}_{n}\ \pm A\ {\frac {S_{n}}{\ {\sqrt {n\ }}\ }}\

представляет собой 90% доверительный интервал для μ. Следовательно, если мы найдем среднее значение набора наблюдений, от которого мы можем разумно ожидать нормального распределения, мы можем использовать t- $распределение$ , чтобы проверить, включают ли доверительные пределы этого среднего значения какое-либо теоретически предсказанное значение - например, значение, предсказанное на нулевая гипотеза .

Именно этот результат используется в t- критериях Стьюдента : поскольку разница между средними значениями выборок из двух нормальных распределений сама по себе распределяется нормально, $t-$ распределение можно использовать для проверки того, можно ли разумно предположить, что эта разница равна нулю.

Если данные нормально распределены, односторонний $(1 - α)$ верхний доверительный предел (UCL) среднего значения можно рассчитать с помощью следующего уравнения:

{\mathsf {UCL}}_{1-\alpha }={\overline {X}}_{n}+t_{\alpha ,n-1}\ {\frac {S_{n}}{\ {\sqrt {n\ }}\ }}~.

Результирующий UCL будет наибольшим средним значением, которое может возникнуть для данного доверительного интервала и размера популяции. Другими словами, будучи средним значением набора наблюдений, вероятность того, что среднее значение распределения ниже UCL _{$1 -$}_$α$ , равна уровню достоверности $1 -$ $α$ . ${\overline {X}}_{n}$

Интервалы прогнозирования

Распределение $t$ можно использовать для построения интервала прогнозирования для ненаблюдаемой выборки из нормального распределения с неизвестным средним значением и дисперсией.

В байесовской статистике

$Распределение$ Стьюдента , особенно в его трехпараметрической (шкале местоположения) версии, часто возникает в байесовской статистике в результате его связи с нормальным распределением. Всякий раз, когда дисперсия нормально распределенной случайной величины неизвестна и над ней помещается сопряженная априорная величина , следующая обратному гамма-распределению , результирующее предельное распределение переменной будет следовать $t-$ распределению Стьюдента . Эквивалентные конструкции с теми же результатами включают сопряженное масштабированное распределение обратного хи-квадрата по дисперсии или сопряженное гамма-распределение по точности . Если неправильный априор пропорционален1/  $σ²$ _ помещается над дисперсией, также возникает распределение $t$ . Это имеет место независимо от того, известно ли среднее значение нормально распределенной переменной, неизвестно, распределено ли в соответствии с сопряженной, нормально распределенной априорной величиной, или неизвестно, распределенной в соответствии с неправильной априорной константой.

Связанные ситуации, которые также приводят к $t-$ распределению:

Маргинальное апостериорное распределение неизвестного среднего значения нормально распределенной переменной с неизвестным априорным средним значением и дисперсией в соответствии с вышеуказанной моделью.
Априорное прогнозируемое распределение и апостериорное прогнозируемое распределение новой точки данных с нормальным распределением, когда наблюдалась серия независимых одинаково распределенных точек данных с нормальным распределением, с априорным средним значением и дисперсией, как в приведенной выше модели.

Надежное параметрическое моделирование

Распределение $t$ часто используется в качестве альтернативы нормальному распределению в качестве модели данных, которые часто имеют более тяжелые хвосты, чем допускает нормальное распределение; см., например, Lange et al. ^[23] Классический подход заключался в выявлении выбросов (например, с помощью теста Граббса ) и их исключении или уменьшении их веса каким-либо образом. Однако не всегда легко выявить выбросы (особенно в больших размерностях ), а распределение $t$ является естественным выбором модели для таких данных и обеспечивает параметрический подход к надежной статистике .

Байесовский подход можно найти у Gelman et al. ^[24] Параметр степеней свободы контролирует эксцесс распределения и коррелирует с параметром масштаба. Вероятность может иметь несколько локальных максимумов, и поэтому часто необходимо зафиксировать достаточно низкое значение степеней свободы и оценить другие параметры, принимая это как заданное. Некоторые авторы ^{сообщают , что значения от 3 до} 9 часто являются хорошим выбором. Венейблс и Рипли ^{предполагают ,} что значение 5 часто является хорошим выбором ^.

Студенческий процесс _

Для практических нужд регрессии и прогнозирования были введены $t-$ процессы Стьюдента , которые являются обобщением $t-$ распределений Стьюдента для функций. $t$ -процесс Стьюдента строится на основе $t-$ распределений Стьюдента, так же как гауссов процесс строится на основе гауссовских распределений . Для гауссовского процесса все наборы значений имеют многомерное гауссово распределение. Аналогично, является ли процесс Стьюдента $t$ на интервале , если соответствующие значения процесса ( ) имеют совместное многомерное распределение Стьюдента t . ^[25] Эти процессы используются для регрессии, прогнозирования, байесовской оптимизации и связанных с ними задач. Для многомерной регрессии и прогнозирования с несколькими выходами вводятся и используются многомерные $t- процессы Стьюдента.$ ^[26] $X(t)$ $I=[a,b]$ $\ X(t_{1}),\ \ldots \ ,X(t_{n})\$ $t_{i}\in I$

Таблица выбранных значений

В следующей таблице перечислены значения $t-$ распределений со степенями свободы $ν$ для диапазона односторонних или двусторонних критических областей. Первый столбец — это $ν$ , проценты вверху — это доверительные уровни , а числа в основной части таблицы — это факторы, описанные в разделе, посвященном доверительным интервалам. $\ \alpha \ ,$ $t_{\alpha ,n-1}$

Последняя строка с бесконечным $ν$ дает критические точки для нормального распределения, поскольку распределение $t$ с бесконечным числом степеней свободы является нормальным распределением. (См. Связанные дистрибутивы выше).

Расчет доверительного интервала

Допустим, у нас есть выборка размером 11, средним значением выборки 10 и дисперсией выборки 2. Для 90% уверенности с 10 степенями свободы одностороннее значение $t$ из таблицы равно 1,372. Затем с доверительным интервалом, рассчитанным по формуле

\ {\overline {X}}_{n}\pm t_{\alpha ,\nu }\ {\frac {S_{n}}{\ {\sqrt {n\ }}\ }}\ ,

мы определяем, что с 90% уверенностью имеем истинное среднее значение, лежащее ниже

\ 10+1.372\ {\frac {\sqrt {2\ }}{\ {\sqrt {11\ }}\ }}=10.585~.

Другими словами, в 90% случаев, когда верхний порог рассчитывается этим методом на основе конкретных образцов, этот верхний порог превышает истинное среднее значение.

И с уверенностью 90% мы имеем истинное среднее значение, лежащее выше

\ 10-1.372\ {\frac {\sqrt {2\ }}{\ {\sqrt {11\ }}\ }}=9.414~.

Другими словами, в 90% случаев, когда нижний порог рассчитывается этим методом на основе конкретных образцов, этот нижний порог лежит ниже истинного среднего значения.

Таким образом, при доверительной вероятности 80 % (рассчитанной по формуле 100 % — 2 × (1 — 90 %) = 80 %) мы имеем истинное среднее значение, лежащее в пределах интервала

\left(\ 10-1.372\ {\frac {\sqrt {2\ }}{\ {\sqrt {11\ }}\ }},\ 10+1.372\ {\frac {\sqrt {2\ }}{\ {\sqrt {11\ }}\ }}\ \right)=(\ 9.414,\ 10.585\ )~.

Сказать, что в 80% случаев, когда верхний и нижний пороговые значения рассчитываются с помощью этого метода на основе данной выборки, истинное среднее значение находится как ниже верхнего порога, так и выше нижнего порога, это не то же самое, что сказать, что существует 80% вероятность того, что истинное среднее находится между определенной парой верхних и нижних порогов, рассчитанных с помощью этого метода; см. доверительный интервал и ошибку прокурора .

В настоящее время статистическое программное обеспечение, такое как язык программирования R , и функции, доступные во многих программах работы с электронными таблицами, вычисляют значения распределения $t$ и обратного ему значения без таблиц.

Смотрите также

F -распределение
Распределения сложенных $t$ и половинных $t$
Распределение Хотеллинга $T²$
Многомерное распределение студентов
Стандартная нормальная таблица ( таблица Z -распределения)
$статистика$ _
Распределение Тау для внутренне стьюдентизированных остатков
Лямбда-распределение Уилкса
Распределение желаний
Модифицированное полунормальное распределение ^[27] с PDF-файлом задается как где обозначает Пси-функцию Фокса-Райта . $(0,\infty )$ $f(x)={\frac {2\beta ^{\frac {\alpha }{2}}x^{\alpha -1}\exp(-\beta x^{2}+\gamma x)}{\Psi {\left({\frac {\alpha }{2}},{\frac {\gamma }{\sqrt {\beta }}}\right)}}}\ ,$ $\Psi (\alpha ,z)={}_{1}\Psi _{1}\left({\begin{matrix}\left(\alpha ,{\frac {1}{2}}\right)\\(1,0)\end{matrix}};z\right)$

Примечания

^ Херст, Саймон. «Характеристическая функция распределения Стьюдента». Отчет об исследовании финансовой математики. Отчет о статистических исследованиях № SRR044-95. Архивировано из оригинала 18 февраля 2010 года.
^ Нортон, Мэтью; Хохлов, Валентин; Урясев, Стэн (2019). «Расчет CVaR и bPOE для распространенных распределений вероятностей с применением для оптимизации портфеля и оценки плотности» (PDF) . Анналы исследования операций . Спрингер. 299 (1–2): 1281–1315. arXiv : 1811.11301 . дои : 10.1007/s10479-019-03373-1. S2CID 254231768 . Проверено 27 февраля 2023 г.
^ Гельмерт ФР (1875). «Über die Berechnung des wahrscheinlichen Fehlers aus einer endlichen Anzahl wahrer Beobachtungsfehler». Zeitschrift für Angewandte Mathematik und Physik (на немецком языке). 20 : 300–303.
^ Гельмерт ФР (1876). «Über die Wahrscheinlichkeit der Potenzsummen der Beobachtungsfehler und uber einige damit in Zusammenhang stehende Fragen». Zeitschrift für Angewandte Mathematik und Physik (на немецком языке). 21 : 192–218.
^ Гельмерт ФР (1876). «Die Genauigkeit der Formel von Peters zur Berechnung des wahrscheinlichen Beobachtungsfehlers Directer Beobachtungen gleicher Genauigkeit» [Точность формулы Петерса для расчета вероятной ошибки наблюдения прямых наблюдений одинаковой точности]. Astronomische Nachrichten (на немецком языке). 88 (8–9): 113–132. Бибкод : 1876AN.....88..113H. дои : 10.1002/asna.18760880802.
^ Люрот Дж (1876). «Vergleichung von zwei Werten des wahrscheinlichen Fehlers». Astronomische Nachrichten (на немецком языке). 87 (14): 209–220. Бибкод : 1876AN.....87..209L. дои : 10.1002/asna.18760871402.
^ Пфанзагль Дж., Шейнин О. (1996). «Исследования по истории вероятности и статистики. XLIV. Предшественник t- $распределения$ ». Биометрика . 83 (4): 891–898. дои : 10.1093/biomet/83.4.891. МР 1766040.
^ Шейнин О (1995). «Работа Гельмерта по теории ошибок». Архив истории точных наук . 49 (1): 73–104. дои : 10.1007/BF00374700. S2CID 121241599.
^ Пирсон, К. (1895). «Вклад в математическую теорию эволюции. II. Косые изменения в однородном материале» (PDF) . Философские труды Королевского общества A : Математические, физические и технические науки . 186 (374): 343–414. Бибкод : 1895RSPTA.186..343P. дои : 10.1098/rsta.1895.0010 . ISSN 1364-503X.
^ «Студент» [ псев. Уильям Сили Госсет ] (1908). «Вероятная ошибка среднего» (PDF) . Биометрика . 6 (1): 1–25. дои : 10.1093/biomet/6.1.1. hdl :10338.dmlcz/143545. JSTOR 2331554. {{cite journal}}: CS1 maint: numeric names: authors list (link)
^ Вендл MC (2016). «Псевдонимная слава». Наука . 351 (6280): 1406. Бибкод : 2016Sci...351.1406W. дои : 10.1126/science.351.6280.1406. ПМИД 27013722.
^ Мортимер Р.Г. (2005). Математика для физической химии (3-е изд.). Берлингтон, Массачусетс: Elsevier. стр. 326. ISBN 9780080492889. ОСЛК 156200058.
^ Фишер Р.А. (1925). «Приложения «Студенческой» дистрибуции» (PDF) . Метрон . 5 : 90–104. Архивировано из оригинала (PDF) 5 марта 2016 года.
^ Уолпол Р.Э., Майерс Р., Майерс С., Й.К. (2006). Вероятность и статистика для инженеров и ученых (7-е изд.). Нью-Дели, Индиана: Пирсон. п. 237. ИСБН 9788177584042. ОКЛК 818811849.
^ Крушке Дж.К. (2015). Выполнение байесовского анализа данных (2-е изд.). Академическая пресса. ISBN 9780124058880. ОКЛК 959632184.
^ Казелла Г., Бергер Р.Л. (1990). Статистические выводы . Ресурсный центр Даксбери. п. 56. ИСБН 9780534119584.
^ Аб Джекман, С. (2009). Байесовский анализ для социальных наук . Ряд Уайли по вероятности и статистике. Уайли. п. 507. дои : 10.1002/9780470686621. ISBN 9780470011546.
^ Гельман А.Б., Карлин Дж.С., Рубин Д.Б., Стерн Х.С. (1997). Байесовский анализ данных (2-е изд.). Бока-Ратон, Флорида: Chapman & Hal lp 68. ISBN 9780412039911.
^ Парк С.Ю., Бера АК (2009). «Модель условной гетероскедастичности авторегрессии с максимальной энтропией». Дж. Экономик. 150 (2): 219–230. doi :10.1016/j.jeconom.2008.12.014.
^ аб Бэйли RW (1994). «Полярная генерация случайных величин с $t-$ распределением». Математика вычислений . 62 (206): 779–781. Бибкод : 1994MaCom..62..779B. дои : 10.2307/2153537. JSTOR 2153537. S2CID 120459654.
^ Орд Дж.К. (1972). Семейства частотных распределений . Лондон, Великобритания: Гриффин. Таблица 5.1. ISBN 9780852641378.
^ Орд Дж.К. (1972). Семейства частотных распределений . Лондон, Великобритания: Гриффин. Глава 5. ISBN 9780852641378.
^ Ланге К.Л., Литтл Р.Дж., Тейлор Дж.М. (1989). «Надежное статистическое моделирование с использованием t-распределения» (PDF) . Варенье. Стат. доц. 84 (408): 881–896. дои : 10.1080/01621459.1989.10478852. JSTOR 2290063.
^ Гельман А.Б., Карлин Дж.Б., Стерн Х.С. и др. (2014). «Вычислительно эффективное моделирование цепи Маркова». Байесовский анализ данных . Бока-Ратон, Флорида: CRC Press. п. 293. ИСБН 9781439898208.
^ Шах, Амар; Уилсон, Эндрю Гордон; Гахрамани, Зубин (2014). «Процессы Стьюдента как альтернатива гауссовским процессам» (PDF) . JMLR . 33 (Материалы 17-й Международной конференции по искусственному интеллекту и статистике (AISTATS), 2014 г., Рейкьявик, Исландия): 877–885. arXiv : 1402.4306 .
^ Чен, Цзэссун; Ван, Бо; Горбань, Александр Н. (2019). «Многомерная регрессия процессов Гаусса и Стьюдента для прогнозирования с несколькими выходами». Нейронные вычисления и их приложения . 32 (8): 3005–3028. arXiv : 1703.04455 . дои : 10.1007/s00521-019-04687-8 .
^ Сунь, Цзинчао; Конг, Майинг; Пал, Субхадип (22 июня 2021 г.). «Модифицированное полунормальное распределение: свойства и эффективная схема выборки». Коммуникации в статистике - теория и методы . 52 (5): 1591–1613. дои : 10.1080/03610926.2021.1934700. ISSN 0361-0926. S2CID 237919587.

Внешние ссылки

«Распределение студентов», Математическая энциклопедия , EMS Press , 2001 [1994]
Самые ранние известные варианты использования некоторых математических слов (S) (Замечания об истории термина «Распределение Стьюдента»)
Руо, М. (2013), Вероятность, статистика и оценка (PDF) (краткая редакция)Первые ученики на странице 112.
t-распределение студента, архивировано 10 апреля 2021 г. в Wayback Machine.

t-распределение Стьюдента

История и этимология

Определение

Функция плотности вероятности

Кумулятивная функция распределения

Особые случаи

Моменты

Распределение t в масштабе местоположения

Преобразование в масштабе местоположения

Плотность и первые два момента

Особые случаи

Как возникает распределение t (характеристика)

Выборочное распределение t-статистики

Несмещенная оценка дисперсии

Оценка отклонения ML

Сложное распределение нормального с обратным гамма-распределением

Максимальное распределение энтропии

Дополнительные свойства

Выборка Монте-Карло

Интеграл от функции плотности вероятности Стьюдента и значения p

Связанные дистрибутивы

Использование

В частотном статистическом выводе

Проверка гипотезы

Доверительные интервалы

Интервалы прогнозирования

В байесовской статистике

Надежное параметрическое моделирование

Студенческий процесс _

Таблица выбранных значений

Смотрите также

Примечания

Рекомендации

Внешние ссылки