stringtranslate.com

t-распределение Стьюдента

В теории вероятностей и статистике t -  распределение Стьюдента (или просто t -  распределение ) представляет собой непрерывное распределение вероятностей , которое обобщает стандартное нормальное распределение . Как и последний, он симметричен вокруг нуля и имеет колоколообразную форму.

Однако имеет более тяжелые хвосты , а количество вероятностной массы в хвостах контролируется параметром. Для t- распределения Стьюдента становится стандартным распределением Коши , которое имеет очень «толстые» хвосты ; тогда как для него это становится стандартным нормальным распределением , имеющим очень «тонкие» хвосты.

Распределение Стьюдента  играет роль в ряде широко используемых статистических анализов, включая критерий Стьюдента для оценки статистической значимости разницы между двумя выборочными средними, построения доверительных интервалов для разницы между двумя генеральными средними и в линейной регрессии  . анализ .

В форме t -  распределения в масштабе местоположения оно обобщает нормальное распределение , а также возникает при байесовском анализе данных из нормального семейства как составное распределение при маргинализации по параметру дисперсии.

История и этимология

Статистик Уильям Сили Госсет, известный как «Студент»

В статистике t-  распределение было впервые получено как апостериорное распределение в 1876 году Хелмертом [3] [4] [5] и Люротом . [6] [7] [8] Распределение t  также появилось в более общей форме как распределение Пирсона типа IV в статье Карла Пирсона 1895 года. [9]

В англоязычной литературе распространение получило свое название от статьи Уильяма Сили Госсета 1908 года в журнале «Биометрика» под псевдонимом «Студент». [10] Одна из версий происхождения псевдонима заключается в том, что работодатель Госсета предпочитал, чтобы сотрудники использовали псевдонимы при публикации научных статей вместо своего настоящего имени, поэтому он использовал имя «Студент», чтобы скрыть свою личность. Другая версия заключается в том, что компания Guinness не хотела, чтобы конкуренты знали, что они используют t-  тест для определения качества сырья. [11] [12]

Госсет работал на пивоварне Guinness Brewery в Дублине, Ирландия , и интересовался проблемами небольших образцов – например, химическими свойствами ячменя, где размеры выборок могли составлять всего 3. В статье Госсета это распределение называется «частотным распределением». стандартных отклонений выборок, взятых из нормальной популяции». Оно стало широко известно благодаря работе Рональда Фишера , который назвал распределение «распределением Стьюдента» и обозначил проверочное значение буквой t . [13] [14]

Определение

Функция плотности вероятности

Распределение Стьюдента имеет функцию плотности вероятности (PDF)  , определяемую выражением

где – число степеней свободы , – гамма-функция . Это также можно записать как

где бета -функция . В частности, для целочисленных степеней свободы мы имеем:

Ибо и даже,

Для и странного,

Функция плотности вероятности симметрична , и ее общая форма напоминает колоколообразную форму нормально распределенной переменной со средним значением 0 и дисперсией 1, за исключением того, что она немного ниже и шире. По мере роста числа степеней свободы распределение t  приближается к нормальному распределению со средним значением 0 и дисперсией 1. По этой причине его также называют параметром нормальности. [15]

На следующих изображениях показана плотность распределения t  для возрастающих значений. Нормальное распределение показано для сравнения синей линией. Обратите внимание, что распределение t  (красная линия) по мере увеличения становится ближе к нормальному распределению .

Плотность t  -распределения (красный) для 1, 2, 3, 5, 10 и 30 степеней свободы по сравнению со стандартным нормальным распределением (синий).
Предыдущие графики показаны зеленым цветом.

Кумулятивная функция распределения

Кумулятивную функцию распределения (CDF) можно записать через I , регуляризованную неполную бета-функцию . Для t > 0 ,

где

Другие значения будут получены путем симметрии. Альтернативная формула, действительная для

где – частный случай гипергеометрической функции .

Информацию об обратной кумулятивной функции распределения см. в разделе « Функция квантиля § t-распределение Стьюдента ».

Особые случаи

Определенные значения дают простую форму t-распределения Стьюдента.

Моменты

Ибо необработанные моменты распределения t  равны

Моментов порядка и выше не существует. [16]

Термин для четного k можно упростить, используя свойства гамма-функции :

Для распределения t  со степенями свободы ожидаемое значение равно if , а его дисперсия равна if . Асимметрия равна 0 if , а избыточный эксцесс равен if.

 Распределение t в масштабе местоположения

Преобразование в масштабе местоположения

Распределение Стьюдента  обобщает трехпараметрическое  распределение t в масштабе местоположения путем введения параметра местоположения и параметра масштаба With .

и трансформация семьи в масштабе локации

мы получаем

Полученное распределение также называют нестандартизованным t -  распределением Стьюдента .

Плотность и первые два момента

Распределение t в масштабе местоположения имеет плотность, определяемую следующим образом: [17]

Эквивалентно плотность можно записать как :

Другие свойства этой версии дистрибутива: [17]

Особые случаи

Как возникает распределение t  (характеристика)

Выборочное распределение t-статистики

Распределение t  возникает как выборочное распределение t -  статистики. Ниже обсуждается t- статистика для одной выборки  , соответствующую t-  статистику для двух выборок см. в t-критерии Стьюдента .

Несмещенная оценка дисперсии

Пусть это независимые и одинаково распределенные выборки из нормального распределения со средним значением и дисперсией. Выборочное среднее и несмещенная выборочная дисперсия определяются выражением:

Результирующая (одна выборка) t-  статистика определяется выражением

и распределяется согласно t -распределению Стьюдента  со степенями свободы.

Таким образом, для целей вывода t-  статистика является полезной « основной величиной » в случае, когда среднее значение и дисперсия являются неизвестными параметрами совокупности, в том смысле, что t-  статистика имеет распределение вероятностей, которое не зависит ни от того, ни от других факторов .

Оценка отклонения ML

Вместо несмещенной оценки мы можем также использовать оценку максимального правдоподобия.

получение статистики

Оно распределяется в соответствии с распределением t в масштабе местоположения  :

Сложное распределение нормального с обратным гамма-распределением

Распределение t в масштабе местоположения  получается в результате объединения гауссовского распределения (нормального распределения) со средним и неизвестным отклонением с обратным гамма-распределением, помещенным над отклонением с параметрами и . Другими словами, предполагается, что случайная величина X имеет гауссово распределение с неизвестная дисперсия распределяется как обратная гамма, а затем дисперсия исключается ( интегрируется).

Эквивалентно, это распределение является результатом объединения гауссовского распределения с масштабированным распределением обратного хи-квадрата с параметрами и Масштабированное распределение обратного хи-квадрата представляет собой точно такое же распределение, как обратное гамма-распределение, но с другой параметризацией, т.е.

Причина полезности этой характеристики заключается в том, что в байесовской статистике обратное гамма-распределение представляет собой сопряженное априорное распределение дисперсии гауссовского распределения. В результате распределение t в масштабе местоположения  естественным образом возникает во многих задачах байесовского вывода. [18]

Максимальное распределение энтропии

Распределение Стьюдента  — это распределение вероятностей максимальной энтропии для случайной величины X , для которой фиксировано. [19] [ необходимы разъяснения ] [ нужен лучший источник ]

Дополнительные свойства

Выборка Монте-Карло

Существуют различные подходы к построению случайных выборок на основе t -распределения Стьюдента  . Вопрос зависит от того, требуются ли выборки на отдельной основе или они должны быть построены путем применения функции квантиля к однородным выборкам; например, в многомерных приложениях, основанных на зависимости от копулы . [ нужна ссылка ] В случае автономной выборки легко применить расширение метода Бокса-Мюллера и его полярную форму . [20] Его достоинство заключается в том, что он одинаково хорошо применим ко всем реальным положительным степеням свободы ν , в то время как многие другие методы-кандидаты терпят неудачу, если ν близко к нулю. [20]

Интеграл от функции плотности вероятности Стьюдента и значения p

Функция A ( t | ν ) является интегралом функции плотности вероятности Стьюдента f ( t ) между   -t и t , для t ≥ 0 . Таким образом, это дает вероятность того, что значение t меньше, чем рассчитанное на основе наблюдаемых данных, возникнет случайно. Следовательно, функцию A ( t | ν ) можно использовать при проверке того, является ли разница между средними значениями двух наборов данных статистически значимой, путем расчета соответствующего значения t и вероятности его появления, если два набора данных были взятые из того же населения. Это используется в различных ситуациях, особенно в t-  тестах . Для статистики t с ν степенями свободы A ( t | ν ) — это вероятность того, что t будет меньше наблюдаемого значения, если бы два средних были одинаковыми (при условии, что меньшее среднее вычитается из большего, так что т ≥ 0 ). Его можно легко вычислить из кумулятивной функции распределения F ν ( t ) t -  распределения:

где Ix ( a , b ) — регуляризованная неполная бета-функция .

Для проверки статистических гипотез эта функция используется для построения значения p .

Связанные дистрибутивы

Использование

В частотном статистическом выводе

Распределение Стьюдента  возникает в различных задачах статистического оценивания, цель которых состоит в том, чтобы оценить неизвестный параметр, например среднее значение, в условиях, когда данные наблюдаются с аддитивными ошибками . Если (как почти во всех практических статистических работах) стандартное отклонение генеральной совокупности этих ошибок неизвестно и должно быть оценено на основе данных, t-  распределение часто используется для учета дополнительной неопределенности, возникающей в результате этой оценки. В большинстве таких задач, если бы было известно стандартное отклонение ошибок, вместо t-  распределения использовалось бы нормальное распределение.

Доверительные интервалы и проверка гипотез — это две статистические процедуры, в которых требуются квантили выборочного распределения конкретной статистики (например, стандартного балла ). В любой ситуации, когда эта статистика является линейной функцией данных , разделенной на обычную оценку стандартного отклонения, полученную величину можно масштабировать и центрировать, чтобы она соответствовала t- распределению Стьюдента  . Статистический анализ, включающий средние, взвешенные средние и коэффициенты регрессии, приводит к тому, что статистика имеет такую ​​форму.

Довольно часто в задачах учебников стандартное отклонение генеральной совокупности рассматривается так, как если бы оно было известно, и тем самым устраняется необходимость использования t- распределения Стьюдента  . Эти проблемы обычно бывают двух видов: (1) те, в которых размер выборки настолько велик, что можно рассматривать основанную на данных оценку дисперсии, как если бы она была достоверной, и (2) те, которые иллюстрируют математические рассуждения, в которых проблема оценки стандартного отклонения временно игнорируется, потому что это не тот момент, который затем объясняет автор или преподаватель.

Проверка гипотезы

Можно показать, что ряд статистических данных имеют t-  распределения для выборок среднего размера при нулевых гипотезах , которые представляют интерес, так что t-  распределение формирует основу для тестов значимости. Например, распределение коэффициента ранговой корреляции Спирмена ρ в нулевом случае (нулевая корреляция ) хорошо аппроксимируется распределением t для размеров выборки выше примерно 20 .

Доверительные интервалы

Предположим, что число A выбрано так, что

когда T имеет распределение t  с n - 1 степенями свободы. По симметрии это то же самое, что сказать, что A удовлетворяет

так что A - это «95-й процентиль» этого распределения вероятностей, или Тогда

и это эквивалентно

Следовательно, интервал, конечные точки которого

представляет собой 90% доверительный интервал для μ. Следовательно, если мы найдем среднее значение набора наблюдений, от которого мы можем разумно ожидать нормального распределения, мы можем использовать t- распределение  , чтобы проверить, включают ли доверительные пределы этого среднего значения какое-либо теоретически предсказанное значение - например, значение, предсказанное на нулевая гипотеза .

Именно этот результат используется в t-  критериях Стьюдента : поскольку разница между средними значениями выборок из двух нормальных распределений сама по себе распределяется нормально, t-  распределение можно использовать для проверки того, можно ли разумно предположить, что эта разница равна нулю.

Если данные нормально распределены, односторонний (1 − α ) верхний доверительный предел (UCL) среднего значения можно рассчитать с помощью следующего уравнения:

Результирующий UCL будет наибольшим средним значением, которое может возникнуть для данного доверительного интервала и размера популяции. Другими словами, будучи средним значением набора наблюдений, вероятность того, что среднее значение распределения ниже UCL 1 − α , равна уровню достоверности 1 − α .

Интервалы прогнозирования

Распределение t  можно использовать для построения интервала прогнозирования для ненаблюдаемой выборки из нормального распределения с неизвестным средним значением и дисперсией.

В байесовской статистике

Распределение Стьюдента  , особенно в его трехпараметрической (шкале местоположения) версии, часто возникает в байесовской статистике в результате его связи с нормальным распределением. Всякий раз, когда дисперсия нормально распределенной случайной величины неизвестна и над ней помещается сопряженная априорная величина , следующая обратному гамма-распределению , результирующее предельное распределение переменной будет следовать t- распределению Стьюдента  . Эквивалентные конструкции с теми же результатами включают сопряженное масштабированное распределение обратного хи-квадрата по дисперсии или сопряженное гамма-распределение по точности . Если неправильный априор пропорционален1/σ² _ помещается над дисперсией, также возникает распределение t  . Это имеет место независимо от того, известно ли среднее значение нормально распределенной переменной, неизвестно, распределено ли в соответствии с сопряженной, нормально распределенной априорной величиной, или неизвестно, распределенной в соответствии с неправильной априорной константой.

Связанные ситуации, которые также приводят к t-  распределению:

Надежное параметрическое моделирование

Распределение t  часто используется в качестве альтернативы нормальному распределению в качестве модели данных, которые часто имеют более тяжелые хвосты, чем допускает нормальное распределение; см., например, Lange et al. [23] Классический подход заключался в выявлении выбросов (например, с помощью теста Граббса ) и их исключении или уменьшении их веса каким-либо образом. Однако не всегда легко выявить выбросы (особенно в больших размерностях ), а распределение t  является естественным выбором модели для таких данных и обеспечивает параметрический подход к надежной статистике .

Байесовский подход можно найти у Gelman et al. [24] Параметр степеней свободы контролирует эксцесс распределения и коррелирует с параметром масштаба. Вероятность может иметь несколько локальных максимумов, и поэтому часто необходимо зафиксировать достаточно низкое значение степеней свободы и оценить другие параметры, принимая это как заданное. Некоторые авторы сообщают , что значения от 3 до 9 часто являются хорошим выбором. Венейблс и Рипли предполагают , что значение 5 часто является хорошим выбором .

Студенческий процесс  _

Для практических нужд регрессии и прогнозирования были введены t- процессы Стьюдента , которые являются обобщением t- распределений  Стьюдента  для функций. t -процесс Стьюдента  строится на основе t-  распределений Стьюдента, так же как гауссов процесс строится на основе гауссовских распределений . Для гауссовского процесса все наборы значений имеют многомерное гауссово распределение. Аналогично, является ли процесс Стьюдента t  на интервале , если соответствующие значения процесса ( ) имеют совместное многомерное  распределение Стьюдента t . [25] Эти процессы используются для регрессии, прогнозирования, байесовской оптимизации и связанных с ними задач. Для многомерной регрессии и прогнозирования с несколькими выходами  вводятся и используются многомерные t- процессы Стьюдента. [26]

Таблица выбранных значений

В следующей таблице перечислены значения t-  распределений со степенями свободы ν для диапазона односторонних или двусторонних критических областей. Первый столбец — это ν , проценты вверху — это доверительные уровни , а числа в основной части таблицы — это факторы, описанные в разделе, посвященном доверительным интервалам.

Последняя строка с бесконечным ν дает критические точки для нормального распределения, поскольку распределение t  с бесконечным числом степеней свободы является нормальным распределением. (См. Связанные дистрибутивы выше).


Расчет доверительного интервала

Допустим, у нас есть выборка размером 11, средним значением выборки 10 и дисперсией выборки 2. Для 90% уверенности с 10 степенями свободы одностороннее значение t  из таблицы равно 1,372. Затем с доверительным интервалом, рассчитанным по формуле

мы определяем, что с 90% уверенностью имеем истинное среднее значение, лежащее ниже

Другими словами, в 90% случаев, когда верхний порог рассчитывается этим методом на основе конкретных образцов, этот верхний порог превышает истинное среднее значение.

И с уверенностью 90% мы имеем истинное среднее значение, лежащее выше

Другими словами, в 90% случаев, когда нижний порог рассчитывается этим методом на основе конкретных образцов, этот нижний порог лежит ниже истинного среднего значения.

Таким образом, при доверительной вероятности 80 % (рассчитанной по формуле 100 % — 2 × (1 — 90 %) = 80 %) мы имеем истинное среднее значение, лежащее в пределах интервала

Сказать, что в 80% случаев, когда верхний и нижний пороговые значения рассчитываются с помощью этого метода на основе данной выборки, истинное среднее значение находится как ниже верхнего порога, так и выше нижнего порога, это не то же самое, что сказать, что существует 80% вероятность того, что истинное среднее находится между определенной парой верхних и нижних порогов, рассчитанных с помощью этого метода; см. доверительный интервал и ошибку прокурора .

В настоящее время статистическое программное обеспечение, такое как язык программирования R , и функции, доступные во многих программах работы с электронными таблицами, вычисляют значения распределения t  и обратного ему значения без таблиц.

Смотрите также

Примечания

  1. ^ Херст, Саймон. «Характеристическая функция распределения Стьюдента». Отчет об исследовании финансовой математики. Отчет о статистических исследованиях № SRR044-95. Архивировано из оригинала 18 февраля 2010 года.
  2. ^ Нортон, Мэтью; Хохлов, Валентин; Урясев, Стэн (2019). «Расчет CVaR и bPOE для распространенных распределений вероятностей с применением для оптимизации портфеля и оценки плотности» (PDF) . Анналы исследования операций . Спрингер. 299 (1–2): 1281–1315. arXiv : 1811.11301 . дои : 10.1007/s10479-019-03373-1. S2CID  254231768 . Проверено 27 февраля 2023 г.
  3. ^ Гельмерт ФР (1875). «Über die Berechnung des wahrscheinlichen Fehlers aus einer endlichen Anzahl wahrer Beobachtungsfehler». Zeitschrift für Angewandte Mathematik und Physik (на немецком языке). 20 : 300–303.
  4. ^ Гельмерт ФР (1876). «Über die Wahrscheinlichkeit der Potenzsummen der Beobachtungsfehler und uber einige damit in Zusammenhang stehende Fragen». Zeitschrift für Angewandte Mathematik und Physik (на немецком языке). 21 : 192–218.
  5. ^ Гельмерт ФР (1876). «Die Genauigkeit der Formel von Peters zur Berechnung des wahrscheinlichen Beobachtungsfehlers Directer Beobachtungen gleicher Genauigkeit» [Точность формулы Петерса для расчета вероятной ошибки наблюдения прямых наблюдений одинаковой точности]. Astronomische Nachrichten (на немецком языке). 88 (8–9): 113–132. Бибкод : 1876AN.....88..113H. дои : 10.1002/asna.18760880802.
  6. ^ Люрот Дж (1876). «Vergleichung von zwei Werten des wahrscheinlichen Fehlers». Astronomische Nachrichten (на немецком языке). 87 (14): 209–220. Бибкод : 1876AN.....87..209L. дои : 10.1002/asna.18760871402.
  7. ^ Пфанзагль Дж., Шейнин О. (1996). «Исследования по истории вероятности и статистики. XLIV. Предшественник t- распределения  ». Биометрика . 83 (4): 891–898. дои : 10.1093/biomet/83.4.891. МР  1766040.
  8. ^ Шейнин О (1995). «Работа Гельмерта по теории ошибок». Архив истории точных наук . 49 (1): 73–104. дои : 10.1007/BF00374700. S2CID  121241599.
  9. ^ Пирсон, К. (1895). «Вклад в математическую теорию эволюции. II. Косые изменения в однородном материале» (PDF) . Философские труды Королевского общества A : Математические, физические и технические науки . 186 (374): 343–414. Бибкод : 1895RSPTA.186..343P. дои : 10.1098/rsta.1895.0010 . ISSN  1364-503X.
  10. ^ «Студент» [ псев. Уильям Сили Госсет ] (1908). «Вероятная ошибка среднего» (PDF) . Биометрика . 6 (1): 1–25. дои : 10.1093/biomet/6.1.1. hdl :10338.dmlcz/143545. JSTOR  2331554. {{cite journal}}: CS1 maint: numeric names: authors list (link)
  11. ^ Вендл MC (2016). «Псевдонимная слава». Наука . 351 (6280): 1406. Бибкод : 2016Sci...351.1406W. дои : 10.1126/science.351.6280.1406. ПМИД  27013722.
  12. ^ Мортимер Р.Г. (2005). Математика для физической химии (3-е изд.). Берлингтон, Массачусетс: Elsevier. стр. 326. ISBN 9780080492889. ОСЛК  156200058.
  13. ^ Фишер Р.А. (1925). «Приложения «Студенческой» дистрибуции» (PDF) . Метрон . 5 : 90–104. Архивировано из оригинала (PDF) 5 марта 2016 года.
  14. ^ Уолпол Р.Э., Майерс Р., Майерс С., Й.К. (2006). Вероятность и статистика для инженеров и ученых (7-е изд.). Нью-Дели, Индиана: Пирсон. п. 237. ИСБН 9788177584042. ОКЛК  818811849.
  15. ^ Крушке Дж.К. (2015). Выполнение байесовского анализа данных (2-е изд.). Академическая пресса. ISBN 9780124058880. ОКЛК  959632184.
  16. ^ Казелла Г., Бергер Р.Л. (1990). Статистические выводы . Ресурсный центр Даксбери. п. 56. ИСБН 9780534119584.
  17. ^ Аб Джекман, С. (2009). Байесовский анализ для социальных наук . Ряд Уайли по вероятности и статистике. Уайли. п. 507. дои : 10.1002/9780470686621. ISBN 9780470011546.
  18. ^ Гельман А.Б., Карлин Дж.С., Рубин Д.Б., Стерн Х.С. (1997). Байесовский анализ данных (2-е изд.). Бока-Ратон, Флорида: Chapman & Hal lp 68. ISBN 9780412039911.
  19. ^ Парк С.Ю., Бера АК (2009). «Модель условной гетероскедастичности авторегрессии с максимальной энтропией». Дж. Экономик. 150 (2): 219–230. doi :10.1016/j.jeconom.2008.12.014.
  20. ^ аб Бэйли RW (1994). «Полярная генерация случайных величин с t-  распределением». Математика вычислений . 62 (206): 779–781. Бибкод : 1994MaCom..62..779B. дои : 10.2307/2153537. JSTOR  2153537. S2CID  120459654.
  21. ^ Орд Дж.К. (1972). Семейства частотных распределений . Лондон, Великобритания: Гриффин. Таблица 5.1. ISBN 9780852641378.
  22. ^ Орд Дж.К. (1972). Семейства частотных распределений . Лондон, Великобритания: Гриффин. Глава 5. ISBN 9780852641378.
  23. ^ Ланге К.Л., Литтл Р.Дж., Тейлор Дж.М. (1989). «Надежное статистическое моделирование с использованием t-распределения» (PDF) . Варенье. Стат. доц. 84 (408): 881–896. дои : 10.1080/01621459.1989.10478852. JSTOR  2290063.
  24. ^ Гельман А.Б., Карлин Дж.Б., Стерн Х.С. и др. (2014). «Вычислительно эффективное моделирование цепи Маркова». Байесовский анализ данных . Бока-Ратон, Флорида: CRC Press. п. 293. ИСБН 9781439898208.
  25. ^ Шах, Амар; Уилсон, Эндрю Гордон; Гахрамани, Зубин (2014). «Процессы Стьюдента как альтернатива гауссовским процессам» (PDF) . JMLR . 33 (Материалы 17-й Международной конференции по искусственному интеллекту и статистике (AISTATS), 2014 г., Рейкьявик, Исландия): 877–885. arXiv : 1402.4306 .
  26. ^ Чен, Цзэссун; Ван, Бо; Горбань, Александр Н. (2019). «Многомерная регрессия процессов Гаусса и Стьюдента для прогнозирования с несколькими выходами». Нейронные вычисления и их приложения . 32 (8): 3005–3028. arXiv : 1703.04455 . дои : 10.1007/s00521-019-04687-8 .
  27. ^ Сунь, Цзинчао; Конг, Майинг; Пал, Субхадип (22 июня 2021 г.). «Модифицированное полунормальное распределение: свойства и эффективная схема выборки». Коммуникации в статистике - теория и методы . 52 (5): 1591–1613. дои : 10.1080/03610926.2021.1934700. ISSN  0361-0926. S2CID  237919587.

Рекомендации

Внешние ссылки