Однако имеет более тяжелые хвосты , а количество вероятностной массы в хвостах контролируется параметром. Для t- распределения Стьюдента становится стандартным распределением Коши , которое имеет очень «толстые» хвосты ; тогда как для него это становится стандартным нормальным распределением , имеющим очень «тонкие» хвосты.
В англоязычной литературе распространение получило свое название от статьи Уильяма Сили Госсета 1908 года в журнале «Биометрика» под псевдонимом «Студент». [10] Одна из версий происхождения псевдонима заключается в том, что работодатель Госсета предпочитал, чтобы сотрудники использовали псевдонимы при публикации научных статей вместо своего настоящего имени, поэтому он использовал имя «Студент», чтобы скрыть свою личность. Другая версия заключается в том, что компания Guinness не хотела, чтобы конкуренты знали, что они используют t- тест для определения качества сырья. [11] [12]
Госсет работал на пивоварне Guinness Brewery в Дублине, Ирландия , и интересовался проблемами небольших образцов – например, химическими свойствами ячменя, где размеры выборок могли составлять всего 3. В статье Госсета это распределение называется «частотным распределением». стандартных отклонений выборок, взятых из нормальной популяции». Оно стало широко известно благодаря работе Рональда Фишера , который назвал распределение «распределением Стьюдента» и обозначил проверочное значение буквой t . [13] [14]
где бета -функция . В частности, для целочисленных степеней свободы мы имеем:
Ибо и даже,
Для и странного,
Функция плотности вероятности симметрична , и ее общая форма напоминает колоколообразную форму нормально распределенной переменной со средним значением 0 и дисперсией 1, за исключением того, что она немного ниже и шире. По мере роста числа степеней свободы распределение t приближается к нормальному распределению со средним значением 0 и дисперсией 1. По этой причине его также называют параметром нормальности. [15]
На следующих изображениях показана плотность распределения t для возрастающих значений. Нормальное распределение показано для сравнения синей линией. Обратите внимание, что распределение t (красная линия) по мере увеличения становится ближе к нормальному распределению .
Плотность t -распределения (красный) для 1, 2, 3, 5, 10 и 30 степеней свободы по сравнению со стандартным нормальным распределением (синий). Предыдущие графики показаны зеленым цветом.
Полученное распределение также называют нестандартизованным t - распределением Стьюдента .
Плотность и первые два момента
Распределение t в масштабе местоположения имеет плотность, определяемую следующим образом: [17]
Эквивалентно плотность можно записать как :
Другие свойства этой версии дистрибутива: [17]
Особые случаи
Если следует распределению t в масштабе местоположения, то для обычно распределяется со средним значением и дисперсией.
Распределение t в масштабе местоположения со степенью свободы эквивалентно распределению Коши
Распределение t в масштабе местоположения с помощью и сводится к t- распределению Стьюдента.
Как возникает распределение t (характеристика)
Выборочное распределение t-статистики
Распределение t возникает как выборочное распределение t - статистики. Ниже обсуждается t- статистика для одной выборки , соответствующую t- статистику для двух выборок см. в t-критерии Стьюдента .
Несмещенная оценка дисперсии
Пусть это независимые и одинаково распределенные выборки из нормального распределения со средним значением и дисперсией. Выборочное среднее и несмещенная выборочная дисперсия определяются выражением:
Результирующая (одна выборка) t- статистика определяется выражением
и распределяется согласно t -распределению Стьюдента со степенями свободы.
Таким образом, для целей вывода t- статистика является полезной « основной величиной » в случае, когда среднее значение и дисперсия являются неизвестными параметрами совокупности, в том смысле, что t- статистика имеет распределение вероятностей, которое не зависит ни от того, ни от других факторов .
Оценка отклонения ML
Вместо несмещенной оценки мы можем также использовать оценку максимального правдоподобия.
получение статистики
Оно распределяется в соответствии с распределением t в масштабе местоположения :
Сложное распределение нормального с обратным гамма-распределением
Распределение t в масштабе местоположения получается в результате объединения гауссовского распределения (нормального распределения) со средним и неизвестным отклонением с обратным гамма-распределением, помещенным над отклонением с параметрами и . Другими словами, предполагается, что случайная величина X имеет гауссово распределение с неизвестная дисперсия распределяется как обратная гамма, а затем дисперсия исключается ( интегрируется).
Эквивалентно, это распределение является результатом объединения гауссовского распределения с масштабированным распределением обратного хи-квадрата с параметрами и Масштабированное распределение обратного хи-квадрата представляет собой точно такое же распределение, как обратное гамма-распределение, но с другой параметризацией, т.е.
Причина полезности этой характеристики заключается в том, что в байесовской статистике обратное гамма-распределение представляет собой сопряженное априорное распределение дисперсии гауссовского распределения. В результате распределение t в масштабе местоположения естественным образом возникает во многих задачах байесовского вывода. [18]
Существуют различные подходы к построению случайных выборок на основе t -распределения Стьюдента . Вопрос зависит от того, требуются ли выборки на отдельной основе или они должны быть построены путем применения функции квантиля к однородным выборкам; например, в многомерных приложениях, основанных на зависимости от копулы . [ нужна ссылка ] В случае автономной выборки легко применить расширение метода Бокса-Мюллера и его полярную форму . [20] Его достоинство заключается в том, что он одинаково хорошо применим ко всем реальным положительным степеням свободы ν , в то время как многие другие методы-кандидаты терпят неудачу, если ν близко к нулю. [20]
Интеграл от функции плотности вероятности Стьюдента и значения p
Функция A ( t | ν ) является интегралом функции плотности вероятности Стьюдента f ( t ) между -t и t , для t ≥ 0 . Таким образом, это дает вероятность того, что значение t меньше, чем рассчитанное на основе наблюдаемых данных, возникнет случайно. Следовательно, функцию A ( t | ν ) можно использовать при проверке того, является ли разница между средними значениями двух наборов данных статистически значимой, путем расчета соответствующего значения t и вероятности его появления, если два набора данных были взятые из того же населения. Это используется в различных ситуациях, особенно в t- тестах . Для статистики t с ν степенями свободы A ( t | ν ) — это вероятность того, что t будет меньше наблюдаемого значения, если бы два средних были одинаковыми (при условии, что меньшее среднее вычитается из большего, так что т ≥ 0 ). Его можно легко вычислить из кумулятивной функции распределения F ν ( t ) t - распределения:
где Ix ( a , b ) — регуляризованная неполная бета-функция .
Для проверки статистических гипотез эта функция используется для построения значения p .
Связанные дистрибутивы
Нецентральное распределение t обобщает распределение t , включив в него параметр нецентральности. В отличие от нестандартизованных t- распределений, нецентральные распределения не симметричны (медиана не совпадает с модой).
Дискретное t- распределение Стьюдента определяется его функцией массы вероятности при r , пропорциональной: [21]
Здесь a , b и k — параметры. Это распределение возникает в результате построения системы дискретных распределений, аналогичной системе распределений Пирсона для непрерывных распределений. [22]
Можно сгенерировать выборки Стьюдента A ( t | ν ) , взяв соотношение переменных из нормального распределения и квадратный корень из распределения χ² . Если мы используем вместо нормального распределения, например, распределение Ирвина-Холла , мы получаем в целом симметричное распределение с четырьмя параметрами, которое включает нормальное, равномерное , треугольное , распределение Стьюдента и Коши . Это также более гибко, чем некоторые другие симметричные обобщения нормального распределения.
Распределение Стьюдента возникает в различных задачах статистического оценивания, цель которых состоит в том, чтобы оценить неизвестный параметр, например среднее значение, в условиях, когда данные наблюдаются с аддитивными ошибками . Если (как почти во всех практических статистических работах) стандартное отклонение генеральной совокупности этих ошибок неизвестно и должно быть оценено на основе данных, t- распределение часто используется для учета дополнительной неопределенности, возникающей в результате этой оценки. В большинстве таких задач, если бы было известно стандартное отклонение ошибок, вместо t- распределения использовалось бы нормальное распределение.
Доверительные интервалы и проверка гипотез — это две статистические процедуры, в которых требуются квантили выборочного распределения конкретной статистики (например, стандартного балла ). В любой ситуации, когда эта статистика является линейной функцией данных , разделенной на обычную оценку стандартного отклонения, полученную величину можно масштабировать и центрировать, чтобы она соответствовала t- распределению Стьюдента . Статистический анализ, включающий средние, взвешенные средние и коэффициенты регрессии, приводит к тому, что статистика имеет такую форму.
Довольно часто в задачах учебников стандартное отклонение генеральной совокупности рассматривается так, как если бы оно было известно, и тем самым устраняется необходимость использования t- распределения Стьюдента . Эти проблемы обычно бывают двух видов: (1) те, в которых размер выборки настолько велик, что можно рассматривать основанную на данных оценку дисперсии, как если бы она была достоверной, и (2) те, которые иллюстрируют математические рассуждения, в которых проблема оценки стандартного отклонения временно игнорируется, потому что это не тот момент, который затем объясняет автор или преподаватель.
Проверка гипотезы
Можно показать, что ряд статистических данных имеют t- распределения для выборок среднего размера при нулевых гипотезах , которые представляют интерес, так что t- распределение формирует основу для тестов значимости. Например, распределение коэффициента ранговой корреляции Спирмена ρ в нулевом случае (нулевая корреляция ) хорошо аппроксимируется распределением t для размеров выборки выше примерно 20 .
Доверительные интервалы
Предположим, что число A выбрано так, что
когда T имеет распределение t с n - 1 степенями свободы. По симметрии это то же самое, что сказать, что A удовлетворяет
так что A - это «95-й процентиль» этого распределения вероятностей, или Тогда
и это эквивалентно
Следовательно, интервал, конечные точки которого
представляет собой 90% доверительный интервал для μ. Следовательно, если мы найдем среднее значение набора наблюдений, от которого мы можем разумно ожидать нормального распределения, мы можем использовать t- распределение , чтобы проверить, включают ли доверительные пределы этого среднего значения какое-либо теоретически предсказанное значение - например, значение, предсказанное на нулевая гипотеза .
Именно этот результат используется в t- критериях Стьюдента : поскольку разница между средними значениями выборок из двух нормальных распределений сама по себе распределяется нормально, t- распределение можно использовать для проверки того, можно ли разумно предположить, что эта разница равна нулю.
Если данные нормально распределены, односторонний (1 − α ) верхний доверительный предел (UCL) среднего значения можно рассчитать с помощью следующего уравнения:
Результирующий UCL будет наибольшим средним значением, которое может возникнуть для данного доверительного интервала и размера популяции. Другими словами, будучи средним значением набора наблюдений, вероятность того, что среднее значение распределения ниже UCL 1 − α , равна уровню достоверности 1 − α .
Интервалы прогнозирования
Распределение t можно использовать для построения интервала прогнозирования для ненаблюдаемой выборки из нормального распределения с неизвестным средним значением и дисперсией.
В байесовской статистике
Распределение Стьюдента , особенно в его трехпараметрической (шкале местоположения) версии, часто возникает в байесовской статистике в результате его связи с нормальным распределением. Всякий раз, когда дисперсия нормально распределенной случайной величины неизвестна и над ней помещается сопряженная априорная величина , следующая обратному гамма-распределению , результирующее предельное распределение переменной будет следовать t- распределению Стьюдента . Эквивалентные конструкции с теми же результатами включают сопряженное масштабированное распределение обратного хи-квадрата по дисперсии или сопряженное гамма-распределение по точности . Если неправильный априор пропорционален1/σ² _ помещается над дисперсией, также возникает распределение t . Это имеет место независимо от того, известно ли среднее значение нормально распределенной переменной, неизвестно, распределено ли в соответствии с сопряженной, нормально распределенной априорной величиной, или неизвестно, распределенной в соответствии с неправильной априорной константой.
Связанные ситуации, которые также приводят к t- распределению:
Маргинальное апостериорное распределение неизвестного среднего значения нормально распределенной переменной с неизвестным априорным средним значением и дисперсией в соответствии с вышеуказанной моделью.
Распределение t часто используется в качестве альтернативы нормальному распределению в качестве модели данных, которые часто имеют более тяжелые хвосты, чем допускает нормальное распределение; см., например, Lange et al. [23] Классический подход заключался в выявлении выбросов (например, с помощью теста Граббса ) и их исключении или уменьшении их веса каким-либо образом. Однако не всегда легко выявить выбросы (особенно в больших размерностях ), а распределение t является естественным выбором модели для таких данных и обеспечивает параметрический подход к надежной статистике .
Байесовский подход можно найти у Gelman et al. [24] Параметр степеней свободы контролирует эксцесс распределения и коррелирует с параметром масштаба. Вероятность может иметь несколько локальных максимумов, и поэтому часто необходимо зафиксировать достаточно низкое значение степеней свободы и оценить другие параметры, принимая это как заданное. Некоторые авторы сообщают , что значения от 3 до 9 часто являются хорошим выбором. Венейблс и Рипли предполагают , что значение 5 часто является хорошим выбором .
Студенческий процесс _
Для практических нужд регрессии и прогнозирования были введены t- процессы Стьюдента , которые являются обобщением t- распределений Стьюдента для функций. t -процесс Стьюдента строится на основе t- распределений Стьюдента, так же как гауссов процесс строится на основе гауссовских распределений . Для гауссовского процесса все наборы значений имеют многомерное гауссово распределение. Аналогично, является ли процесс Стьюдента t на интервале , если соответствующие значения процесса ( ) имеют совместное многомерное распределение Стьюдента t . [25] Эти процессы используются для регрессии, прогнозирования, байесовской оптимизации и связанных с ними задач. Для многомерной регрессии и прогнозирования с несколькими выходами вводятся и используются многомерные t- процессы Стьюдента. [26]
Таблица выбранных значений
В следующей таблице перечислены значения t- распределений со степенями свободы ν для диапазона односторонних или двусторонних критических областей. Первый столбец — это ν , проценты вверху — это доверительные уровни , а числа в основной части таблицы — это факторы, описанные в разделе, посвященном доверительным интервалам.
Последняя строка с бесконечным ν дает критические точки для нормального распределения, поскольку распределение t с бесконечным числом степеней свободы является нормальным распределением. (См. Связанные дистрибутивы выше).
Расчет доверительного интервала
Допустим, у нас есть выборка размером 11, средним значением выборки 10 и дисперсией выборки 2. Для 90% уверенности с 10 степенями свободы одностороннее значение t из таблицы равно 1,372. Затем с доверительным интервалом, рассчитанным по формуле
мы определяем, что с 90% уверенностью имеем истинное среднее значение, лежащее ниже
Другими словами, в 90% случаев, когда верхний порог рассчитывается этим методом на основе конкретных образцов, этот верхний порог превышает истинное среднее значение.
И с уверенностью 90% мы имеем истинное среднее значение, лежащее выше
Другими словами, в 90% случаев, когда нижний порог рассчитывается этим методом на основе конкретных образцов, этот нижний порог лежит ниже истинного среднего значения.
Таким образом, при доверительной вероятности 80 % (рассчитанной по формуле 100 % — 2 × (1 — 90 %) = 80 %) мы имеем истинное среднее значение, лежащее в пределах интервала
Сказать, что в 80% случаев, когда верхний и нижний пороговые значения рассчитываются с помощью этого метода на основе данной выборки, истинное среднее значение находится как ниже верхнего порога, так и выше нижнего порога, это не то же самое, что сказать, что существует 80% вероятность того, что истинное среднее находится между определенной парой верхних и нижних порогов, рассчитанных с помощью этого метода; см. доверительный интервал и ошибку прокурора .
^ Херст, Саймон. «Характеристическая функция распределения Стьюдента». Отчет об исследовании финансовой математики. Отчет о статистических исследованиях № SRR044-95. Архивировано из оригинала 18 февраля 2010 года.
^ Нортон, Мэтью; Хохлов, Валентин; Урясев, Стэн (2019). «Расчет CVaR и bPOE для распространенных распределений вероятностей с применением для оптимизации портфеля и оценки плотности» (PDF) . Анналы исследования операций . Спрингер. 299 (1–2): 1281–1315. arXiv : 1811.11301 . дои : 10.1007/s10479-019-03373-1. S2CID 254231768 . Проверено 27 февраля 2023 г.
^ Гельмерт ФР (1875). «Über die Berechnung des wahrscheinlichen Fehlers aus einer endlichen Anzahl wahrer Beobachtungsfehler». Zeitschrift für Angewandte Mathematik und Physik (на немецком языке). 20 : 300–303.
^ Гельмерт ФР (1876). «Über die Wahrscheinlichkeit der Potenzsummen der Beobachtungsfehler und uber einige damit in Zusammenhang stehende Fragen». Zeitschrift für Angewandte Mathematik und Physik (на немецком языке). 21 : 192–218.
^ Гельмерт ФР (1876). «Die Genauigkeit der Formel von Peters zur Berechnung des wahrscheinlichen Beobachtungsfehlers Directer Beobachtungen gleicher Genauigkeit» [Точность формулы Петерса для расчета вероятной ошибки наблюдения прямых наблюдений одинаковой точности]. Astronomische Nachrichten (на немецком языке). 88 (8–9): 113–132. Бибкод : 1876AN.....88..113H. дои : 10.1002/asna.18760880802.
^ Люрот Дж (1876). «Vergleichung von zwei Werten des wahrscheinlichen Fehlers». Astronomische Nachrichten (на немецком языке). 87 (14): 209–220. Бибкод : 1876AN.....87..209L. дои : 10.1002/asna.18760871402.
^ Пфанзагль Дж., Шейнин О. (1996). «Исследования по истории вероятности и статистики. XLIV. Предшественник t- распределения ». Биометрика . 83 (4): 891–898. дои : 10.1093/biomet/83.4.891. МР 1766040.
^ Шейнин О (1995). «Работа Гельмерта по теории ошибок». Архив истории точных наук . 49 (1): 73–104. дои : 10.1007/BF00374700. S2CID 121241599.
^ Пирсон, К. (1895). «Вклад в математическую теорию эволюции. II. Косые изменения в однородном материале» (PDF) . Философские труды Королевского общества A : Математические, физические и технические науки . 186 (374): 343–414. Бибкод : 1895RSPTA.186..343P. дои : 10.1098/rsta.1895.0010 . ISSN 1364-503X.
^ Вендл MC (2016). «Псевдонимная слава». Наука . 351 (6280): 1406. Бибкод : 2016Sci...351.1406W. дои : 10.1126/science.351.6280.1406. ПМИД 27013722.
^ Мортимер Р.Г. (2005). Математика для физической химии (3-е изд.). Берлингтон, Массачусетс: Elsevier. стр. 326. ISBN9780080492889. ОСЛК 156200058.
^ Фишер Р.А. (1925). «Приложения «Студенческой» дистрибуции» (PDF) . Метрон . 5 : 90–104. Архивировано из оригинала (PDF) 5 марта 2016 года.
^ Уолпол Р.Э., Майерс Р., Майерс С., Й.К. (2006). Вероятность и статистика для инженеров и ученых (7-е изд.). Нью-Дели, Индиана: Пирсон. п. 237. ИСБН9788177584042. ОКЛК 818811849.
^ Крушке Дж.К. (2015). Выполнение байесовского анализа данных (2-е изд.). Академическая пресса. ISBN9780124058880. ОКЛК 959632184.
^ Казелла Г., Бергер Р.Л. (1990). Статистические выводы . Ресурсный центр Даксбери. п. 56. ИСБН9780534119584.
^ Аб Джекман, С. (2009). Байесовский анализ для социальных наук . Ряд Уайли по вероятности и статистике. Уайли. п. 507. дои : 10.1002/9780470686621. ISBN9780470011546.
^ Гельман А.Б., Карлин Дж.С., Рубин Д.Б., Стерн Х.С. (1997). Байесовский анализ данных (2-е изд.). Бока-Ратон, Флорида: Chapman & Hal lp 68. ISBN9780412039911.
^ Парк С.Ю., Бера АК (2009). «Модель условной гетероскедастичности авторегрессии с максимальной энтропией». Дж. Экономик. 150 (2): 219–230. doi :10.1016/j.jeconom.2008.12.014.
^ аб Бэйли RW (1994). «Полярная генерация случайных величин с t- распределением». Математика вычислений . 62 (206): 779–781. Бибкод : 1994MaCom..62..779B. дои : 10.2307/2153537. JSTOR 2153537. S2CID 120459654.
^ Гельман А.Б., Карлин Дж.Б., Стерн Х.С. и др. (2014). «Вычислительно эффективное моделирование цепи Маркова». Байесовский анализ данных . Бока-Ратон, Флорида: CRC Press. п. 293. ИСБН9781439898208.
^ Шах, Амар; Уилсон, Эндрю Гордон; Гахрамани, Зубин (2014). «Процессы Стьюдента как альтернатива гауссовским процессам» (PDF) . JMLR . 33 (Материалы 17-й Международной конференции по искусственному интеллекту и статистике (AISTATS), 2014 г., Рейкьявик, Исландия): 877–885. arXiv : 1402.4306 .
^ Чен, Цзэссун; Ван, Бо; Горбань, Александр Н. (2019). «Многомерная регрессия процессов Гаусса и Стьюдента для прогнозирования с несколькими выходами». Нейронные вычисления и их приложения . 32 (8): 3005–3028. arXiv : 1703.04455 . дои : 10.1007/s00521-019-04687-8 .
^ Сунь, Цзинчао; Конг, Майинг; Пал, Субхадип (22 июня 2021 г.). «Модифицированное полунормальное распределение: свойства и эффективная схема выборки». Коммуникации в статистике - теория и методы . 52 (5): 1591–1613. дои : 10.1080/03610926.2021.1934700. ISSN 0361-0926. S2CID 237919587.
Рекомендации
Сенн, С.; Ричардсон, В. (1994). «Первый т- тест». Статистика в медицине . 13 (8): 785–803. дои : 10.1002/sim.4780130802. ПМИД 8047737.