Однако имеет более тяжелые хвосты , а величина вероятностной массы в хвостах контролируется параметром Для t- распределение Стьюдента становится стандартным распределением Коши , имеющим очень «толстые» хвосты ; тогда как для оно становится стандартным нормальным распределением, имеющим очень «тонкие» хвосты.
В англоязычной литературе название дистрибуции взято из статьи Уильяма Сили Госсета 1908 года в Biometrika под псевдонимом «Студент». [10] Одна из версий происхождения псевдонима заключается в том, что работодатель Госсета предпочитал, чтобы сотрудники использовали псевдонимы при публикации научных работ вместо их настоящих имен, поэтому он использовал имя «Студент», чтобы скрыть свою личность. Другая версия заключается в том, что Guinness не хотел, чтобы их конкуренты знали, что они используют t- тест для определения качества сырья. [11] [12]
Госсет работал на пивоварне Guinness Brewery в Дублине, Ирландия , и интересовался проблемами малых выборок – например, химическими свойствами ячменя, где размеры выборки могли быть всего 3. В статье Госсета распределение называется «частотным распределением стандартных отклонений выборок, взятых из нормальной популяции». Оно стало широко известно благодаря работе Рональда Фишера , который назвал распределение «распределением Стьюдента» и обозначил тестовое значение буквой t . [13] [14]
где бета- функция . В частности, для целочисленных степеней свободы имеем:
Для и даже,
Для и нечетных,
Функция плотности вероятности симметрична , и ее общая форма напоминает форму колокола нормально распределенной переменной со средним значением 0 и дисперсией 1, за исключением того, что она немного ниже и шире. По мере увеличения числа степеней свободы распределение t приближается к нормальному распределению со средним значением 0 и дисперсией 1. По этой причине также известно как параметр нормальности. [15]
На следующих изображениях показана плотность распределения t для возрастающих значений Нормальное распределение показано синей линией для сравнения. Обратите внимание, что распределение t (красная линия) становится ближе к нормальному распределению по мере увеличения.
Плотность распределения t (красный) для 1, 2, 3, 5, 10 и 30 степеней свободы по сравнению со стандартным нормальным распределением (синий). Предыдущие графики показаны зеленым.
Распределение Стьюдента обобщается до трехпараметрического распределения t по местоположению и масштабу путем введения параметра местоположения и параметра масштаба .
Предположим, что X 1 , ..., X n являются независимыми реализациями нормально распределенной случайной величины X , которая имеет ожидаемое значение μ и дисперсию σ 2 . Пусть
быть выборочным средним, и
быть несмещенной оценкой дисперсии из выборки. Можно показать, что случайная величина
имеет распределение хи-квадрат со степенями свободы (по теореме Кохрана ). [20] Легко показать, что величина
нормально распределена со средним значением 0 и дисперсией 1, поскольку выборочное среднее значение нормально распределено со средним значением μ и дисперсией σ 2 / n . Более того, можно показать, что эти две случайные величины (нормально распределенная Z и распределенная по закону хи-квадрат V ) независимы. Следовательно [ необходимо разъяснение ] основная величина
которая отличается от Z тем, что точное стандартное отклонение σ заменяется случайной величиной S n , имеет распределение Стьюдента t, как определено выше. Обратите внимание, что неизвестная дисперсия популяции σ 2 не появляется в T , поскольку она была и в числителе, и в знаменателе, поэтому она сокращается. Госсет интуитивно получил функцию плотности вероятности, указанную выше, с равным n − 1, и Фишер доказал ее в 1925 году. [13]
Распределение тестовой статистики T зависит от , но не от μ или σ ; отсутствие зависимости от μ и σ делает t -распределение важным как в теории, так и на практике.
Выборочное распределение t-статистики
Распределение t возникает как выборочное распределение t - статистики. Ниже обсуждается одновыборочная t- статистика, для соответствующей двухвыборочной t- статистики см. t-критерий Стьюдента .
Несмещенная оценка дисперсии
Пусть — независимые и одинаково распределенные выборки из нормального распределения со средним значением и дисперсией. Выборочное среднее значение и несмещенная выборочная дисперсия определяются по формуле:
Результирующая (одна выборка) t- статистика определяется как
и распределено по закону Стьюдента со степенями свободы.
Таким образом, для целей вывода t- статистика является полезной « основной величиной » в случае, когда среднее значение и дисперсия являются неизвестными параметрами популяции, в том смысле, что t- статистика имеет тогда распределение вероятностей, которое не зависит ни от
Оценка дисперсии ML
Вместо несмещенной оценки мы также можем использовать оценку максимального правдоподобия.
что дает статистику
Это распределено в соответствии с распределением масштаба местоположения :
Составное распределение нормального с обратным гамма-распределением
Распределение t по шкале местоположения получается в результате объединения гауссовского распределения (нормального распределения) со средним значением и неизвестной дисперсией , с обратным гамма-распределением, помещенным над дисперсией с параметрами и Другими словами, предполагается, что случайная величина X имеет гауссово распределение с неизвестной дисперсией, распределенной как обратная гамма, а затем дисперсия маргинализируется ( интегрируется).
Эквивалентно, это распределение получается в результате соединения гауссовского распределения с масштабированным обратным распределением хи-квадрат с параметрами и Масштабированное обратное распределение хи-квадрат является точно таким же распределением, как и обратное гамма-распределение, но с другой параметризацией, т.е.
Причина полезности этой характеристики заключается в том, что в байесовской статистике обратное гамма-распределение является сопряженным априорным распределением дисперсии гауссовского распределения. В результате распределение t по шкале местоположения естественным образом возникает во многих байесовских задачах вывода. [21]
Существуют различные подходы к построению случайных выборок из распределения Стьюдента t . Вопрос зависит от того, требуются ли выборки на автономной основе или должны быть построены путем применения квантильной функции к однородным выборкам; например, в многомерных приложениях на основе копула-зависимости . [ требуется ссылка ] В случае автономной выборки расширение метода Бокса-Мюллера и его полярной формы легко развертывается. [23] Его достоинство в том, что он одинаково хорошо применим ко всем действительным положительным степеням свободы , ν , в то время как многие другие методы-кандидаты терпят неудачу, если ν близко к нулю. [23]
Интеграл функции плотности вероятности Стьюдента ип-ценить
Функция A ( t | ν ) является интегралом функции плотности вероятности Стьюдента, f ( t ) между -t и t , для t ≥ 0 . Таким образом, она дает вероятность того, что значение t меньше, чем рассчитанное по наблюдаемым данным, возникнет случайно. Следовательно, функцию A ( t | ν ) можно использовать при проверке того, является ли разница между средними значениями двух наборов данных статистически значимой, путем вычисления соответствующего значения t и вероятности его появления, если бы два набора данных были взяты из одной и той же популяции. Это используется в различных ситуациях, особенно в t -тестах . Для статистики t с ν степенями свободы A ( t | ν ) является вероятностью того, что t будет меньше наблюдаемого значения, если бы два средних значения были одинаковыми (при условии, что меньшее среднее значение вычитается из большего, так что t ≥ 0 ). Его можно легко рассчитать из кумулятивной функции распределения F ν ( t ) t -распределения :
Для статистической проверки гипотез эта функция используется для построения p -значения .
Связанные дистрибутивы
Нецентральное распределение t обобщает распределение t , включая параметр нецентральности. В отличие от нестандартизированных распределений t , нецентральные распределения не являются симметричными (медиана не совпадает с модой).
Дискретное распределение Стьюдента t определяется его функцией массы вероятности при r , пропорциональной: [24] Здесь a , b , и k являются параметрами. Это распределение возникает из построения системы дискретных распределений, подобной распределению Пирсона для непрерывных распределений. [25]
Можно сгенерировать выборки Стьюдента A ( t | ν ), взяв отношение переменных из нормального распределения и квадратный корень из распределения χ ² . Если вместо нормального распределения использовать, например, распределение Ирвина–Холла , то в целом получим симметричное 4-параметрическое распределение, которое включает нормальное, равномерное , треугольное , распределение Стьюдента t и распределение Коши . Это также более гибко, чем некоторые другие симметричные обобщения нормального распределения.
Распределение Стьюдента t возникает в различных задачах статистической оценки, где целью является оценка неизвестного параметра, например, среднего значения, в условиях, когда данные наблюдаются с аддитивными ошибками . Если (как почти во всех практических статистических работах) среднеквадратическое отклонение этих ошибок неизвестно и должно быть оценено на основе данных, то распределение t часто используется для учета дополнительной неопределенности, которая возникает в результате этой оценки. В большинстве таких задач, если бы среднеквадратическое отклонение ошибок было известно, вместо распределения t использовалось бы нормальное распределение .
Доверительные интервалы и проверки гипотез — это две статистические процедуры, в которых требуются квантили выборочного распределения конкретной статистики (например, стандартной оценки ). В любой ситуации, когда эта статистика является линейной функцией данных , деленной на обычную оценку стандартного отклонения, полученное количество можно масштабировать и центрировать так, чтобы оно соответствовало распределению Стьюдента . Статистический анализ, включающий средние значения, взвешенные средние значения и коэффициенты регрессии, приводит к статистике, имеющей такую форму.
Довольно часто в задачах учебника среднеквадратическое отклонение генеральной совокупности рассматривается так, как будто оно известно, и, таким образом, избегается необходимость использования распределения Стьюдента . Эти задачи обычно бывают двух видов: (1) те, в которых размер выборки настолько велик, что можно рассматривать оценку дисперсии на основе данных так , как будто она определена, и (2) те, которые иллюстрируют математические рассуждения, в которых проблема оценки среднеквадратического отклонения временно игнорируется, поскольку это не то, что автор или преподаватель затем объясняет.
Проверка гипотез
Можно показать, что ряд статистик имеет t- распределения для выборок среднего размера при нулевых гипотезах , которые представляют интерес, так что t- распределение формирует основу для тестов значимости. Например, распределение коэффициента ранговой корреляции Спирмена ρ в нулевом случае (нулевая корреляция) хорошо аппроксимируется t- распределением для выборок размером более 20. [ необходима цитата ]
Доверительные интервалы
Предположим, что число A выбрано таким образом, что
когда T имеет распределение t с n − 1 степенями свободы. По симметрии это то же самое, что сказать, что A удовлетворяет
поэтому A — это «95-й процентиль» этого распределения вероятностей, или Тогда
и это эквивалентно
Следовательно, интервал, конечные точки которого
является 90% доверительным интервалом для μ. Таким образом, если мы находим среднее значение набора наблюдений, которое, как мы можем обоснованно ожидать, будет иметь нормальное распределение, мы можем использовать t- распределение, чтобы проверить, включают ли доверительные пределы этого среднего значения некоторое теоретически предсказанное значение – например, значение, предсказанное на основе нулевой гипотезы .
Именно этот результат используется в t- критериях Стьюдента : поскольку разница между средними значениями выборок из двух нормальных распределений сама по себе распределена нормально, t- распределение можно использовать для проверки того, можно ли обоснованно предположить, что эта разница равна нулю.
Если данные распределены нормально, то односторонний (1 − α ) верхний доверительный предел (UCL) среднего значения можно рассчитать с помощью следующего уравнения:
Результирующий UCL будет наибольшим средним значением, которое будет иметь место для заданного доверительного интервала и размера популяции. Другими словами, будучи средним значением набора наблюдений, вероятность того, что среднее значение распределения ниже UCL 1 − α , равна уровню достоверности 1 − α .
Интервалы прогнозирования
Распределение t можно использовать для построения интервала прогнозирования для ненаблюдаемой выборки из нормального распределения с неизвестным средним значением и дисперсией.
В байесовской статистике
Распределение Стьюдента , особенно в его трехпараметрической (масштабно-локационной) версии, часто возникает в байесовской статистике в результате его связи с нормальным распределением. Всякий раз, когда дисперсия нормально распределенной случайной величины неизвестна и над ней помещено сопряженное априорное распределение, которое следует обратному гамма-распределению , результирующее маргинальное распределение переменной будет следовать распределению Стьюдента . Эквивалентные конструкции с теми же результатами включают сопряженное масштабированное обратное распределение хи-квадрат по дисперсии или сопряженное гамма-распределение по точности . Если неправильное априорное распределение пропорционально 1/σ ² помещается над дисперсией, также возникает распределение t . Это имеет место независимо от того, известно ли среднее значение нормально распределенной переменной, неизвестно ли оно распределено в соответствии с сопряженным нормально распределенным априором или неизвестно распределено в соответствии с несобственным постоянным априором.
Связанные ситуации, которые также приводят к распределению t :
Распределение t часто используется как альтернатива нормальному распределению в качестве модели для данных, которые часто имеют более тяжелые хвосты, чем допускает нормальное распределение; см., например, Lange et al. [26] Классический подход заключался в выявлении выбросов (например, с помощью теста Граббса ) и исключении или понижении их веса каким-либо образом. Однако не всегда легко выявить выбросы (особенно в больших размерностях ), и распределение t является естественным выбором модели для таких данных и обеспечивает параметрический подход к надежной статистике .
Байесовский отчет можно найти в Gelman et al. [27] Параметр степеней свободы контролирует эксцесс распределения и коррелирует с параметром масштаба. Правдоподобие может иметь несколько локальных максимумов, и, как таковое, часто необходимо зафиксировать степени свободы на довольно низком значении и оценить другие параметры, принимая это как данность. Некоторые авторы [ требуется цитата ] сообщают, что значения от 3 до 9 часто являются хорошим выбором. Venables и Ripley [ требуется цитата ] предполагают, что значение 5 часто является хорошим выбором.
Студенческийт процесс
Для практических нужд регрессии и прогнозирования были введены процессы Стьюдента t , которые являются обобщениями распределений Стьюдента t для функций. Процесс Стьюдента t строится из распределений Стьюдента t , как гауссовский процесс строится из гауссовых распределений . Для гауссовского процесса все наборы значений имеют многомерное гауссовское распределение. Аналогично, является процессом Стьюдента t на интервале , если соответствующие значения процесса ( ) имеют совместное многомерное распределение Стьюдента t . [28] Эти процессы используются для регрессии, прогнозирования, байесовской оптимизации и связанных с ними задач. Для многомерной регрессии и многовыходного прогнозирования вводятся и используются многомерные процессы Стьюдента t . [29]
Таблица выбранных значений
В следующей таблице перечислены значения для распределений t с ν степенями свободы для диапазона односторонних или двусторонних критических областей. Первый столбец — ν , проценты сверху — уровни достоверности , а числа в тексте таблицы — факторы, описанные в разделе о доверительных интервалах.
Последняя строка с бесконечным ν дает критические точки для нормального распределения, поскольку t- распределение с бесконечным числом степеней свободы является нормальным распределением. (См. Связанные распределения выше).
Расчет доверительного интервала
Допустим, у нас есть выборка размером 11, выборочное среднее значение 10 и выборочная дисперсия 2. Для 90%-ной достоверности с 10 степенями свободы одностороннее значение t из таблицы равно 1,372. Тогда с доверительным интервалом, рассчитанным из
мы определяем, что с 90% уверенностью мы имеем истинное среднее значение, лежащее ниже
Другими словами, в 90% случаев, когда верхний порог рассчитывается этим методом на основе конкретных образцов, этот верхний порог превышает истинное среднее значение.
И с 90% уверенностью мы имеем истинное среднее значение, лежащее выше
Другими словами, в 90% случаев, когда нижний порог рассчитывается этим методом на основе конкретных образцов, этот нижний порог лежит ниже истинного среднего значения.
Таким образом, при 80%-ной достоверности (рассчитанной как 100% − 2 × (1 − 90%) = 80%) мы имеем истинное среднее значение, лежащее в интервале
Утверждение, что в 80% случаев, когда верхний и нижний пороги вычисляются этим методом из заданной выборки, истинное среднее значение оказывается как ниже верхнего порога, так и выше нижнего порога, не то же самое, что утверждение, что существует 80%-ная вероятность того, что истинное среднее значение лежит между конкретной парой верхних и нижних порогов, которые были вычислены этим методом; см. доверительный интервал и ошибка прокурора .
^ Херст, Саймон. "Характерная функция распределения Стьюдента". Отчет по исследованию финансовой математики. Отчет по исследованию статистики № SRR044-95. Архивировано из оригинала 18 февраля 2010 г.
^ Нортон, Мэтью; Хохлов, Валентин; Урясев, Стэн (2019). «Расчет CVaR и bPOE для общих распределений вероятностей с применением к оптимизации портфеля и оценке плотности» (PDF) . Annals of Operations Research . 299 (1–2). Springer: 1281–1315. arXiv : 1811.11301 . doi :10.1007/s10479-019-03373-1. S2CID 254231768 . Получено 27.02.2023 .
^ Гельмерт ФР (1875). «Über die Berechnung des wahrscheinlichen Fehlers aus einer endlichen Anzahl wahrer Beobachtungsfehler». Zeitschrift für Angewandte Mathematik und Physik (на немецком языке). 20 : 300–303.
^ Гельмерт ФР (1876). «Über die Wahrscheinlichkeit der Potenzsummen der Beobachtungsfehler und uber einige damit in Zusammenhang stehende Fragen». Zeitschrift für Angewandte Mathematik und Physik (на немецком языке). 21 : 192–218.
^ Гельмерт ФР (1876). «Die Genauigkeit der Formel von Peters zur Berechnung des wahrscheinlichen Beobachtungsfehlers Directer Beobachtungen gleicher Genauigkeit» [Точность формулы Петерса для расчета вероятной ошибки наблюдения прямых наблюдений одинаковой точности]. Astronomische Nachrichten (на немецком языке). 88 (8–9): 113–132. Бибкод : 1876AN.....88..113H. дои : 10.1002/asna.18760880802.
^ Люрот Дж (1876). «Vergleichung von zwei Werten des wahrscheinlichen Fehlers». Astronomische Nachrichten (на немецком языке). 87 (14): 209–220. Бибкод : 1876AN.....87..209L. дои : 10.1002/asna.18760871402.
^ Pfanzagl J, Sheynin O (1996). «Исследования по истории вероятности и статистики. XLIV. Предшественник распределения t ». Biometrika . 83 (4): 891–898. doi :10.1093/biomet/83.4.891. MR 1766040.
^ Пирсон, К. (1895). «Вклад в математическую теорию эволюции. II. Перекос вариации в однородном материале». Philosophical Transactions of the Royal Society A: Mathematical, Physical and Engineering Sciences . 186 (374): 343–414. Bibcode : 1895RSPTA.186..343P. doi : 10.1098/rsta.1895.0010 . ISSN 1364-503X.
^ "Студент" [ псевдоним. Уильям Сили Госсет ] (1908). "Вероятная ошибка среднего" (PDF) . Biometrika . 6 (1): 1–25. doi :10.1093/biomet/6.1.1. hdl :10338.dmlcz/143545. JSTOR 2331554.{{cite journal}}: CS1 maint: numeric names: authors list (link)
^ Wendl MC (2016). «Псевдонимная слава». Science . 351 (6280): 1406. Bibcode :2016Sci...351.1406W. doi :10.1126/science.351.6280.1406. PMID 27013722.
^ Мортимер РГ (2005). Математика для физической химии (3-е изд.). Берлингтон, Массачусетс: Elsevier. С. 326. ISBN9780080492889. OCLC 156200058.
^ ab Fisher RA (1925). "Применение распределения "Стьюдента"" (PDF) . Metron . 5 : 90–104. Архивировано из оригинала (PDF) 5 марта 2016 г.
^ Уолпол RE, Майерс R, Майерс S, Йе K (2006). Вероятность и статистика для инженеров и ученых (7-е изд.). Нью-Дели, Индиана: Pearson. стр. 237. ISBN9788177584042. OCLC 818811849.
^ Крушке, Дж. К. (2015). Выполнение байесовского анализа данных (2-е изд.). Academic Press. ISBN9780124058880. OCLC 959632184.
^ Casella G, Berger RL (1990). Статистический вывод . Центр ресурсов Даксбери. стр. 56. ISBN9780534119584.
^ ab Jackman, S. (2009). Байесовский анализ для социальных наук . Wiley Series in Probability and Statistics. Wiley. стр. 507. doi :10.1002/9780470686621. ISBN9780470011546.
^ Джонсон Н. Л., Коц С., Балакришнан Н. (1995). "Глава 28". Непрерывные одномерные распределения . Том 2 (2-е изд.). Wiley. ISBN9780471584940.
^ Hogg RV , Craig AT (1978). Введение в математическую статистику (4-е изд.). Нью-Йорк: Macmillan. ASIN B010WFO0SA. Разделы 4.4 и 4.8{{cite book}}: CS1 maint: postscript (link)
^ Cochran WG (1934). «Распределение квадратичных форм в нормальной системе с приложениями к анализу ковариации». Math. Proc. Camb. Philos. Soc. 30 (2): 178–191. Bibcode :1934PCPS...30..178C. doi :10.1017/S0305004100016595. S2CID 122547084.
^ Gelman AB, Carlin JS, Rubin DB, Stern HS (1997). Байесовский анализ данных (2-е изд.). Boca Raton, FL: Chapman & Hal lp 68. ISBN9780412039911.
^ Park SY, Bera AK (2009). "Модель авторегрессии с максимальной энтропией и условной гетероскедастичностью". J. Econom. 150 (2): 219–230. doi :10.1016/j.jeconom.2008.12.014.
^ ab Bailey RW (1994). "Полярная генерация случайных величин с распределением t ". Mathematics of Computation . 62 (206): 779–781. Bibcode : 1994MaCom..62..779B. doi : 10.2307/2153537. JSTOR 2153537. S2CID 120459654.
^ Ord JK (1972). Семейства частотных распределений . Лондон, Великобритания: Griffin. Таблица 5.1. ISBN9780852641378.
^ Ord JK (1972). Семейства частотных распределений . Лондон, Великобритания: Griffin. Глава 5. ISBN9780852641378.
^ Ланге К. Л., Литтл Р. Дж., Тейлор Дж. М. (1989). «Надежное статистическое моделирование с использованием t-распределения» (PDF) . J. Am. Stat. Assoc. 84 (408): 881–896. doi :10.1080/01621459.1989.10478852. JSTOR 2290063.
^ Gelman AB, Carlin JB, Stern HS и др. (2014). «Вычислительно эффективное моделирование цепей Маркова». Байесовский анализ данных . Бока-Ратон, Флорида: CRC Press. стр. 293. ISBN9781439898208.
^ Шах, Амар; Уилсон, Эндрю Гордон; Гахрамани, Зубин (2014). «Процессы Стьюдента t как альтернативы гауссовым процессам» (PDF) . JMLR . 33 (Труды 17-й Международной конференции по искусственному интеллекту и статистике (AISTATS) 2014, Рейкьявик, Исландия): 877–885. arXiv : 1402.4306 .
^ Чэнь, Цзэсюнь; Ван, Бо; Горбань, Александр Н. (2019). «Многомерная регрессия гауссовских и t-процессов Стьюдента для многовыходного прогнозирования». Нейронные вычисления и приложения . 32 (8): 3005–3028. arXiv : 1703.04455 . doi : 10.1007/s00521-019-04687-8 .
^ Сан, Цзинчао; Конг, Майин; Пал, Субхадип (22 июня 2021 г.). «Модифицированное полунормальное распределение: свойства и эффективная схема выборки». Communications in Statistics - Theory and Methods . 52 (5): 1591–1613. doi :10.1080/03610926.2021.1934700. ISSN 0361-0926. S2CID 237919587.
Ссылки
Сенн, С.; Ричардсон, В. (1994). «Первый t- тест». Статистика в медицине . 13 (8): 785–803. doi :10.1002/sim.4780130802. PMID 8047737.
Венейблс, В. Н.; Рипли, Б. Д. (2002). Современная прикладная статистика с S (четвертое издание). Springer.
Гельман, Эндрю; Джон Б. Карлин; Хэл С. Стерн; Дональд Б. Рубин (2003). Байесовский анализ данных (второе издание). CRC/Chapman & Hall. ISBN 1-58488-388-X.