Тип распределения вероятностей
В статистике , особенно при проверке гипотез , распределение Хотеллинга T - квадрат ( T2 ), предложенное Гарольдом Хотеллингом , [1] является многомерным распределением вероятностей , которое тесно связано с F -распределением и наиболее примечательно тем, что возникает как распределение набора выборочных статистик , которые являются естественными обобщениями статистик, лежащих в основе t -распределения Стьюдента . Статистика Хотеллинга T -квадрат ( t2 ) является обобщением t- статистики Стьюдента , которая используется при многомерной проверке гипотез . [ 2 ]
Мотивация
Распределение возникает в многомерной статистике при проведении тестов различий между (многомерными) средними значениями различных совокупностей, где тесты для одномерных проблем использовали бы t - тест . Распределение названо в честь Гарольда Хотеллинга , который разработал его как обобщение t -распределения Стьюдента . [1]
Определение
Если вектор имеет гауссовское многомерное распределение с нулевым средним и единичной ковариационной матрицей и является случайной матрицей с распределением Уишарта с единичной масштабной матрицей и m степенями свободы , а d и M независимы друг от друга, то квадратичная форма имеет распределение Хотеллинга (с параметрами и ): [3]
Можно показать, что если случайная величина X имеет распределение Хотеллинга T -квадрат, то: [1]
где — F -распределение с параметрами p и m − p + 1.
Хотеллингт-квадратичная статистика
Пусть будет выборочной ковариацией :
где мы обозначаем транспонирование апострофом . Можно показать, что является положительно (полу)определенной матрицей и следует p -мерному распределению Уишарта с n − 1 степенями свободы. [4]
Матрица ковариации выборки среднего имеет вид . [5]
Статистика Хотеллинга t - квадрат тогда определяется как: [6]
которое пропорционально расстоянию Махаланобиса между средним значением выборки и . В связи с этим следует ожидать, что статистика будет принимать низкие значения, если , и высокие значения, если они различны.
Из распределения,
где — F -распределение с параметрами p и n − p .
Чтобы вычислить p -значение (не связанное здесь с переменной p ), обратите внимание, что распределение эквивалентно подразумевает, что
Затем используйте величину слева, чтобы оценить p -значение, соответствующее выборке, которое получается из F -распределения. Доверительную область также можно определить с использованием аналогичной логики.
Мотивация
Пусть обозначает p -мерное нормальное распределение с местоположением и известной ковариацией . Пусть
быть n независимыми одинаково распределенными (iid) случайными величинами , которые могут быть представлены как векторы-столбцы действительных чисел. Определить
быть выборочным средним с ковариацией . Можно показать, что
где — распределение хи-квадрат с p степенями свободы. [7]
Двухвыборочная статистика
Если и , с выборками, независимо взятыми из двух независимых многомерных нормальных распределений с одинаковым средним значением и ковариацией, и мы определяем
как образец означает, и
как соответствующие выборочные ковариационные матрицы. Тогда
— это несмещенная оценка объединенной ковариационной матрицы (расширение объединенной дисперсии ).
Наконец, двухвыборочная t -квадратная статистика Хотеллинга имеет вид
Связанные концепции
Его можно связать с F-распределением по формуле [4]
Ненулевое распределение этой статистики — нецентральное F-распределение (отношение нецентральной случайной величины хи-квадрат и независимой центральной случайной величины хи-квадрат ).
с
где — вектор разности между средними значениями совокупности.
В случае двух переменных формула значительно упрощается, позволяя оценить, как корреляция между переменными влияет на . Если мы определим
и
затем
Таким образом, если разности в двух строках вектора имеют одинаковый знак, в общем случае становится меньше, так как становится более положительным. Если разности имеют противоположный знак, становится больше, так как становится более положительным.
Одномерный частный случай можно найти в t-критерии Уэлча .
В литературе были предложены более надежные и мощные тесты, чем двухвыборочный тест Хотеллинга, например, тесты, основанные на межточечном расстоянии, которые можно применять также, когда количество переменных сопоставимо с количеством субъектов или даже превышает его. [9] [10]
Смотрите также
Ссылки
- ^ abc Хотеллинг, Х. (1931). «Обобщение отношения Стьюдента». Annals of Mathematical Statistics . 2 (3): 360–378. doi : 10.1214/aoms/1177732979 .
- ^ Джонсон, РА; Вихерн, Д.В. (2002). Прикладной многомерный статистический анализ . Том 5. Prentice hall.
- ^ Эрик В. Вайсштейн, MathWorld
- ^ ab Mardia, KV; Kent, JT; Bibby, JM (1979). Многомерный анализ . Academic Press. ISBN 978-0-12-471250-8.
- ^ Фогельмарк, Карл; Ломхольт, Михаэль; Ирбек, Андерс; Амбьёрнссон, Тобиас (3 мая 2018 г.). «Подгонка функции к зависящим от времени усредненным ансамблевым данным». Scientific Reports . 8 (1): 6984. doi :10.1038/s41598-018-24983-y. PMC 5934400 . Получено 19 августа 2024 г. .
- ^ "6.5.4.3. T-квадрат Хотеллинга".
- ↑ Конец главы 4.2 Джонсона, Р.А. и Вихерна, Д.В. (2002)
- ^ Биллингсли, П. (1995). "26. Характеристические функции". Вероятность и мера (3-е изд.). Wiley. ISBN 978-0-471-00710-4.
- ^ Мароцци, М. (2016). «Многомерные тесты на основе межточечных расстояний с применением к магнитно-резонансной томографии». Статистические методы в медицинских исследованиях . 25 (6): 2593–2610. doi :10.1177/0962280214529104. PMID 24740998.
- ^ Мароцци, М. (2015). «Многомерные многомерные тесты для многомерных исследований случай-контроль с малым размером выборки». Статистика в медицине . 34 (9): 1511–1526. doi :10.1002/sim.6418. PMID 25630579.
Внешние ссылки