stringtranslate.com

Многомерная статистика

Многомерная статистика — это подраздел статистики , включающий одновременное наблюдение и анализ более чем одной конечной переменной , то есть многомерных случайных величин . Многомерная статистика касается понимания различных целей и предпосылок каждой из различных форм многомерного анализа, а также того, как они связаны друг с другом. Практическое применение многомерной статистики к конкретной проблеме может включать несколько типов одномерного и многомерного анализа, чтобы понять взаимосвязи между переменными и их значимость для изучаемой проблемы.

Кроме того, многомерная статистика занимается многомерными распределениями вероятностей с точки зрения как

  • как их можно использовать для представления распределения наблюдаемых данных;
  • как их можно использовать как часть статистического вывода , особенно если для одного и того же анализа представляют интерес несколько разных величин.

Определенные типы проблем, включающие многомерные данные, например простая линейная регрессия и множественная регрессия , обычно не считаются особыми случаями многомерной статистики, поскольку анализ проводится с учетом (одномерного) условного распределения одной выходной переменной с учетом другой. переменные.

Многомерный анализ

Многомерный анализ ( MVA ) основан на принципах многомерной статистики. Обычно MVA используется в ситуациях, когда на каждой экспериментальной установке проводится несколько измерений и важны взаимосвязи между этими измерениями и их структурами. [1] Современная перекрывающаяся классификация MVA включает: [1]

Многомерный анализ может быть осложнен желанием включить физический анализ для расчета влияния переменных на иерархическую «систему систем». Часто исследования, в которых предполагается использовать многомерный анализ, останавливаются из-за размерности проблемы. Эти проблемы часто решаются за счет использования суррогатных моделей , высокоточных аппроксимаций кода, основанного на физике. Поскольку суррогатные модели имеют форму уравнения, их можно оценить очень быстро. Это становится основой для крупномасштабных исследований MVA: хотя моделирование методом Монте-Карло в пространстве проектирования затруднено с помощью программ, основанных на физике, оно становится тривиальным при оценке суррогатных моделей, которые часто принимают форму уравнений поверхности отклика .

Виды анализа

В MVA используется множество различных моделей, каждая из которых имеет свой тип анализа:

  1. Многомерный дисперсионный анализ (MANOVA) расширяет дисперсионный анализ, охватывая случаи, когда одновременно анализируется более одной зависимой переменной; см. также Многомерный ковариационный анализ (MANCOVA).
  2. Многомерная регрессия пытается определить формулу, которая может описать, как элементы вектора переменных одновременно реагируют на изменения других. Для линейных отношений регрессионный анализ здесь основан на формах общей линейной модели . Некоторые предполагают, что многомерная регрессия отличается от многомерной регрессии, однако это обсуждается и не всегда верно во всех научных областях. [2]
  3. Анализ главных компонентов (PCA) создает новый набор ортогональных переменных, которые содержат ту же информацию, что и исходный набор. Он вращает оси вариации, чтобы получить новый набор ортогональных осей, упорядоченных так, что они суммируют уменьшающиеся пропорции вариации.
  4. Факторный анализ аналогичен PCA, но позволяет пользователю извлечь определенное количество синтетических переменных, меньшее, чем исходный набор, оставляя оставшуюся необъяснимую вариацию как ошибку. Извлеченные переменные известны как скрытые переменные или факторы; Можно предположить, что каждый из них объясняет ковариацию в группе наблюдаемых переменных.
  5. Канонический корреляционный анализ находит линейные связи между двумя наборами переменных; это обобщенная (т.е. каноническая) версия двумерной [3] корреляции.
  6. Анализ избыточности (RDA) аналогичен каноническому корреляционному анализу, но позволяет пользователю получить определенное количество синтетических переменных из одного набора (независимых) переменных, которые объясняют как можно большую дисперсию в другом (независимом) наборе. Это многомерный аналог регрессии . [4]
  7. Анализ соответствия (CA) или взаимное усреднение находит (например, PCA) набор синтетических переменных, которые суммируют исходный набор. Базовая модель предполагает наличие различий между записями (случаями) по критерию хи-квадрат.
  8. Канонический (или «ограниченный») анализ соответствия (CCA) для суммирования совместных изменений двух наборов переменных (например, анализ избыточности); сочетание анализа соответствий и многомерного регрессионного анализа. Базовая модель предполагает наличие различий между записями (случаями) по критерию хи-квадрат.
  9. Многомерное масштабирование включает в себя различные алгоритмы для определения набора синтетических переменных, которые лучше всего представляют попарные расстояния между записями. Оригинальный метод — анализ главных координат (PCoA; на основе PCA).
  10. Дискриминантный анализ , или анализ канонических переменных, пытается установить, можно ли использовать набор переменных для различения двух или более групп случаев.
  11. Линейный дискриминантный анализ (LDA) вычисляет линейный предиктор на основе двух наборов нормально распределенных данных, чтобы обеспечить классификацию новых наблюдений.
  12. Системы кластеризации объединяют объекты в группы (называемые кластерами), чтобы объекты (кейсы) из одного кластера были более похожи друг на друга, чем объекты из разных кластеров.
  13. Рекурсивное разделение создает дерево решений, которое пытается правильно классифицировать членов совокупности на основе дихотомической зависимой переменной.
  14. Искусственные нейронные сети расширяют методы регрессии и кластеризации на нелинейные многомерные модели.
  15. Статистическая графика, такая как туры, графики с параллельными координатами и матрицы рассеяния, может использоваться для исследования многомерных данных.
  16. Модели одновременных уравнений включают более одного уравнения регрессии с различными зависимыми переменными, оцениваемыми вместе.
  17. Векторная авторегрессия включает одновременную регрессию различных переменных временных рядов как по отдельности, так и по запаздывающим значениям друг друга.
  18. Анализ кривых основного ответа (PRC) — это метод, основанный на RDA, который позволяет пользователю сосредоточиться на эффектах лечения с течением времени, корректируя изменения в контрольных обработках с течением времени. [5]
  19. Иконография корреляций заключается в замене корреляционной матрицы диаграммой, на которой «замечательные» корреляции представлены сплошной линией (положительная корреляция) или пунктирной линией (отрицательная корреляция).

Работа с неполными данными

Очень часто в экспериментально полученном наборе данных отсутствуют значения некоторых компонентов данной точки данных . Вместо того, чтобы отбрасывать всю точку данных, обычно «заполняют» значения недостающих компонентов - процесс, называемый « вменением ». [6]

Важные распределения вероятностей

Существует набор вероятностных распределений, используемых в многомерном анализе, которые играют аналогичную роль соответствующему набору распределений, которые используются в одномерном анализе , когда нормальное распределение соответствует набору данных. Эти многомерные распределения:

Обратное распределение-Уишарта важно для байесовского вывода , например, для байесовской многомерной линейной регрессии . Кроме того, Т-квадрат распределения Хотеллинга — это многомерное распределение, обобщающее Т-распределение Стьюдента , которое используется при проверке многомерных гипотез .

История

Учебник Андерсона 1958 года «Введение в многомерный статистический анализ» [ 7] воспитал поколение теоретиков и прикладных статистиков; В книге Андерсона особое внимание уделяется проверке гипотез с помощью тестов отношения правдоподобия и свойств степенных функций : допустимости , несмещенности и монотонности . [8] [9]

Раньше MVA обсуждался исключительно в контексте статистических теорий из-за размера и сложности базовых наборов данных и высоких вычислительных затрат. С резким ростом вычислительной мощности MVA теперь играет все более важную роль в анализе данных и широко применяется в области омики .

Приложения

Программное обеспечение и инструменты

Существует огромное количество программных пакетов и других инструментов для многомерного анализа, в том числе:

Смотрите также

Рекомендации

  1. ^ аб Олкин, И.; Сэмпсон, А.Р. (01 января 2001 г.), «Многомерный анализ: обзор», в Смелзере, Ниле Дж.; Балтес, Пол Б. (ред.), Международная энциклопедия социальных и поведенческих наук , Пергамон, стр. 10240–10247, ISBN 9780080430768, получено 2 сентября 2019 г.
  2. ^ Идальго, Б; Гудман, М. (2013). «Многомерная или многомерная регрессия?». Am J Общественное здравоохранение . 103 (1): 39–40. дои : 10.2105/AJPH.2012.300897. ПМЦ 3518362 . ПМИД  23153131. 
  3. ^ Неискушенные аналитики двумерных гауссовских задач могут найти полезным грубый, но точный метод точного измерения вероятности, просто взяв сумму S квадратов N остатков, вычитая как минимум сумму Sm , разделив эту разницу на Sm и умножив результат на ( N - 2) и взяв обратное анти-ln половины этого произведения.
  4. ^ Ван Ден Волленберг, Арнольд Л. (1977). «Анализ избыточности как альтернатива каноническому корреляционному анализу». Психометрика . 42 (2): 207–219. дои : 10.1007/BF02294050.
  5. ^ тер Браак, Кайо Дж. Ф. и Шмилауэр, Петр (2012). Справочное руководство и руководство пользователя Canoco: программное обеспечение для рукоположения (версия 5.0) , стр. 292. Microcomputer Power, Итака, Нью-Йорк.
  6. ^ Дж. Л. Шафер (1997). Анализ неполных многомерных данных . Чепмен и Холл/CRC. ISBN 978-1-4398-2186-2.
  7. ^ Т.В. Андерсон (1958) Введение в многомерный анализ , Нью-Йорк: Wiley ISBN 0471026409 ; 2e (1984) ISBN 0471889873 ; 3e (2003) ISBN 0471360910   
  8. ^ Сен, Пранаб Кумар ; Андерсон, ТВ; Арнольд, Сан-Франциско; Итон, ML; Гири, Северная Каролина; Гнанадэсикан, Р.; Кендалл, Миннесота; Кширсагар, AM; и другие. (июнь 1986 г.). «Обзор: Современные учебники по многомерному статистическому анализу: панорамная оценка и критика». Журнал Американской статистической ассоциации . 81 (394): 560–564. дои : 10.2307/2289251. ISSN  0162-1459. JSTOR  2289251.(страницы 560–561)
  9. ^ Шервиш, Марк Дж. (ноябрь 1987 г.). «Обзор многомерного анализа». Статистическая наука . 2 (4): 396–413. дои : 10.1214/ss/1177013111 . ISSN  0883-4237. JSTOR  2245530.
  10. ^ CRAN содержит подробную информацию о пакетах, доступных для многомерного анализа данных.

дальнейшее чтение

Внешние ссылки