Многомерная статистика

Многомерная статистика — это подраздел статистики, охватывающий одновременное наблюдение и анализ более чем одной выходной переменной , т. е. многомерных случайных величин . Многомерная статистика касается понимания различных целей и предыстории каждой из различных форм многомерного анализа и того, как они соотносятся друг с другом. Практическое применение многомерной статистики к конкретной проблеме может включать несколько типов одномерного и многомерного анализа для понимания взаимосвязей между переменными и их релевантности для изучаемой проблемы.

Кроме того, многомерная статистика занимается многомерными распределениями вероятностей с точки зрения как

как их можно использовать для представления распределений наблюдаемых данных;
как их можно использовать в качестве части статистического вывода , особенно когда для одного и того же анализа представляют интерес несколько различных величин.

Некоторые типы задач, включающих многомерные данные, например, простая линейная регрессия и множественная регрессия , обычно не считаются особыми случаями многомерной статистики, поскольку анализ выполняется путем рассмотрения (одномерного) условного распределения одной выходной переменной с учетом других переменных.

Многомерный анализ

Многомерный анализ ( MVA ) основан на принципах многомерной статистики. Обычно MVA используется для решения ситуаций, когда на каждой экспериментальной единице проводится несколько измерений, и важны связи между этими измерениями и их структурами. ^[1] Современная, перекрывающаяся категоризация MVA включает: ^[1]

Нормальные и общие многомерные модели и теория распределения
Изучение и измерение отношений
Расчет вероятности многомерных областей
Исследование структур данных и шаблонов

Многомерный анализ может быть осложнен желанием включить физический анализ для расчета эффектов переменных для иерархической «системы систем». Часто исследования, которые хотят использовать многомерный анализ, останавливаются из-за размерности проблемы. Эти опасения часто снимаются с помощью суррогатных моделей , высокоточных приближений физического кода. Поскольку суррогатные модели принимают форму уравнения, их можно оценить очень быстро. Это становится фактором, способствующим крупномасштабным исследованиям MVA: в то время как моделирование Монте-Карло в пространстве проектирования затруднено с физическими кодами, оно становится тривиальным при оценке суррогатных моделей, которые часто принимают форму уравнений поверхности отклика .

Виды анализа

В MVA используется множество различных моделей, каждая из которых имеет свой тип анализа:

Многомерный дисперсионный анализ (MANOVA) расширяет дисперсионный анализ , охватывая случаи, когда необходимо одновременно анализировать более одной зависимой переменной; см. также Многомерный ковариационный анализ (MANCOVA).
Многомерная регрессия пытается определить формулу, которая может описать, как элементы в векторе переменных одновременно реагируют на изменения в других. Для линейных отношений регрессионный анализ здесь основан на формах общей линейной модели . Некоторые предполагают, что многомерная регрессия отличается от многомерной регрессии, однако это обсуждается и не всегда верно в разных научных областях. ^[2]
Анализ главных компонент (PCA) создает новый набор ортогональных переменных, которые содержат ту же информацию, что и исходный набор. Он вращает оси вариации, чтобы получить новый набор ортогональных осей, упорядоченных так, что они суммируют уменьшающиеся пропорции вариации.
Факторный анализ похож на PCA, но позволяет пользователю извлекать указанное количество синтетических переменных, меньше исходного набора, оставляя оставшуюся необъясненную вариацию как ошибку. Извлеченные переменные известны как скрытые переменные или факторы; каждая из них может предположительно учитывать ковариацию в группе наблюдаемых переменных.
Канонический корреляционный анализ находит линейные связи между двумя наборами переменных; это обобщенная (т.е. каноническая) версия двумерной ^[3] корреляции.
Анализ избыточности (RDA) похож на канонический корреляционный анализ, но позволяет пользователю вывести определенное количество синтетических переменных из одного набора (независимых) переменных, которые объясняют как можно больше дисперсии в другом (независимом) наборе. Это многомерный аналог регрессии . [ ^4]
Анализ соответствия (CA) или взаимное усреднение находит (как PCA) набор синтетических переменных, которые суммируют исходный набор. Базовая модель предполагает хи-квадрат различий между записями (случаями).
Канонический (или "ограниченный") анализ соответствий (CCA) для суммирования совместной вариации в двух наборах переменных (как анализ избыточности); сочетание анализа соответствий и многомерного регрессионного анализа. Базовая модель предполагает хи-квадрат различий между записями (случаями).
Многомерное масштабирование включает в себя различные алгоритмы для определения набора синтетических переменных, которые наилучшим образом представляют парные расстояния между записями. Исходный метод — анализ главных координат (PCoA; на основе PCA).
Дискриминантный анализ , или канонический вариативный анализ, пытается установить, можно ли использовать набор переменных для различения двух или более групп случаев.
Линейный дискриминантный анализ (ЛДА) вычисляет линейный предиктор из двух наборов нормально распределенных данных, что позволяет классифицировать новые наблюдения.
Системы кластеризации распределяют объекты по группам (называемым кластерами) таким образом, чтобы объекты (случаи) из одного кластера были более похожи друг на друга, чем объекты из разных кластеров.
Рекурсивное разбиение создает дерево решений, которое пытается правильно классифицировать членов популяции на основе дихотомической зависимой переменной.
Искусственные нейронные сети расширяют методы регрессии и кластеризации до нелинейных многомерных моделей.
Статистические графики, такие как туры, графики параллельных координат , матрицы диаграмм рассеяния, можно использовать для исследования многомерных данных.
Модели одновременных уравнений включают в себя более одного уравнения регрессии с различными зависимыми переменными, оцениваемыми совместно.
Векторная авторегрессия подразумевает одновременную регрессию различных переменных временного ряда по отношению к ним самим и к запаздывающим значениям друг друга.
Анализ основных кривых отклика (PRC) — это метод, основанный на RDA, который позволяет пользователю сосредоточиться на эффектах лечения с течением времени, корректируя изменения в контрольных обработках с течением времени. ^[5]
Иконография корреляций заключается в замене корреляционной матрицы диаграммой, где «замечательные» корреляции представлены сплошной линией (положительная корреляция) или пунктирной линией (отрицательная корреляция).

Работа с неполными данными

Очень часто в экспериментально полученном наборе данных значения некоторых компонентов заданной точки данных отсутствуют . Вместо того, чтобы отбрасывать всю точку данных, обычно «заполняют» значениями отсутствующие компоненты, этот процесс называется « импутация ». ^[6]

Важные распределения вероятностей

Существует набор распределений вероятностей, используемых в многомерном анализе, которые играют аналогичную роль соответствующему набору распределений, используемых в одномерном анализе , когда нормальное распределение подходит для набора данных. Эти многомерные распределения:

Обратное распределение Уишарта важно в байесовском выводе , например, в байесовской многомерной линейной регрессии . Кроме того, распределение Хотеллинга T-квадрат является многомерным распределением, обобщающим t-распределение Стьюдента , которое используется в многомерной проверке гипотез .

История

Учебник Андерсона 1958 года «Введение в многомерный статистический анализ » ^[7] воспитал целое поколение теоретиков и прикладных статистиков; книга Андерсона делает акцент на проверке гипотез с помощью тестов отношения правдоподобия и свойств степенных функций : допустимости , беспристрастности и монотонности . ^[8]^[9]

Ранее MVA обсуждался исключительно в контексте статистических теорий из-за размера и сложности базовых наборов данных и его высокого потребления вычислений. С резким ростом вычислительной мощности MVA теперь играет все более важную роль в анализе данных и широко применяется в областях Omics .

Приложения

Программное обеспечение и инструменты

Существует огромное количество программных пакетов и других инструментов для многомерного анализа, в том числе:

JMP (статистическое программное обеспечение)
Мини-вкладка
Калькулятор
ПСПП
Р ^[10]
САС (программное обеспечение)
SciPy для Python
СПСС
Стата
СТАТИСТИКА
Расшифровщик
WarpPLS
SmartPLS
МАТЛАБ
Обзоры
NCSS (статистическое программное обеспечение) включает многомерный анализ.
Unscrambler® X — это инструмент многомерного анализа.
SIMCA
DataPandit (бесплатные SaaS-приложения от Let's Excel Analytics Solutions)

Смотрите также

Ссылки

^ ab Olkin, I.; Sampson, AR (2001-01-01), «Многомерный анализ: обзор», в Smelser, Neil J.; Baltes, Paul B. (ред.), Международная энциклопедия социальных и поведенческих наук , Pergamon, стр. 10240–10247, ISBN 9780080430768, получено 2019-09-02
^ Идальго, Б.; Гудман, М. (2013). «Многомерная или многомерная регрессия?». Am J Public Health . 103 (1): 39–40. doi :10.2105/AJPH.2012.300897. PMC 3518362. PMID 23153131 .
^ Неискушенные аналитики двумерных гауссовых задач могут найти полезным грубый, но точный метод точной оценки вероятности, просто взяв сумму S квадратов N остатков, вычтя сумму Sm как минимум, разделив эту разность на Sm , умножив результат на ( N - 2) и взяв обратный анти-ln половины этого произведения.
^ Ван Ден Волленберг, Арнольд Л. (1977). «Анализ избыточности как альтернатива каноническому корреляционному анализу». Психометрика . 42 (2): 207–219. doi :10.1007/BF02294050.
^ ter Braak, Cajo JF & Šmilauer, Petr (2012). Справочное руководство и руководство пользователя Canoco: программное обеспечение для рукоположения (версия 5.0) , стр. 292. Microcomputer Power, Итака, Нью-Йорк.
^ JL Schafer (1997). Анализ неполных многомерных данных . Chapman & Hall/CRC. ISBN 978-1-4398-2186-2.
^ TW Anderson (1958) Введение в многомерный анализ , Нью-Йорк: Wiley ISBN 0471026409 ; 2e (1984) ISBN 0471889873 ; 3e (2003) ISBN 0471360910
^ Сен, Пранаб Кумар ; Андерсон, TW; Арнольд, SF; Итон, ML; Гири, NC; Гнанадесикан, R.; Кендалл, MG; Кширсагар, AM; и др. (июнь 1986 г.). «Обзор: Современные учебники по многомерному статистическому анализу: панорамная оценка и критика». Журнал Американской статистической ассоциации . 81 (394): 560–564. doi :10.2307/2289251. ISSN 0162-1459. JSTOR 2289251.(Страницы 560–561)
^ Шервиш, Марк Дж. (ноябрь 1987 г.). «Обзор многомерного анализа». Статистическая наука . 2 (4): 396–413. doi : 10.1214/ss/1177013111 . ISSN 0883-4237. JSTOR 2245530.
^ CRAN содержит подробную информацию о пакетах, доступных для многомерного анализа данных.

Дальнейшее чтение

Джонсон, Ричард А.; Вихерн, Дин В. (2007). Прикладной многомерный статистический анализ (шестое изд.). Prentice Hall. ISBN 978-0-13-187715-3.
KV Mardia ; JT Kent; JM Bibby (1979). Многомерный анализ . Academic Press. ISBN 0-12-471252-5.
А. Сен, М. Шривастава, Регрессионный анализ — теория, методы и приложения , Springer-Verlag, Берлин, 2011 (4-е издание).
Кук, Суэйн (2007). Интерактивная графика для анализа данных.
Малакути, Б. (2013). Операционные и производственные системы с множественными целями. John Wiley & Sons.
TW Anderson, Введение в многомерный статистический анализ , Wiley, Нью-Йорк, 1958.
KV Mardia; JT Kent & JM Bibby (1979). Многомерный анализ. Academic Press . ISBN 978-0124712522.(подход «вероятности» уровня MA)
Файнстайн, А. Р. (1996) Многомерный анализ . Нью-Хейвен, Коннектикут: Издательство Йельского университета.
Хэйр, Дж. Ф. Мл. (1995) Многомерный анализ данных с показаниями , 4-е изд. Prentice-Hall.
Шафер, Дж. Л. (1997) Анализ неполных многомерных данных . CRC Press. (Расширенный)
Шарма, С. (1996) Прикладные многомерные методы . Wiley. (Неформальные, прикладные)
Айзенман, Алан Дж. (2008). Современные многомерные статистические методы: регрессия, классификация и многообразное обучение. Springer Texts in Statistics. Нью-Йорк: Springer-Verlag. ISBN 9780387781884 .
Тинсли, Говард EA; Браун, Стивен Д., ред. (2000). Справочник по прикладной многомерной статистике и математическому моделированию . Academic Press. doi :10.1016/B978-0-12-691360-6.X5000-9. ISBN 978-0-12-691360-6.

Внешние ссылки

На Викискладе есть медиафайлы по теме «Многомерная статистика» .

Статистические заметки: темы многомерного анализа, автор Г. Дэвид Гарсон
Майк Палмер: Веб-страница посвящения
InsightsNow: создатели ReportsNow, ProfilesNow и KnowledgeNow