Одновременное наблюдение и анализ более чем одной переменной результата
Многомерная статистика — это подраздел статистики, охватывающий одновременное наблюдение и анализ более чем одной выходной переменной , т. е. многомерных случайных величин . Многомерная статистика касается понимания различных целей и предыстории каждой из различных форм многомерного анализа и того, как они соотносятся друг с другом. Практическое применение многомерной статистики к конкретной проблеме может включать несколько типов одномерного и многомерного анализа для понимания взаимосвязей между переменными и их релевантности для изучаемой проблемы.
Кроме того, многомерная статистика занимается многомерными распределениями вероятностей с точки зрения как
- как их можно использовать для представления распределений наблюдаемых данных;
- как их можно использовать в качестве части статистического вывода , особенно когда для одного и того же анализа представляют интерес несколько различных величин.
Некоторые типы задач, включающих многомерные данные, например, простая линейная регрессия и множественная регрессия , обычно не считаются особыми случаями многомерной статистики, поскольку анализ выполняется путем рассмотрения (одномерного) условного распределения одной выходной переменной с учетом других переменных.
Многомерный анализ
Многомерный анализ ( MVA ) основан на принципах многомерной статистики. Обычно MVA используется для решения ситуаций, когда на каждой экспериментальной единице проводится несколько измерений, и важны связи между этими измерениями и их структурами. [1] Современная, перекрывающаяся категоризация MVA включает: [1]
- Нормальные и общие многомерные модели и теория распределения
- Изучение и измерение отношений
- Расчет вероятности многомерных областей
- Исследование структур данных и шаблонов
Многомерный анализ может быть осложнен желанием включить физический анализ для расчета эффектов переменных для иерархической «системы систем». Часто исследования, которые хотят использовать многомерный анализ, останавливаются из-за размерности проблемы. Эти опасения часто снимаются с помощью суррогатных моделей , высокоточных приближений физического кода. Поскольку суррогатные модели принимают форму уравнения, их можно оценить очень быстро. Это становится фактором, способствующим крупномасштабным исследованиям MVA: в то время как моделирование Монте-Карло в пространстве проектирования затруднено с физическими кодами, оно становится тривиальным при оценке суррогатных моделей, которые часто принимают форму уравнений поверхности отклика .
Виды анализа
В MVA используется множество различных моделей, каждая из которых имеет свой тип анализа:
- Многомерный дисперсионный анализ (MANOVA) расширяет дисперсионный анализ , охватывая случаи, когда необходимо одновременно анализировать более одной зависимой переменной; см. также Многомерный ковариационный анализ (MANCOVA).
- Многомерная регрессия пытается определить формулу, которая может описать, как элементы в векторе переменных одновременно реагируют на изменения в других. Для линейных отношений регрессионный анализ здесь основан на формах общей линейной модели . Некоторые предполагают, что многомерная регрессия отличается от многомерной регрессии, однако это является предметом споров и не всегда верно в разных научных областях. [2]
- Анализ главных компонент (PCA) создает новый набор ортогональных переменных, которые содержат ту же информацию, что и исходный набор. Он вращает оси вариации, чтобы получить новый набор ортогональных осей, упорядоченных так, что они суммируют уменьшающиеся пропорции вариации.
- Факторный анализ похож на PCA, но позволяет пользователю извлекать указанное количество синтетических переменных, меньше исходного набора, оставляя оставшуюся необъясненную вариацию как ошибку. Извлеченные переменные известны как скрытые переменные или факторы; каждая из них может предположительно учитывать ковариацию в группе наблюдаемых переменных.
- Канонический корреляционный анализ выявляет линейные связи между двумя наборами переменных; это обобщенная (т.е. каноническая) версия двумерной [3] корреляции.
- Анализ избыточности (RDA) похож на канонический корреляционный анализ, но позволяет пользователю вывести определенное количество синтетических переменных из одного набора (независимых) переменных, которые объясняют как можно больше дисперсии в другом (независимом) наборе. Это многомерный аналог регрессии . [ 4]
- Анализ соответствия (CA) или взаимное усреднение находит (подобно PCA) набор синтетических переменных, которые суммируют исходный набор. Базовая модель предполагает хи-квадрат различий между записями (случаями).
- Канонический (или "ограниченный") анализ соответствий (CCA) для суммирования совместной вариации в двух наборах переменных (как анализ избыточности); сочетание анализа соответствий и многомерного регрессионного анализа. Базовая модель предполагает хи-квадрат различий между записями (случаями).
- Многомерное масштабирование включает в себя различные алгоритмы для определения набора синтетических переменных, которые наилучшим образом представляют парные расстояния между записями. Исходный метод — анализ главных координат (PCoA; на основе PCA).
- Дискриминантный анализ , или канонический вариативный анализ, пытается установить, можно ли использовать набор переменных для различения двух или более групп случаев.
- Линейный дискриминантный анализ (ЛДА) вычисляет линейный предиктор из двух наборов нормально распределенных данных, что позволяет классифицировать новые наблюдения.
- Системы кластеризации распределяют объекты по группам (называемым кластерами) таким образом, чтобы объекты (случаи) из одного кластера были более похожи друг на друга, чем объекты из разных кластеров.
- Рекурсивное разбиение создает дерево решений, которое пытается правильно классифицировать членов популяции на основе дихотомической зависимой переменной.
- Искусственные нейронные сети расширяют методы регрессии и кластеризации до нелинейных многомерных моделей.
- Статистические графики, такие как туры, графики параллельных координат , матрицы диаграмм рассеяния, можно использовать для исследования многомерных данных.
- Модели одновременных уравнений включают в себя более одного уравнения регрессии с различными зависимыми переменными, оцениваемыми совместно.
- Векторная авторегрессия подразумевает одновременную регрессию различных переменных временного ряда на их собственные значения и на запаздывающие значения друг друга.
- Анализ основных кривых отклика (PRC) — это метод, основанный на RDA, который позволяет пользователю сосредоточиться на эффектах лечения с течением времени, корректируя изменения в контрольных обработках с течением времени. [5]
- Иконография корреляций заключается в замене корреляционной матрицы диаграммой, где «замечательные» корреляции представлены сплошной линией (положительная корреляция) или пунктирной линией (отрицательная корреляция).
Работа с неполными данными
Очень часто в экспериментально полученном наборе данных значения некоторых компонентов заданной точки данных отсутствуют . Вместо того, чтобы отбрасывать всю точку данных, обычно «заполняют» значениями отсутствующие компоненты, этот процесс называется « импутация ». [6]
Важные распределения вероятностей
Существует набор распределений вероятностей, используемых в многомерном анализе, которые играют аналогичную роль соответствующему набору распределений, используемых в одномерном анализе , когда нормальное распределение подходит для набора данных. Эти многомерные распределения:
Обратное распределение Уишарта важно в байесовском выводе , например, в байесовской многомерной линейной регрессии . Кроме того, распределение Хотеллинга T-квадрат является многомерным распределением, обобщающим t-распределение Стьюдента , которое используется в многомерной проверке гипотез .
История
Учебник Андерсона 1958 года «Введение в многомерный статистический анализ » [7] воспитал целое поколение теоретиков и прикладных статистиков; книга Андерсона делает акцент на проверке гипотез с помощью тестов отношения правдоподобия и свойств степенных функций : допустимости , беспристрастности и монотонности . [8] [9]
Ранее MVA обсуждался исключительно в контексте статистических теорий из-за размера и сложности базовых наборов данных и его высокого потребления вычислений. С резким ростом вычислительной мощности MVA теперь играет все более важную роль в анализе данных и широко применяется в областях Omics .
Приложения
Программное обеспечение и инструменты
Существует огромное количество программных пакетов и других инструментов для многомерного анализа, в том числе:
Смотрите также
Ссылки
- ^ ab Olkin, I.; Sampson, AR (2001-01-01), "Многомерный анализ: обзор", в Smelser, Neil J.; Baltes, Paul B. (ред.), Международная энциклопедия социальных и поведенческих наук , Pergamon, стр. 10240–10247, ISBN 9780080430768, получено 2019-09-02
- ^ Идальго, Б.; Гудман, М. (2013). «Многомерная или многомерная регрессия?». Am J Public Health . 103 (1): 39–40. doi :10.2105/AJPH.2012.300897. PMC 3518362. PMID 23153131 .
- ^ Неискушенные аналитики двумерных гауссовых задач могут найти полезным грубый, но точный метод точной оценки вероятности, просто взяв сумму S квадратов N остатков, вычтя сумму Sm как минимум, разделив эту разность на Sm , умножив результат на ( N - 2) и взяв обратный анти-ln половины этого произведения.
- ^ Ван Ден Волленберг, Арнольд Л. (1977). «Анализ избыточности как альтернатива каноническому корреляционному анализу». Психометрика . 42 (2): 207–219. doi :10.1007/BF02294050.
- ^ ter Braak, Cajo JF & Šmilauer, Petr (2012). Справочное руководство и руководство пользователя Canoco: программное обеспечение для рукоположения (версия 5.0) , стр. 292. Microcomputer Power, Итака, Нью-Йорк.
- ^ JL Schafer (1997). Анализ неполных многомерных данных . Chapman & Hall/CRC. ISBN 978-1-4398-2186-2.
- ^ TW Anderson (1958) Введение в многомерный анализ , Нью-Йорк: Wiley ISBN 0471026409 ; 2e (1984) ISBN 0471889873 ; 3e (2003) ISBN 0471360910
- ^ Сен, Пранаб Кумар ; Андерсон, TW; Арнольд, SF; Итон, ML; Гири, NC; Гнанадесикан, R.; Кендалл, MG; Кширсагар, AM; и др. (июнь 1986 г.). «Обзор: Современные учебники по многомерному статистическому анализу: панорамная оценка и критика». Журнал Американской статистической ассоциации . 81 (394): 560–564. doi :10.2307/2289251. ISSN 0162-1459. JSTOR 2289251.(Страницы 560–561)
- ^ Шервиш, Марк Дж. (ноябрь 1987 г.). «Обзор многомерного анализа». Статистическая наука . 2 (4): 396–413. doi : 10.1214/ss/1177013111 . ISSN 0883-4237. JSTOR 2245530.
- ^ CRAN содержит подробную информацию о пакетах, доступных для многомерного анализа данных.
Дальнейшее чтение
- Джонсон, Ричард А.; Вихерн, Дин В. (2007). Прикладной многомерный статистический анализ (шестое изд.). Prentice Hall. ISBN 978-0-13-187715-3.
- KV Mardia ; JT Kent; JM Bibby (1979). Многомерный анализ . Academic Press. ISBN 0-12-471252-5.
- А. Сен, М. Шривастава, Регрессионный анализ — теория, методы и приложения , Springer-Verlag, Берлин, 2011 (4-е издание).
- Кук, Суэйн (2007). Интерактивная графика для анализа данных.
- Малакути, Б. (2013). Операционные и производственные системы с множественными целями. John Wiley & Sons.
- TW Anderson, Введение в многомерный статистический анализ , Wiley, Нью-Йорк, 1958.
- KV Mardia; JT Kent & JM Bibby (1979). Многомерный анализ. Academic Press . ISBN 978-0124712522.(подход «вероятности» уровня MA)
- Файнстайн, А. Р. (1996) Многомерный анализ . Нью-Хейвен, Коннектикут: Издательство Йельского университета.
- Хэйр, Дж. Ф. Мл. (1995) Многомерный анализ данных с показаниями , 4-е изд. Prentice-Hall.
- Шафер, Дж. Л. (1997) Анализ неполных многомерных данных . CRC Press. (Расширенный)
- Шарма, С. (1996) Прикладные многомерные методы . Wiley. (Неформальные, прикладные)
- Айзенман, Алан Дж. (2008). Современные многомерные статистические методы: регрессия, классификация и многообразное обучение. Springer Texts in Statistics. Нью-Йорк: Springer-Verlag. ISBN 9780387781884 .
- Тинсли, Говард EA; Браун, Стивен Д., ред. (2000). Справочник по прикладной многомерной статистике и математическому моделированию . Academic Press. doi :10.1016/B978-0-12-691360-6.X5000-9. ISBN 978-0-12-691360-6.
Внешние ссылки
На Викискладе есть медиафайлы по теме «Многомерная статистика» .
- Статистические заметки: темы многомерного анализа, автор Г. Дэвид Гарсон
- Майк Палмер: Веб-страница посвящения
- InsightsNow: создатели ReportsNow, ProfilesNow и KnowledgeNow