Одновременное наблюдение и анализ более чем одной переменной результата.
Многомерная статистика — это подраздел статистики , включающий одновременное наблюдение и анализ более чем одной конечной переменной , то есть многомерных случайных величин . Многомерная статистика касается понимания различных целей и предпосылок каждой из различных форм многомерного анализа, а также того, как они связаны друг с другом. Практическое применение многомерной статистики к конкретной проблеме может включать несколько типов одномерного и многомерного анализа, чтобы понять взаимосвязи между переменными и их значимость для изучаемой проблемы.
Кроме того, многомерная статистика занимается многомерными распределениями вероятностей с точки зрения как
- как их можно использовать для представления распределения наблюдаемых данных;
- как их можно использовать как часть статистического вывода , особенно если для одного и того же анализа представляют интерес несколько разных величин.
Определенные типы проблем, включающие многомерные данные, например простая линейная регрессия и множественная регрессия , обычно не считаются особыми случаями многомерной статистики, поскольку анализ проводится с учетом (одномерного) условного распределения одной выходной переменной с учетом другой. переменные.
Многомерный анализ
Многомерный анализ ( MVA ) основан на принципах многомерной статистики. Обычно MVA используется в ситуациях, когда на каждой экспериментальной установке проводится несколько измерений и важны взаимосвязи между этими измерениями и их структурами. [1] Современная перекрывающаяся классификация MVA включает: [1]
- Нормальные и общие многомерные модели и теория распределения
- Исследование и измерение отношений
- Вероятностные вычисления многомерных регионов
- Исследование структур и шаблонов данных.
Многомерный анализ может быть осложнен желанием включить физический анализ для расчета влияния переменных на иерархическую «систему систем». Часто исследования, в которых предполагается использовать многомерный анализ, останавливаются из-за размерности проблемы. Эти проблемы часто решаются за счет использования суррогатных моделей , высокоточных аппроксимаций кода, основанного на физике. Поскольку суррогатные модели имеют форму уравнения, их можно оценить очень быстро. Это становится основой для крупномасштабных исследований MVA: хотя моделирование методом Монте-Карло в пространстве проектирования затруднено с помощью программ, основанных на физике, оно становится тривиальным при оценке суррогатных моделей, которые часто принимают форму уравнений поверхности отклика .
Виды анализа
В MVA используется множество различных моделей, каждая из которых имеет свой тип анализа:
- Многомерный дисперсионный анализ (MANOVA) расширяет дисперсионный анализ, охватывая случаи, когда одновременно анализируется более одной зависимой переменной; см. также Многомерный ковариационный анализ (MANCOVA).
- Многомерная регрессия пытается определить формулу, которая может описать, как элементы вектора переменных одновременно реагируют на изменения других. Для линейных отношений регрессионный анализ здесь основан на формах общей линейной модели . Некоторые предполагают, что многомерная регрессия отличается от многомерной регрессии, однако это обсуждается и не всегда верно во всех научных областях. [2]
- Анализ главных компонентов (PCA) создает новый набор ортогональных переменных, которые содержат ту же информацию, что и исходный набор. Он вращает оси вариации, чтобы получить новый набор ортогональных осей, упорядоченных так, что они суммируют уменьшающиеся пропорции вариации.
- Факторный анализ аналогичен PCA, но позволяет пользователю извлечь определенное количество синтетических переменных, меньшее, чем исходный набор, оставляя оставшуюся необъяснимую вариацию как ошибку. Извлеченные переменные известны как скрытые переменные или факторы; Можно предположить, что каждый из них объясняет ковариацию в группе наблюдаемых переменных.
- Канонический корреляционный анализ находит линейные связи между двумя наборами переменных; это обобщенная (т.е. каноническая) версия двумерной [3] корреляции.
- Анализ избыточности (RDA) аналогичен каноническому корреляционному анализу, но позволяет пользователю получить определенное количество синтетических переменных из одного набора (независимых) переменных, которые объясняют как можно большую дисперсию в другом (независимом) наборе. Это многомерный аналог регрессии . [4]
- Анализ соответствия (CA) или взаимное усреднение находит (например, PCA) набор синтетических переменных, которые суммируют исходный набор. Базовая модель предполагает наличие различий между записями (случаями) по критерию хи-квадрат.
- Канонический (или «ограниченный») анализ соответствия (CCA) для суммирования совместных изменений двух наборов переменных (например, анализ избыточности); сочетание анализа соответствий и многомерного регрессионного анализа. Базовая модель предполагает наличие различий между записями (случаями) по критерию хи-квадрат.
- Многомерное масштабирование включает в себя различные алгоритмы для определения набора синтетических переменных, которые лучше всего представляют попарные расстояния между записями. Оригинальный метод — анализ главных координат (PCoA; на основе PCA).
- Дискриминантный анализ , или анализ канонических переменных, пытается установить, можно ли использовать набор переменных для различения двух или более групп случаев.
- Линейный дискриминантный анализ (LDA) вычисляет линейный предиктор на основе двух наборов нормально распределенных данных, чтобы обеспечить классификацию новых наблюдений.
- Системы кластеризации объединяют объекты в группы (называемые кластерами), чтобы объекты (кейсы) из одного кластера были более похожи друг на друга, чем объекты из разных кластеров.
- Рекурсивное разделение создает дерево решений, которое пытается правильно классифицировать членов совокупности на основе дихотомической зависимой переменной.
- Искусственные нейронные сети расширяют методы регрессии и кластеризации на нелинейные многомерные модели.
- Статистическая графика, такая как туры, графики с параллельными координатами и матрицы рассеяния, может использоваться для исследования многомерных данных.
- Модели одновременных уравнений включают более одного уравнения регрессии с различными зависимыми переменными, оцениваемыми вместе.
- Векторная авторегрессия включает одновременную регрессию различных переменных временных рядов как по отдельности, так и по запаздывающим значениям друг друга.
- Анализ кривых основного ответа (PRC) — это метод, основанный на RDA, который позволяет пользователю сосредоточиться на эффектах лечения с течением времени, корректируя изменения в контрольных обработках с течением времени. [5]
- Иконография корреляций заключается в замене корреляционной матрицы диаграммой, на которой «замечательные» корреляции представлены сплошной линией (положительная корреляция) или пунктирной линией (отрицательная корреляция).
Работа с неполными данными
Очень часто в экспериментально полученном наборе данных отсутствуют значения некоторых компонентов данной точки данных . Вместо того, чтобы отбрасывать всю точку данных, обычно «заполняют» значения недостающих компонентов - процесс, называемый « вменением ». [6]
Важные распределения вероятностей
Существует набор вероятностных распределений, используемых в многомерном анализе, которые играют аналогичную роль соответствующему набору распределений, которые используются в одномерном анализе , когда нормальное распределение соответствует набору данных. Эти многомерные распределения:
Обратное распределение-Уишарта важно для байесовского вывода , например, для байесовской многомерной линейной регрессии . Кроме того, Т-квадрат распределения Хотеллинга — это многомерное распределение, обобщающее Т-распределение Стьюдента , которое используется при проверке многомерных гипотез .
История
Учебник Андерсона 1958 года «Введение в многомерный статистический анализ» [ 7] воспитал поколение теоретиков и прикладных статистиков; В книге Андерсона особое внимание уделяется проверке гипотез с помощью тестов отношения правдоподобия и свойств степенных функций : допустимости , несмещенности и монотонности . [8] [9]
Раньше MVA обсуждался исключительно в контексте статистических теорий из-за размера и сложности базовых наборов данных и высоких вычислительных затрат. С резким ростом вычислительной мощности MVA теперь играет все более важную роль в анализе данных и широко применяется в области омики .
Приложения
Программное обеспечение и инструменты
Существует огромное количество программных пакетов и других инструментов для многомерного анализа, в том числе:
Смотрите также
Рекомендации
- ^ аб Олкин, И.; Сэмпсон, А.Р. (01 января 2001 г.), «Многомерный анализ: обзор», в Смелзере, Ниле Дж.; Балтес, Пол Б. (ред.), Международная энциклопедия социальных и поведенческих наук , Пергамон, стр. 10240–10247, ISBN 9780080430768, получено 2 сентября 2019 г.
- ^ Идальго, Б; Гудман, М. (2013). «Многомерная или многомерная регрессия?». Am J Общественное здравоохранение . 103 (1): 39–40. дои : 10.2105/AJPH.2012.300897. ПМЦ 3518362 . ПМИД 23153131.
- ^ Неискушенные аналитики двумерных гауссовских задач могут найти полезным грубый, но точный метод точного измерения вероятности, просто взяв сумму S квадратов N остатков, вычитая как минимум сумму Sm , разделив эту разницу на Sm и умножив результат на ( N - 2) и взяв обратное анти-ln половины этого произведения.
- ^ Ван Ден Волленберг, Арнольд Л. (1977). «Анализ избыточности как альтернатива каноническому корреляционному анализу». Психометрика . 42 (2): 207–219. дои : 10.1007/BF02294050.
- ^ тер Браак, Кайо Дж. Ф. и Шмилауэр, Петр (2012). Справочное руководство и руководство пользователя Canoco: программное обеспечение для рукоположения (версия 5.0) , стр. 292. Microcomputer Power, Итака, Нью-Йорк.
- ^ Дж. Л. Шафер (1997). Анализ неполных многомерных данных . Чепмен и Холл/CRC. ISBN 978-1-4398-2186-2.
- ^ Т.В. Андерсон (1958) Введение в многомерный анализ , Нью-Йорк: Wiley ISBN 0471026409 ; 2e (1984) ISBN 0471889873 ; 3e (2003) ISBN 0471360910
- ^ Сен, Пранаб Кумар ; Андерсон, ТВ; Арнольд, Сан-Франциско; Итон, ML; Гири, Северная Каролина; Гнанадэсикан, Р.; Кендалл, Миннесота; Кширсагар, AM; и другие. (июнь 1986 г.). «Обзор: Современные учебники по многомерному статистическому анализу: панорамная оценка и критика». Журнал Американской статистической ассоциации . 81 (394): 560–564. дои : 10.2307/2289251. ISSN 0162-1459. JSTOR 2289251.(страницы 560–561)
- ^ Шервиш, Марк Дж. (ноябрь 1987 г.). «Обзор многомерного анализа». Статистическая наука . 2 (4): 396–413. дои : 10.1214/ss/1177013111 . ISSN 0883-4237. JSTOR 2245530.
- ^ CRAN содержит подробную информацию о пакетах, доступных для многомерного анализа данных.
дальнейшее чтение
- Джонсон, Ричард А.; Вичерн, Дин В. (2007). Прикладной многомерный статистический анализ (Шестое изд.). Прентис Холл. ISBN 978-0-13-187715-3.
- КВ Мардия ; Дж. Т. Кент; Дж. М. Бибби (1979). Многомерный анализ . Академическая пресса. ISBN 0-12-471252-5.
- А. Сен, М. Шривастава, Регрессионный анализ — теория, методы и приложения , Springer-Verlag, Берлин, 2011 (4-е издание).
- Кук, Суэйн (2007). Интерактивная графика для анализа данных.
- Малакути, Б. (2013). Операции и производственные системы с множеством целей. Джон Уайли и сыновья.
- Т.В. Андерсон, Введение в многомерный статистический анализ , Уайли, Нью-Йорк, 1958.
- КВ Мардия; Дж. Т. Кент и Дж. М. Бибби (1979). Многомерный анализ. Академическая пресса . ISBN 978-0124712522.(подход «вероятностного» уровня MA)
- Файнштейн, А.Р. (1996) Многомерный анализ . Нью-Хейвен, Коннектикут: Издательство Йельского университета.
- Волосы, Дж. Ф. младший (1995) Многомерный анализ данных с показаниями , 4-е изд. Прентис-Холл.
- Шафер, Дж. Л. (1997) Анализ неполных многомерных данных . ЦРК Пресс. (Передовой)
- Шарма, С. (1996) Прикладные многомерные методы . Уайли. (Неофициальный, прикладной)
- Изенман, Алан Дж. (2008). Современные многомерные статистические методы: регрессия, классификация и многомерное обучение. Тексты Спрингера в статистике. Нью-Йорк: Springer-Verlag. ISBN 9780387781884 .
- Тинсли, Ховард Э.А.; Браун, Стивен Д., ред. (2000). Справочник по прикладной многомерной статистике и математическому моделированию . Академическая пресса. doi : 10.1016/B978-0-12-691360-6.X5000-9. ISBN 978-0-12-691360-6.
Внешние ссылки
Викискладе есть медиафайлы по теме многомерной статистики .
- Статистические заметки: темы многомерного анализа, Дж. Дэвид Гарсон
- Майк Палмер: Веб-страница посвящения
- InsightsNow: создатели ReportsNow, ProfilesNow и KnowledgeNow