Многомерная статистика

Многомерная статистика — это подраздел статистики , включающий одновременное наблюдение и анализ более чем одной конечной переменной , то есть многомерных случайных величин . Многомерная статистика касается понимания различных целей и предпосылок каждой из различных форм многомерного анализа, а также того, как они связаны друг с другом. Практическое применение многомерной статистики к конкретной проблеме может включать несколько типов одномерного и многомерного анализа, чтобы понять взаимосвязи между переменными и их значимость для изучаемой проблемы.

Кроме того, многомерная статистика занимается многомерными распределениями вероятностей с точки зрения как

как их можно использовать для представления распределения наблюдаемых данных;
как их можно использовать как часть статистического вывода , особенно если для одного и того же анализа представляют интерес несколько разных величин.

Определенные типы проблем, включающие многомерные данные, например простая линейная регрессия и множественная регрессия , обычно не считаются особыми случаями многомерной статистики, поскольку анализ проводится с учетом (одномерного) условного распределения одной выходной переменной с учетом другой. переменные.

Многомерный анализ

Многомерный анализ ( MVA ) основан на принципах многомерной статистики. Обычно MVA используется в ситуациях, когда на каждой экспериментальной установке проводится несколько измерений и важны взаимосвязи между этими измерениями и их структурами. ^[1] Современная перекрывающаяся классификация MVA включает: ^[1]

Нормальные и общие многомерные модели и теория распределения
Исследование и измерение отношений
Вероятностные вычисления многомерных регионов
Исследование структур и шаблонов данных.

Многомерный анализ может быть осложнен желанием включить физический анализ для расчета влияния переменных на иерархическую «систему систем». Часто исследования, в которых предполагается использовать многомерный анализ, останавливаются из-за размерности проблемы. Эти проблемы часто решаются за счет использования суррогатных моделей , высокоточных аппроксимаций кода, основанного на физике. Поскольку суррогатные модели имеют форму уравнения, их можно оценить очень быстро. Это становится основой для крупномасштабных исследований MVA: хотя моделирование методом Монте-Карло в пространстве проектирования затруднено с помощью программ, основанных на физике, оно становится тривиальным при оценке суррогатных моделей, которые часто принимают форму уравнений поверхности отклика .

Виды анализа

В MVA используется множество различных моделей, каждая из которых имеет свой тип анализа:

Многомерный дисперсионный анализ (MANOVA) расширяет дисперсионный анализ, охватывая случаи, когда одновременно анализируется более одной зависимой переменной; см. также Многомерный ковариационный анализ (MANCOVA).
Многомерная регрессия пытается определить формулу, которая может описать, как элементы вектора переменных одновременно реагируют на изменения других. Для линейных отношений регрессионный анализ здесь основан на формах общей линейной модели . Некоторые предполагают, что многомерная регрессия отличается от многомерной регрессии, однако это обсуждается и не всегда верно во всех научных областях. ^[2]
Анализ главных компонентов (PCA) создает новый набор ортогональных переменных, которые содержат ту же информацию, что и исходный набор. Он вращает оси вариации, чтобы получить новый набор ортогональных осей, упорядоченных так, что они суммируют уменьшающиеся пропорции вариации.
Факторный анализ аналогичен PCA, но позволяет пользователю извлечь определенное количество синтетических переменных, меньшее, чем исходный набор, оставляя оставшуюся необъяснимую вариацию как ошибку. Извлеченные переменные известны как скрытые переменные или факторы; Можно предположить, что каждый из них объясняет ковариацию в группе наблюдаемых переменных.
Канонический корреляционный анализ находит линейные связи между двумя наборами переменных; это обобщенная (т.е. каноническая) версия двумерной ^[3] корреляции.
Анализ избыточности (RDA) аналогичен каноническому корреляционному анализу, но позволяет пользователю получить определенное количество синтетических переменных из одного набора (независимых) переменных, которые объясняют как можно большую дисперсию в другом (независимом) наборе. Это многомерный аналог регрессии . ^[4]
Анализ соответствия (CA) или взаимное усреднение находит (например, PCA) набор синтетических переменных, которые суммируют исходный набор. Базовая модель предполагает наличие различий между записями (случаями) по критерию хи-квадрат.
Канонический (или «ограниченный») анализ соответствия (CCA) для суммирования совместных изменений двух наборов переменных (например, анализ избыточности); сочетание анализа соответствий и многомерного регрессионного анализа. Базовая модель предполагает наличие различий между записями (случаями) по критерию хи-квадрат.
Многомерное масштабирование включает в себя различные алгоритмы для определения набора синтетических переменных, которые лучше всего представляют попарные расстояния между записями. Оригинальный метод — анализ главных координат (PCoA; на основе PCA).
Дискриминантный анализ , или анализ канонических переменных, пытается установить, можно ли использовать набор переменных для различения двух или более групп случаев.
Линейный дискриминантный анализ (LDA) вычисляет линейный предиктор на основе двух наборов нормально распределенных данных, чтобы обеспечить классификацию новых наблюдений.
Системы кластеризации объединяют объекты в группы (называемые кластерами), чтобы объекты (кейсы) из одного кластера были более похожи друг на друга, чем объекты из разных кластеров.
Рекурсивное разделение создает дерево решений, которое пытается правильно классифицировать членов совокупности на основе дихотомической зависимой переменной.
Искусственные нейронные сети расширяют методы регрессии и кластеризации на нелинейные многомерные модели.
Статистическая графика, такая как туры, графики с параллельными координатами и матрицы рассеяния, может использоваться для исследования многомерных данных.
Модели одновременных уравнений включают более одного уравнения регрессии с различными зависимыми переменными, оцениваемыми вместе.
Векторная авторегрессия включает одновременную регрессию различных переменных временных рядов как по отдельности, так и по запаздывающим значениям друг друга.
Анализ кривых основного ответа (PRC) — это метод, основанный на RDA, который позволяет пользователю сосредоточиться на эффектах лечения с течением времени, корректируя изменения в контрольных обработках с течением времени. ^[5]
Иконография корреляций заключается в замене корреляционной матрицы диаграммой, на которой «замечательные» корреляции представлены сплошной линией (положительная корреляция) или пунктирной линией (отрицательная корреляция).

Работа с неполными данными

Очень часто в экспериментально полученном наборе данных отсутствуют значения некоторых компонентов данной точки данных . Вместо того, чтобы отбрасывать всю точку данных, обычно «заполняют» значения недостающих компонентов - процесс, называемый « вменением ». ^[6]

Важные распределения вероятностей

Существует набор вероятностных распределений, используемых в многомерном анализе, которые играют аналогичную роль соответствующему набору распределений, которые используются в одномерном анализе , когда нормальное распределение соответствует набору данных. Эти многомерные распределения:

Обратное распределение-Уишарта важно для байесовского вывода , например, для байесовской многомерной линейной регрессии . Кроме того, Т-квадрат распределения Хотеллинга — это многомерное распределение, обобщающее Т-распределение Стьюдента , которое используется при проверке многомерных гипотез .

История

Учебник Андерсона 1958 года «Введение в многомерный статистический анализ» [ ^7] воспитал поколение теоретиков и прикладных статистиков; В книге Андерсона особое внимание уделяется проверке гипотез с помощью тестов отношения правдоподобия и свойств степенных функций : допустимости , несмещенности и монотонности . ^[8]^[9]

Раньше MVA обсуждался исключительно в контексте статистических теорий из-за размера и сложности базовых наборов данных и высоких вычислительных затрат. С резким ростом вычислительной мощности MVA теперь играет все более важную роль в анализе данных и широко применяется в области омики .

Приложения

Многомерная проверка гипотез
Уменьшение размерности
Открытие скрытой структуры
Кластеризация
Многомерный регрессионный анализ
Классификация и дискриминационный анализ
Выбор переменной
Многомерный анализ
Многомерное масштабирование
Сбор данных

Программное обеспечение и инструменты

Существует огромное количество программных пакетов и других инструментов для многомерного анализа, в том числе:

JMP (статистическое программное обеспечение)
МиниВкладка
Кальк
ПСПП
Р ^[10]
САС (программное обеспечение)
SciPy для Python
СПСС
Стата
СТАТИСТИКА
Расшифровщик
WarpPLS
СмартПЛС
МАТЛАБ
Отзывы
NCSS (статистическое программное обеспечение) включает многомерный анализ.
Unscrambler® X — это инструмент многомерного анализа.
СИМКА
DataPandit (бесплатные приложения SaaS от Let's Excel Analytics Solutions)

Смотрите также

дальнейшее чтение

Джонсон, Ричард А.; Вичерн, Дин В. (2007). Прикладной многомерный статистический анализ (Шестое изд.). Прентис Холл. ISBN 978-0-13-187715-3.
КВ Мардия ; Дж. Т. Кент; Дж. М. Бибби (1979). Многомерный анализ . Академическая пресса. ISBN 0-12-471252-5.
А. Сен, М. Шривастава, Регрессионный анализ — теория, методы и приложения , Springer-Verlag, Берлин, 2011 (4-е издание).
Кук, Суэйн (2007). Интерактивная графика для анализа данных.
Малакути, Б. (2013). Операции и производственные системы с множеством целей. Джон Уайли и сыновья.
Т.В. Андерсон, Введение в многомерный статистический анализ , Уайли, Нью-Йорк, 1958.
КВ Мардия; Дж. Т. Кент и Дж. М. Бибби (1979). Многомерный анализ. Академическая пресса . ISBN 978-0124712522.(подход «вероятностного» уровня MA)
Файнштейн, А.Р. (1996) Многомерный анализ . Нью-Хейвен, Коннектикут: Издательство Йельского университета.
Волосы, Дж. Ф. младший (1995) Многомерный анализ данных с показаниями , 4-е изд. Прентис-Холл.
Шафер, Дж. Л. (1997) Анализ неполных многомерных данных . ЦРК Пресс. (Передовой)
Шарма, С. (1996) Прикладные многомерные методы . Уайли. (Неофициальный, прикладной)
Изенман, Алан Дж. (2008). Современные многомерные статистические методы: регрессия, классификация и многомерное обучение. Тексты Спрингера в статистике. Нью-Йорк: Springer-Verlag. ISBN 9780387781884 .
Тинсли, Ховард Э.А.; Браун, Стивен Д., ред. (2000). Справочник по прикладной многомерной статистике и математическому моделированию . Академическая пресса. doi : 10.1016/B978-0-12-691360-6.X5000-9. ISBN 978-0-12-691360-6.

Внешние ссылки

Викискладе есть медиафайлы по теме многомерной статистики .

Статистические заметки: темы многомерного анализа, Дж. Дэвид Гарсон
Майк Палмер: Веб-страница посвящения
InsightsNow: создатели ReportsNow, ProfilesNow и KnowledgeNow