Матрица дизайна

В статистике и, в частности, в регрессионном анализе матрица дизайна , также известная как матрица модели или матрица регрессора и часто обозначаемая как X , представляет собой матрицу значений объясняющих переменных набора объектов. Каждая строка представляет отдельный объект, а последовательные столбцы соответствуют переменным и их конкретным значениям для этого объекта. Матрица дизайна используется в определенных статистических моделях , например, в общей линейной модели . ^[1]^[2]^[3] Она может содержать индикаторные переменные (единицы и нули), которые указывают на групповую принадлежность в ANOVA , или она может содержать значения непрерывных переменных .

Матрица дизайна содержит данные о независимых переменных (также называемых объясняющими переменными) в статистической модели, которая предназначена для объяснения наблюдаемых данных по переменной отклика (часто называемой зависимой переменной ). Теория, относящаяся к таким моделям, использует матрицу дизайна в качестве входных данных для некоторой линейной алгебры : см., например, линейную регрессию . Примечательной особенностью концепции матрицы дизайна является то, что она способна представлять ряд различных экспериментальных планов и статистических моделей, например, ANOVA , ANCOVA и линейную регрессию. ^{[ необходима цитата ]}

Определение

Матрица проектирования определяется как матрица, в которой ( j ^-й столбец i ^-й строки ) представляет значение j ^-й переменной, связанной с i ^-м объектом. $X$ $X_{ij}$ $X$

Регрессионную модель можно представить с помощью умножения матриц как

y=X\бета +e,

где X — матрица дизайна, — вектор коэффициентов модели (по одному для каждой переменной), — вектор случайных ошибок со средним значением, равным нулю, а y — вектор прогнозируемых выходных данных для каждого объекта. $\бета$ $е$

Размер

Матрица дизайна имеет размерность n на p , где n — количество наблюдаемых образцов, а p — количество переменных ( признаков ), измеренных во всех образцах. ^[4]^[5]

В этом представлении разные строки обычно представляют разные повторения эксперимента, а столбцы представляют разные типы данных (например, результаты конкретных зондов). Например, предположим, что проводится эксперимент, в котором 10 человек вытаскивают с улицы и задают 4 вопроса. Матрица данных M будет матрицей 10×4 (то есть 10 строк и 4 столбца). Данные в строке i и столбце j этой матрицы будут ответом i ^-го человека на j ^-й вопрос.

Примеры

Среднее арифметическое

Матрица расчета среднего арифметического представляет собой вектор- столбец из единиц .

Простая линейная регрессия

В этом разделе приведен пример простой линейной регрессии — то есть регрессии с единственной объясняющей переменной — с семью наблюдениями. Семь точек данных — это { y _i , x _i }, для i = 1, 2, …, 7. Простая линейная регрессионная модель — это

y_{i}=\beta _{0}+\beta _{1}x_{i}+\varepsilon _{i},\,

где - y -пересечение, а - наклон линии регрессии. Эту модель можно представить в матричной форме как $\бета _{0}$ $\бета _{1}$

{\begin{bmatrix}y_{1}\\y_{2}\\y_{3}\\y_{4}\\y_{5}\\y_{6}\\y_{7}\end{bmatrix}}={\begin{bmatrix}1&x_{1}\\1&x_{2}\\1&x_{3}\\1&x_{4}\\1&x_{5}\\1&x_{6}\\1&x_{7}\end{bmatrix}}{\begin{bmatrix}\beta _{0}\\\beta _{1}\end{bmatrix}}+{\begin{bmatrix}\varepsilon _{1}\\\varepsilon _{2}\\\varepsilon _{3}\\\varepsilon _{4}\\\varepsilon _{5}\\\varepsilon _{6}\\\varepsilon _{7}\end{bmatrix}}

где первый столбец единиц в матрице дизайна позволяет оценить y -отрезок, в то время как второй столбец содержит x -значения, связанные с соответствующими y -значениями. Матрица, столбцы которой в этом примере являются 1 и x' , является матрицей дизайна.

Множественная регрессия

В этом разделе приведен пример множественной регрессии с двумя ковариатами (объясняющими переменными): w и x . Снова предположим, что данные состоят из семи наблюдений, и что для каждого наблюдаемого значения, которое должно быть предсказано ( ), также наблюдаются значения w _i и x _i двух ковариатов. Рассматриваемая модель — $y_{i}$

y_{i}=\beta _{0}+\beta _{1}w_{i}+\beta _{2}x_{i}+\varepsilon _{i}

Эту модель можно записать в матричном виде как

{\begin{bmatrix}y_{1}\\y_{2}\\y_{3}\\y_{4}\\y_{5}\\y_{6}\\y_{7}\end{bmatrix }}={\begin{bmatrix}1&w_{1}&x_{1}\\1&w_{2} &x_{2}\\1&w_{3}&x_{3}\\1&w_{4}&x_{4}\\1&w_{5}&x_{5}\\1&w_{6}&x_{6}\\1&w_{7} &x_{7}\end{bmatrix}}{\begin{bmatrix}\beta _{0}\\\бета _{1}\\\бета _{2}\end{bmatrix}}+{\begin{bmatrix}\varepsilon _{1}\\\varepsilon _{2}\\\varepsilon _{3}\\\varepsilon _{4}\\\ варепсилон _{5}\\\варепсилон _{6}\\\варепсилон _{7}\end{bmatrix}}

Здесь матрица 7×3 справа — это матрица проектирования.

Однофакторный дисперсионный анализ (модель средних ячеек)

В этом разделе приведен пример однофакторного дисперсионного анализа ( ANOVA ) с тремя группами и семью наблюдениями. В данном наборе данных первые три наблюдения относятся к первой группе, следующие два наблюдения относятся ко второй группе, а последние два наблюдения относятся к третьей группе. Если подходящая модель — это просто среднее значение каждой группы, то модель

y_{ij}=\mu _{i}+\varepsilon _{ij}

что можно написать

{\begin{bmatrix}y_{1}\\y_{2}\\y_{3}\\y_{4}\\y_{5}\\y_{6}\\y_{7}\end{bmatrix }}={\begin{b матрица}1&0&0\\1&0&0\\1&0&0\\0&1&0\\0&1&0\\0&0&1\\0&0&1\end{bmatrix}}{\begin{bmatrix}\mu _{1}\\\mu _{2}\\\mu _{3}\end{bmatrix}}+{\begin{bmatrix}\varepsilon _{1}\\\varepsilon _{2}\\\ варепсилон _{3}\\\варепсилон _{4}\\\варепсилон _{5}\\\varepsilon _{6}\\\varepsilon _{7}\end{bmatrix}}

В этой модели представлено среднее значение группы. $\mu _{i}$ $я$

Однофакторный дисперсионный анализ (смещение относительно референтной группы)

Модель ANOVA можно было бы эквивалентно записать так, как если бы каждый параметр группы был смещением от некоторого общего эталона. Обычно эта точка отсчета принимается за одну из рассматриваемых групп. Это имеет смысл в контексте сравнения нескольких групп лечения с контрольной группой, и контрольная группа считается «эталоном». В этом примере группа 1 была выбрана в качестве эталонной группы. Таким образом, подходящая модель — $\тау _{я}$

y_{ij} =\mu +\tau _{i}+\varepsilon _{ij}

с ограничением, равным нулю. $\тау _{1}$

{\begin{bmatrix}y_{1}\\y_{2}\\y_{3}\\y_{4}\\y_{5}\\y_{6}\\y_{7}\end{bmatrix}}={\begin{bmatrix}1&0&0\\1&0&0\\1&0&0\\1&1&0\\1&1&0\\1&0&1\\1&0&1\end{bmatrix}}{\begin{bmatrix}\mu \\\tau _{2}\\\tau _{3}\end{bmatrix}}+{\begin{bmatrix}\varepsilon _{1}\\\varepsilon _{2}\\\varepsilon _{3}\\\varepsilon _{4}\\\varepsilon _{5}\\\varepsilon _{6}\\\varepsilon _{7}\end{bmatrix}}

В этой модели — это среднее значение референтной группы, а — разница между группами . не включена в матрицу, поскольку ее отличие от референтной группы (самой по себе) обязательно равно нулю. $\mu$ $\tau _{i}$ $i$ $\tau _{1}$

Смотрите также

Ссылки

^ Эверитт, Б.С. (2002). Кембриджский словарь статистики (2-е изд.). Кембридж, Великобритания: Cambridge University Press. ISBN 0-521-81099-X.
^ Бокс, GEP ; Тиао, GC (1992) [1973]. Байесовский вывод в статистическом анализе . Нью-Йорк: John Wiley and Sons. ISBN 0-471-57428-7.(Раздел 8.1.1)
^ Тимм, Нил Х. (2007). Прикладной многомерный анализ. Springer Science & Business Media. стр. 107. ISBN 9780387227719.
^ Джонсон, Ричард А.; Вихерн, Дин В. (2001). Прикладной многомерный статистический анализ . Пирсон. стр. 111–112. ISBN 0131877151.
^ "Основные концепции многомерной статистики, стр. 2" (PDF) . Институт SAS.

Дальнейшее чтение

Verbeek, Albert (1984). «Геометрия выбора модели в регрессии». В Dijkstra, Theo K. (ред.). Анализ неправильной спецификации . Нью-Йорк: Springer. стр. 20–36. ISBN 0-387-13893-5.