В статистике и, в частности, в регрессионном анализе матрица дизайна , также известная как матрица модели или матрица регрессора и часто обозначаемая как X , представляет собой матрицу значений объясняющих переменных набора объектов. Каждая строка представляет отдельный объект, а последовательные столбцы соответствуют переменным и их конкретным значениям для этого объекта. Матрица дизайна используется в определенных статистических моделях , например, в общей линейной модели . [1] [2] [3] Она может содержать индикаторные переменные (единицы и нули), которые указывают на групповую принадлежность в ANOVA , или она может содержать значения непрерывных переменных .
Матрица дизайна содержит данные о независимых переменных (также называемых объясняющими переменными) в статистической модели, которая предназначена для объяснения наблюдаемых данных по переменной отклика (часто называемой зависимой переменной ). Теория, относящаяся к таким моделям, использует матрицу дизайна в качестве входных данных для некоторой линейной алгебры : см., например, линейную регрессию . Примечательной особенностью концепции матрицы дизайна является то, что она способна представлять ряд различных экспериментальных планов и статистических моделей, например, ANOVA , ANCOVA и линейную регрессию. [ необходима цитата ]
Матрица проектирования определяется как матрица, в которой ( j -й столбец i -й строки ) представляет значение j -й переменной, связанной с i -м объектом.
Регрессионную модель можно представить с помощью умножения матриц как
где X — матрица дизайна, — вектор коэффициентов модели (по одному для каждой переменной), — вектор случайных ошибок со средним значением, равным нулю, а y — вектор прогнозируемых выходных данных для каждого объекта.
Матрица дизайна имеет размерность n на p , где n — количество наблюдаемых образцов, а p — количество переменных ( признаков ), измеренных во всех образцах. [4] [5]
В этом представлении разные строки обычно представляют разные повторения эксперимента, а столбцы представляют разные типы данных (например, результаты конкретных зондов). Например, предположим, что проводится эксперимент, в котором 10 человек вытаскивают с улицы и задают 4 вопроса. Матрица данных M будет матрицей 10×4 (то есть 10 строк и 4 столбца). Данные в строке i и столбце j этой матрицы будут ответом i -го человека на j -й вопрос.
Матрица расчета среднего арифметического представляет собой вектор- столбец из единиц .
В этом разделе приведен пример простой линейной регрессии — то есть регрессии с единственной объясняющей переменной — с семью наблюдениями. Семь точек данных — это { y i , x i }, для i = 1, 2, …, 7. Простая линейная регрессионная модель — это
где - y -пересечение, а - наклон линии регрессии. Эту модель можно представить в матричной форме как
где первый столбец единиц в матрице дизайна позволяет оценить y -отрезок, в то время как второй столбец содержит x -значения, связанные с соответствующими y -значениями. Матрица, столбцы которой в этом примере являются 1 и x' , является матрицей дизайна.
В этом разделе приведен пример множественной регрессии с двумя ковариатами (объясняющими переменными): w и x . Снова предположим, что данные состоят из семи наблюдений, и что для каждого наблюдаемого значения, которое должно быть предсказано ( ), также наблюдаются значения w i и x i двух ковариатов. Рассматриваемая модель —
Эту модель можно записать в матричном виде как
Здесь матрица 7×3 справа — это матрица проектирования.
В этом разделе приведен пример однофакторного дисперсионного анализа ( ANOVA ) с тремя группами и семью наблюдениями. В данном наборе данных первые три наблюдения относятся к первой группе, следующие два наблюдения относятся ко второй группе, а последние два наблюдения относятся к третьей группе. Если подходящая модель — это просто среднее значение каждой группы, то модель
что можно написать
В этой модели представлено среднее значение группы.
Модель ANOVA можно было бы эквивалентно записать так, как если бы каждый параметр группы был смещением от некоторого общего эталона. Обычно эта точка отсчета принимается за одну из рассматриваемых групп. Это имеет смысл в контексте сравнения нескольких групп лечения с контрольной группой, и контрольная группа считается «эталоном». В этом примере группа 1 была выбрана в качестве эталонной группы. Таким образом, подходящая модель —
с ограничением, равным нулю.
В этой модели — это среднее значение референтной группы, а — разница между группами . не включена в матрицу, поскольку ее отличие от референтной группы (самой по себе) обязательно равно нулю.