Двумерный анализ — одна из простейших форм количественного (статистического) анализа . [1] Он включает в себя анализ двух переменных (часто обозначаемых как X , Y ) с целью определения эмпирической связи между ними. [1]
Двумерный анализ может быть полезен при проверке простых гипотез связи . Двумерный анализ может помочь определить, насколько легче узнать и спрогнозировать значение одной переменной (возможно, зависимой переменной ), если мы знаем значение другой переменной (возможно, независимой переменной ) (см. также корреляцию и простую линейную регрессию ). . [2]
Двумерный анализ можно противопоставить одномерному анализу , при котором анализируется только одна переменная. [1] Как и одномерный анализ, двумерный анализ может быть описательным или логическим . Это анализ взаимосвязи между двумя переменными. [1] Двумерный анализ — это простой (с двумя переменными) частный случай многомерного анализа (когда множественные отношения между несколькими переменными исследуются одновременно). [1]
Регрессия — это статистический метод, используемый для исследования того, как изменение одной или нескольких переменных предсказывает или объясняет изменение другой переменной. Двумерная регрессия направлена на определение уравнения, представляющего оптимальную линию, которая определяет взаимосвязь между двумя переменными на основе определенного набора данных. Это уравнение впоследствии применяется для прогнозирования значений зависимой переменной, отсутствующей в исходном наборе данных. С помощью регрессионного анализа можно вывести уравнение кривой или прямой линии и получить коэффициент корреляции.
Простая линейная регрессия — это статистический метод, используемый для моделирования линейной зависимости между независимой переменной и зависимой переменной. Он предполагает линейную связь между переменными и чувствителен к выбросам. Наиболее подходящее линейное уравнение часто представляется в виде прямой линии, чтобы минимизировать разницу между прогнозируемыми значениями уравнения и фактическими наблюдаемыми значениями зависимой переменной.
Уравнение:
: независимая переменная (предиктор)
: зависимая переменная (результат)
: наклон линии
: -перехват
Линия регрессии по методу наименьших квадратов — это метод простой линейной регрессии для моделирования линейной зависимости между двумя переменными, который служит инструментом для прогнозирования на основе новых значений независимой переменной. Расчет основан на методе критерия наименьших квадратов . Цель состоит в том, чтобы минимизировать сумму квадратов вертикальных расстояний (остатков) между наблюдаемыми значениями y и соответствующими прогнозируемыми значениями y для каждой точки данных.
Двумерная корреляция — это мера того, являются ли две переменные коковарными и каким образом, то есть изменяется ли дисперсия одной линейно по мере изменения дисперсии другой.
Ковариацию может быть сложно интерпретировать в разных исследованиях, поскольку она зависит от масштаба или уровня используемых измерений. По этой причине ковариация стандартизируется путем деления на произведение стандартных отклонений двух переменных для получения коэффициента корреляции произведения и момента Пирсона (также называемого коэффициентом корреляции Пирсона или коэффициентом корреляции), который обычно обозначается буквой " р ." [3]
Коэффициент корреляции Пирсона используется, когда обе переменные измеряются по шкале интервалов или отношений. Другие коэффициенты корреляции или анализы используются, когда переменные не являются интервалами или отношениями или когда они не имеют нормального распределения. Примерами являются коэффициент корреляции Спирмена , тау Кендалла , бисериальная корреляция и анализ хи-квадрат.
В отношении корреляции следует выделить три важных замечания:
Если зависимая переменная — та, значение которой в некоторой степени определяется другой независимой переменной — является категориальной переменной , например, предпочтительной маркой зерновых, то можно использовать пробит- или логит- регрессию (или полиномиальную пробит- или полиномиальную логит-регрессию ). . Если обе переменные являются порядковыми , то есть они ранжируются в последовательности как первая, вторая и т. д., то можно вычислить коэффициент ранговой корреляции . Если только зависимая переменная является порядковой, можно использовать упорядоченный пробит или упорядоченный логит . Если зависимая переменная является непрерывной (либо уровень интервала, либо уровень соотношения, например, шкала температуры или шкала доходов), то можно использовать простую регрессию .
Если обе переменные представляют собой временные ряды , можно проверить определенный тип причинности, известный как причинность Грейнджера , и выполнить векторную авторегрессию для изучения межвременных связей между переменными.
Когда ни одна переменная не может рассматриваться как зависимая от другой, регрессия не подходит, но может подойти некоторая форма корреляционного анализа. [4]
Графики , подходящие для двумерного анализа, зависят от типа переменной. Для двух непрерывных переменных диаграмма рассеяния представляет собой обычный график. Когда одна переменная является категориальной, а другая — непрерывной, обычно используется ящичковая диаграмма , а когда обе переменные являются категориальными , обычно используется мозаичная диаграмма . Эти графики являются частью описательной статистики .