В статистике двумерные данные — это данные по каждой из двух переменных , где каждое значение одной из переменных сопоставляется со значением другой переменной. [1] Это специфический, но очень распространенный случай многомерных данных . Ассоциацию можно изучать с помощью табличного или графического отображения или с помощью выборочной статистики, которая может использоваться для вывода. Обычно было бы интересно исследовать возможную связь между двумя переменными. [2] Метод, используемый для исследования связи, будет зависеть от уровня измерения переменной. Эта связь, которая включает ровно две переменные, может быть названа двумерной корреляцией или двумерной ассоциацией.
Для двух количественных переменных (интервал или отношение на уровне измерения ) можно использовать диаграмму рассеяния, а для количественной оценки связи можно использовать коэффициент корреляции или регрессионную модель. [3] Для двух качественных переменных (номинальных или порядковых на уровне измерения ) можно использовать таблицу сопряженности для просмотра данных, а также можно использовать меру связи или тест независимости. [3]
Если переменные количественные, пары значений этих двух переменных часто представляются в виде отдельных точек на плоскости с использованием диаграммы рассеяния . Это делается для того, чтобы связь (если таковая имеется) между переменными была легко замечена. [4] Например, двумерные данные на диаграмме рассеяния можно использовать для изучения связи между длиной шага и длиной ног. В двумерной корреляции выбросы могут быть невероятно проблематичными, когда они включают в себя оба крайних значения по обеим переменным. Лучший способ поиска этих выбросов — посмотреть на диаграммы рассеяния и посмотреть, выделяются ли какие-либо точки данных между переменными.
В некоторых случаях двумерных данных определяется, что одна переменная влияет на вторую переменную или определяет ее, и термины зависимые и независимые переменные используются для различения двух типов переменных. В приведенном выше примере длина ног человека является независимой переменной. Длина шага определяется длиной ног человека, поэтому она является зависимой переменной. Длинные ноги увеличивают длину шага, но увеличение длины шага не увеличит длину ваших ног. [5]
Корреляции между двумя переменными определяются как сильные или слабые корреляции и оцениваются по шкале от –1 до 1, где 1 – идеальная прямая корреляция, –1 – идеальная обратная корреляция, а 0 – отсутствие корреляции. В случае длинных ног и длинных шагов будет сильная прямая корреляция. [6]
При анализе двумерных данных обычно сравнивают сводные статистики каждой из переменных или используют регрессионный анализ , чтобы найти силу и направление определенной связи между переменными. Если каждая переменная может принимать только одно из небольшого числа значений, например, только «мужчина» или «женщина», или только «левша» или «правша», то совместное распределение частот можно отобразить в таблице сопряженности , которую можно проанализировать на предмет силы связи между двумя переменными.