В статистике таблица сопряженности (также известная как кросс-табуляция или кросс-таблица ) — это тип таблицы в матричном формате, которая отображает многомерное распределение частот переменных. Они широко используются в исследованиях по опросам, бизнес-аналитике, инжиниринге и научных исследованиях. Они дают базовую картину взаимосвязи между двумя переменными и могут помочь найти взаимодействия между ними. Термин « таблица сопряженности» был впервые использован Карлом Пирсоном в «О теории сопряженности и ее связи с ассоциацией и нормальной корреляцией», [1] части «Биометрической серии мемуаров компании Drapers» , опубликованной в 1904 году.
Важнейшей проблемой многомерной статистики является нахождение структуры (прямой) зависимости, лежащей в основе переменных, содержащихся в многомерных таблицах сопряженности. Если раскрыты некоторые условные независимости , то даже хранение данных может быть выполнено более разумным способом (см. Lauritzen (2002)). Для этого можно использовать концепции теории информации , которые получают информацию только из распределения вероятности, которое можно легко выразить из таблицы сопряженности с помощью относительных частот.
Сводная таблица — это способ создания таблиц сопряженности с помощью программного обеспечения для работы с электронными таблицами.
Предположим, что есть две переменные: пол (мужчина или женщина) и ведущая рука (правша или левша). Далее предположим, что 100 человек случайным образом выбираются из очень большой популяции в рамках исследования гендерных различий в ведущей руке. Можно создать таблицу сопряженности, чтобы отобразить количество людей, которые являются правшами и левшами, правшами и левшами по полу. Такая таблица сопряженности показана ниже.
Числа мужчин, женщин, правшей и левшей называются маргинальными суммами . Общая сумма (общее число людей, представленных в таблице сопряженности) — это число в правом нижнем углу.
Таблица позволяет пользователям с первого взгляда увидеть, что доля мужчин-правшей примерно такая же, как и доля женщин-правшей, хотя пропорции не идентичны. Сила связи может быть измерена с помощью отношения шансов , а отношение шансов популяции оценивается с помощью отношения шансов выборки . Значимость разницы между двумя пропорциями может быть оценена с помощью различных статистических тестов, включая критерий хи-квадрат Пирсона , G -тест , точный тест Фишера , тест Бошлоо и тест Барнарда , при условии, что записи в таблице представляют индивидов, случайно выбранных из популяции, о которых следует сделать выводы. Если пропорции индивидов в разных столбцах значительно различаются между строками (или наоборот), говорят, что между двумя переменными есть сопряженность . Другими словами, две переменные не являются независимыми. Если сопряженности нет, говорят, что две переменные независимы .
Приведенный выше пример — это простейший вид таблицы сопряженности, в которой каждая переменная имеет только два уровня; это называется таблицей сопряженности 2 × 2. В принципе, может использоваться любое количество строк и столбцов. Также может быть больше двух переменных, но таблицы сопряженности более высокого порядка трудно представить визуально. Связь между порядковыми переменными или между порядковыми и категориальными переменными также может быть представлена в таблицах сопряженности, хотя такая практика встречается редко. Подробнее об использовании таблицы сопряженности для связи между двумя порядковыми переменными см. в Goodman and Kruskal's gamma .
Степень связи между двумя переменными можно оценить с помощью ряда коэффициентов. В следующих подразделах описываются некоторые из них. Для более полного обсуждения их использования см. основные статьи, ссылки на которые приведены под заголовком каждого подраздела.
Простейшей мерой ассоциации для таблицы сопряженности 2 × 2 является отношение шансов . При наличии двух событий, A и B, отношение шансов определяется как отношение шансов A при наличии B к шансам A при отсутствии B, или, что эквивалентно (из-за симметрии), отношение шансов B при наличии A к шансам B при отсутствии A. Два события являются независимыми тогда и только тогда, когда отношение шансов равно 1; если отношение шансов больше 1, события положительно связаны; если отношение шансов меньше 1, события отрицательно связаны.
Отношение шансов имеет простое выражение в терминах вероятностей; учитывая совместное распределение вероятностей:
отношение шансов составляет:
Простая мера, применимая только к случаю таблиц сопряженности 2 × 2, — это коэффициент фи (φ), определяемый как
где χ 2 вычисляется как в критерий хи-квадрат Пирсона , а N — общая сумма наблюдений. φ изменяется от 0 (что соответствует отсутствию связи между переменными) до 1 или −1 (полная связь или полная обратная связь), при условии, что он основан на данных о частоте, представленных в таблицах 2 × 2. Тогда его знак равен знаку произведения главных диагональных элементов таблицы за вычетом произведения недиагональных элементов. φ принимает минимальное значение −1,0 или максимальное значение +1,0 тогда и только тогда, когда каждая маргинальная пропорция равна 0,5 (и две диагональные ячейки пусты). [2]
Двумя альтернативами являются коэффициент сопряженности C и коэффициент Крамера V.
Формулы для коэффициентов C и V следующие:
k — число строк или число столбцов, в зависимости от того, что меньше.
C страдает от недостатка, что он не достигает максимума 1,0, в частности, самое высокое, которого он может достичь в таблице 2 × 2, составляет 0,707. Он может достигать значений, близких к 1,0, в таблицах сопряженности с большим количеством категорий; например, он может достигать максимума 0,870 в таблице 4 × 4. Поэтому его не следует использовать для сравнения ассоциаций в разных таблицах, если в них разное количество категорий. [3]
C можно настроить так, чтобы он достигал максимума 1,0, когда в таблице есть полная ассоциация любого количества строк и столбцов, путем деления C на , где k — количество строк или столбцов, когда таблица квадратная [ необходима ссылка ] , или на , где r — количество строк, а c — количество столбцов. [4]
Другой выбор — коэффициент тетрахорической корреляции , но он применим только к таблицам 2 × 2. Полихорическая корреляция — это расширение тетрахорической корреляции на таблицы, включающие переменные с более чем двумя уровнями.
Тетрахорическая корреляция предполагает, что переменная, лежащая в основе каждой дихотомической меры, распределена нормально. [5] Коэффициент обеспечивает «удобную меру корреляции [продукт-момент Пирсона], когда градуированные измерения сведены к двум категориям». [6]
Коэффициент тетрахорической корреляции не следует путать с коэффициентом корреляции Пирсона , вычисляемым путем присвоения, скажем, значений 0,0 и 1,0 для представления двух уровней каждой переменной (что математически эквивалентно коэффициенту φ).
Коэффициент лямбда является мерой силы ассоциации перекрестных таблиц, когда переменные измеряются на номинальном уровне . Значения варьируются от 0,0 (никакой ассоциации) до 1,0 (максимально возможная ассоциация).
Асимметричная лямбда измеряет процентное улучшение в прогнозировании зависимой переменной. Симметричная лямбда измеряет процентное улучшение, когда прогнозирование выполняется в обоих направлениях.
Коэффициент неопределенности , или U Тейла, является еще одной мерой для переменных на номинальном уровне. Его значения варьируются от −1,0 (100% отрицательная ассоциация или идеальная инверсия) до +1,0 (100% положительная ассоциация или идеальное согласие). Значение 0,0 указывает на отсутствие ассоциации.
Кроме того, коэффициент неопределенности является условной и асимметричной мерой ассоциации, которую можно выразить как
Это асимметричное свойство может привести к пониманию, не столь очевидному при симметричных мерах ассоциации. [7]