stringtranslate.com

Таблица непредвиденных обстоятельств

В статистике таблица сопряженности (также известная как кросс-табуляция или кросс-таблица ) — это тип таблицы в матричном формате, которая отображает многомерное распределение частот переменных. Они широко используются в исследованиях по опросам, бизнес-аналитике, инжиниринге и научных исследованиях. Они дают базовую картину взаимосвязи между двумя переменными и могут помочь найти взаимодействия между ними. Термин « таблица сопряженности» был впервые использован Карлом Пирсоном в «О теории сопряженности и ее связи с ассоциацией и нормальной корреляцией», [1] части «Биометрической серии мемуаров компании Drapers» , опубликованной в 1904 году.

Важнейшей проблемой многомерной статистики является нахождение структуры (прямой) зависимости, лежащей в основе переменных, содержащихся в многомерных таблицах сопряженности. Если раскрыты некоторые условные независимости , то даже хранение данных может быть выполнено более разумным способом (см. Lauritzen (2002)). Для этого можно использовать концепции теории информации , которые получают информацию только из распределения вероятности, которое можно легко выразить из таблицы сопряженности с помощью относительных частот.

Сводная таблица — это способ создания таблиц сопряженности с помощью программного обеспечения для работы с электронными таблицами.

Пример

Предположим, что есть две переменные: пол (мужчина или женщина) и ведущая рука (правша или левша). Далее предположим, что 100 человек случайным образом выбираются из очень большой популяции в рамках исследования гендерных различий в ведущей руке. Можно создать таблицу сопряженности, чтобы отобразить количество людей, которые являются правшами и левшами, правшами и левшами по полу. Такая таблица сопряженности показана ниже.

Числа мужчин, женщин, правшей и левшей называются маргинальными суммами . Общая сумма (общее число людей, представленных в таблице сопряженности) — это число в правом нижнем углу.

Таблица позволяет пользователям с первого взгляда увидеть, что доля мужчин-правшей примерно такая же, как и доля женщин-правшей, хотя пропорции не идентичны. Сила связи может быть измерена с помощью отношения шансов , а отношение шансов популяции оценивается с помощью отношения шансов выборки . Значимость разницы между двумя пропорциями может быть оценена с помощью различных статистических тестов, включая критерий хи-квадрат Пирсона , G -тест , точный тест Фишера , тест Бошлоо и тест Барнарда , при условии, что записи в таблице представляют индивидов, случайно выбранных из популяции, о которых следует сделать выводы. Если пропорции индивидов в разных столбцах значительно различаются между строками (или наоборот), говорят, что между двумя переменными есть сопряженность . Другими словами, две переменные не являются независимыми. Если сопряженности нет, говорят, что две переменные независимы .

Приведенный выше пример — это простейший вид таблицы сопряженности, в которой каждая переменная имеет только два уровня; это называется таблицей сопряженности 2 × 2. В принципе, может использоваться любое количество строк и столбцов. Также может быть больше двух переменных, но таблицы сопряженности более высокого порядка трудно представить визуально. Связь между порядковыми переменными или между порядковыми и категориальными переменными также может быть представлена ​​в таблицах сопряженности, хотя такая практика встречается редко. Подробнее об использовании таблицы сопряженности для связи между двумя порядковыми переменными см. в Goodman and Kruskal's gamma .

Стандартное содержание таблицы сопряженности

Меры объединения

Степень связи между двумя переменными можно оценить с помощью ряда коэффициентов. В следующих подразделах описываются некоторые из них. Для более полного обсуждения их использования см. основные статьи, ссылки на которые приведены под заголовком каждого подраздела.

Отношение шансов

Простейшей мерой ассоциации для таблицы сопряженности 2 × 2 является отношение шансов . При наличии двух событий, A и B, отношение шансов определяется как отношение шансов A при наличии B к шансам A при отсутствии B, или, что эквивалентно (из-за симметрии), отношение шансов B при наличии A к шансам B при отсутствии A. Два события являются независимыми тогда и только тогда, когда отношение шансов равно 1; если отношение шансов больше 1, события положительно связаны; если отношение шансов меньше 1, события отрицательно связаны.

Отношение шансов имеет простое выражение в терминах вероятностей; учитывая совместное распределение вероятностей:

отношение шансов составляет:

Коэффициент Фи

Простая мера, применимая только к случаю таблиц сопряженности 2 × 2, — это коэффициент фи (φ), определяемый как

где χ 2 вычисляется как в критерий хи-квадрат Пирсона , а N — общая сумма наблюдений. φ изменяется от 0 (что соответствует отсутствию связи между переменными) до 1 или −1 (полная связь или полная обратная связь), при условии, что он основан на данных о частоте, представленных в таблицах 2 × 2. Тогда его знак равен знаку произведения главных диагональных элементов таблицы за вычетом произведения недиагональных элементов. φ принимает минимальное значение −1,0 или максимальное значение +1,0 тогда и только тогда, когда каждая маргинальная пропорция равна 0,5 (и две диагональные ячейки пусты). [2]

КрамераВи коэффициент сопряженностиС

Двумя альтернативами являются коэффициент сопряженности C и коэффициент Крамера V.

Формулы для коэффициентов C и V следующие:

и

k — число строк или число столбцов, в зависимости от того, что меньше.

C страдает от недостатка, что он не достигает максимума 1,0, в частности, самое высокое, которого он может достичь в таблице 2 × 2, составляет 0,707. Он может достигать значений, близких к 1,0, в таблицах сопряженности с большим количеством категорий; например, он может достигать максимума 0,870 в таблице 4 × 4. Поэтому его не следует использовать для сравнения ассоциаций в разных таблицах, если в них разное количество категорий. [3]

C можно настроить так, чтобы он достигал максимума 1,0, когда в таблице есть полная ассоциация любого количества строк и столбцов, путем деления C на , где k — количество строк или столбцов, когда таблица квадратная [ необходима ссылка ] , или на , где r — количество строк, а c — количество столбцов. [4]

Коэффициент тетрахорической корреляции

Другой выбор — коэффициент тетрахорической корреляции , но он применим только к таблицам 2 × 2. Полихорическая корреляция — это расширение тетрахорической корреляции на таблицы, включающие переменные с более чем двумя уровнями.

Тетрахорическая корреляция предполагает, что переменная, лежащая в основе каждой дихотомической меры, распределена нормально. [5] Коэффициент обеспечивает «удобную меру корреляции [продукт-момент Пирсона], когда градуированные измерения сведены к двум категориям». [6]

Коэффициент тетрахорической корреляции не следует путать с коэффициентом корреляции Пирсона , вычисляемым путем присвоения, скажем, значений 0,0 и 1,0 для представления двух уровней каждой переменной (что математически эквивалентно коэффициенту φ).

Коэффициент лямбда

Коэффициент лямбда является мерой силы ассоциации перекрестных таблиц, когда переменные измеряются на номинальном уровне . Значения варьируются от 0,0 (никакой ассоциации) до 1,0 (максимально возможная ассоциация).

Асимметричная лямбда измеряет процентное улучшение в прогнозировании зависимой переменной. Симметричная лямбда измеряет процентное улучшение, когда прогнозирование выполняется в обоих направлениях.

Коэффициент неопределенности

Коэффициент неопределенности , или U Тейла, является еще одной мерой для переменных на номинальном уровне. Его значения варьируются от −1,0 (100% отрицательная ассоциация или идеальная инверсия) до +1,0 (100% положительная ассоциация или идеальное согласие). Значение 0,0 указывает на отсутствие ассоциации.

Кроме того, коэффициент неопределенности является условной и асимметричной мерой ассоциации, которую можно выразить как

.

Это асимметричное свойство может привести к пониманию, не столь очевидному при симметричных мерах ассоциации. [7]

Другие

Смотрите также

Ссылки

  1. ^ Карл Пирсон, FRS (1904). Математический вклад в теорию эволюции. Dulau and Co.
  2. ^ Фергюсон, GA (1966). Статистический анализ в психологии и образовании . Нью-Йорк: McGraw–Hill.
  3. ^ Смит, С.С. и Олбаум, Г.С. (2004) Основы маркетинговых исследований . Sage: Thousand Oaks, CA. стр. 631
  4. ^ Blaikie, N. (2003) Анализ количественных данных . Sage: Thousand Oaks, CA. стр. 100
  5. ^ Фергюсон. [ необходима полная цитата ]
  6. ^ Фергюсон, 1966, стр. 244
  7. ^ «Поиск категориальной корреляции». 26 декабря 2019 г.

Дальнейшее чтение

Внешние ссылки