stringtranslate.com

Категориальная переменная

В статистике категориальная переменная (также называемая качественной переменной ) — это переменная , которая может принимать одно из ограниченного и обычно фиксированного числа возможных значений, относя каждого отдельного человека или другую единицу наблюдения к определенной группе или номинальной категории на основе некоторого качественного свойства . [1] В информатике и некоторых разделах математики категориальные переменные называются перечислениями или перечисляемыми типами . Обычно (но не в этой статье) каждое из возможных значений категориальной переменной называется уровнем . Распределение вероятностей , связанное со случайной категориальной переменной, называется категориальным распределением .

Категориальные данные — это тип статистических данных , состоящий из категориальных переменных или данных, преобразованных в эту форму, например, в виде сгруппированных данных . Более конкретно, категориальные данные могут быть получены из наблюдений за качественными данными , которые суммированы в виде подсчетов или перекрестных таблиц , или из наблюдений за количественными данными, сгруппированными в пределах заданных интервалов. Зачастую чисто категориальные данные обобщаются в виде таблицы сопряженности . Однако, особенно при рассмотрении анализа данных, термин «категорические данные» обычно используют для применения к наборам данных, которые, хотя и содержат некоторые категориальные переменные, могут также содержать некатегорийные переменные.

Категориальная переменная, которая может принимать ровно два значения, называется бинарной переменной или дихотомической переменной ; важным частным случаем является переменная Бернулли . Категориальные переменные, имеющие более двух возможных значений, называются политомическими переменными ; категориальные переменные часто считаются политомическими, если не указано иное. Дискретизация рассматривает непрерывные данные так, как если бы они были категориальными. Дихотомизация предполагает обработку непрерывных данных или политомических переменных, как если бы они были двоичными переменными. Регрессионный анализ часто рассматривает членство в категории с помощью одной или нескольких количественных фиктивных переменных .

Примеры категориальных переменных

Примеры значений, которые могут быть представлены в категориальной переменной:

Обозначения

Для облегчения статистической обработки категориальным переменным могут быть присвоены числовые индексы, например, от 1 до K для категориальной переменной K -способа (т.е. переменной, которая может выражать ровно K возможных значений). Однако в целом числа произвольны и не имеют никакого значения, кроме простого обозначения удобного обозначения конкретного значения. Другими словами, значения категориальной переменной существуют в номинальной шкале : каждое из них представляет собой логически отдельное понятие, не обязательно может быть осмысленно упорядочено и с ними нельзя манипулировать иным образом, как с числами. Вместо этого допустимыми операциями являются эквивалентность , членство в наборе и другие операции, связанные с набором.

В результате центральная тенденция набора категориальных переменных задается его модой ; ни среднее , ни медиана не могут быть определены. В качестве примера, учитывая набор людей, мы можем рассмотреть набор категориальных переменных, соответствующих их фамилиям. Мы можем рассмотреть такие операции, как эквивалентность (имеют ли два человека одинаковую фамилию), установить членство (есть ли у человека имя в заданном списке), подсчет (сколько людей имеют данную фамилию) или поиск режима ( какое имя встречается чаще всего). Однако мы не можем осмысленно вычислить «сумму» Смита + Джонсона или спросить, является ли Смит «меньше» или «больше» Джонсона. В результате мы не можем осмысленно спросить, что такое «среднее имя» (среднее значение) или «среднее имя» (медиана) в наборе имен.

При этом игнорируется концепция алфавитного порядка , которая является свойством, присущим не самим именам, а тому, как мы строим метки. Например, если мы напишем имена кириллицей и учтем порядок букв кириллицы, мы можем получить другой результат вычисления «Смит <Джонсон», чем если бы мы писали имена стандартным латинским алфавитом ; и если мы напишем имена китайскими иероглифами , мы вообще не сможем осмысленно оценить «Смит <Джонсон», потому что для таких символов не определен последовательный порядок. Однако если мы рассмотрим имена, написанные, например, латинским алфавитом, и определим порядок, соответствующий стандартному алфавитному порядку, то мы фактически преобразуем их в порядковые переменные, определенные в порядковой шкале .

Количество возможных значений

Категориальные случайные переменные обычно описываются статистически с помощью категориального распределения , которое позволяет выразить произвольную категориальную переменную K -способа с отдельными вероятностями, указанными для каждого из K возможных результатов. Такие категориальные переменные с несколькими категориями часто анализируются с использованием полиномиального распределения , которое подсчитывает частоту каждой возможной комбинации количества вхождений различных категорий. Регрессионный анализ категориальных результатов осуществляется с помощью полиномиальной логистической регрессии , полиномиального пробита или аналогичного типа модели дискретного выбора .

Категориальные переменные, которые имеют только два возможных результата (например, «да» или «нет» или «успех» или «неудача»), известны как бинарные переменные (или переменные Бернулли ). Из-за их важности эти переменные часто выделяют в отдельную категорию с отдельным распределением ( распределение Бернулли ) и отдельными моделями регрессии ( логистическая регрессия , пробит-регрессия и т. д.). В результате термин «категориальная переменная» часто используется для случаев с 3 или более исходами, иногда называемых многофакторной переменной в отличие от бинарной переменной.

Также можно рассматривать категориальные переменные, в которых количество категорий не фиксировано заранее. Например, для категориальной переменной, описывающей конкретное слово, мы можем не знать заранее размер словаря, и нам хотелось бы предусмотреть возможность встретить слова, которые мы еще не видели. Стандартные статистические модели, такие как модели, включающие категориальное распределение и полиномиальную логистическую регрессию , предполагают, что количество категорий известно заранее, и изменить количество категорий на лету сложно. В таких случаях необходимо использовать более продвинутые методы. Примером может служить процесс Дирихле , который относится к области непараметрической статистики . В таком случае логически предполагается, что существует бесконечное число категорий, но в любой момент времени большинство из них (фактически все, кроме конечного числа) никогда не наблюдались. Все формулы формулируются с точки зрения количества категорий, фактически наблюдаемых на данный момент, а не (бесконечного) общего числа существующих потенциальных категорий, и создаются методы для постепенного обновления статистических распределений, включая добавление «новых» категорий.

Категориальные переменные и регрессия

Категориальные переменные представляют собой качественный метод оценки данных (т.е. представляют категории или членство в группах). Они могут быть включены в качестве независимых переменных в регрессионный анализ или как зависимые переменные в логистическую регрессию или пробит-регрессию , но их необходимо преобразовать в количественные данные , чтобы иметь возможность анализировать данные. Это достигается за счет использования систем кодирования. Анализы проводятся таким образом, что кодируются только g -1 ( g — количество групп). Это сводит к минимуму избыточность, но при этом представляет полный набор данных, поскольку при кодировании всех групп g не будет получено никакой дополнительной информации : например, при кодировании пола (где g = 2: мужчины и женщины), если мы кодируем только женщин, все оставшиеся будут обязательно должны быть мужчины. В общем, группа, для которой не кодируется, представляет наименьший интерес. [2]

При анализе категориальных переменных в регрессии обычно используются три основные системы кодирования: фиктивное кодирование, кодирование эффектов и контрастное кодирование. Уравнение регрессии принимает форму Y = bX + a , где b — наклон и дает вес, эмпирически присвоенный объяснителю, X — объясняющая переменная, а aточка пересечения Y , и эти значения принимают разные значения в зависимости от от используемой системы кодирования. Выбор системы кодирования не влияет на статистику F или R2 . Однако систему кодирования выбирают на основе интересующего сравнения, поскольку интерпретация значений b будет различаться. [2]

Фиктивное кодирование

Фиктивное кодирование используется, когда имеется в виду контрольная группа или группа сравнения. Таким образом, анализируются данные одной группы по отношению к группе сравнения: a представляет собой среднее значение контрольной группы, а b представляет собой разницу между средним значением экспериментальной группы и средним значением контрольной группы. Предлагается, чтобы были соблюдены три критерия для определения подходящей контрольной группы: группа должна быть устоявшейся группой (например, не должна относиться к «другой» категории), должна быть логическая причина для выбора этой группы для сравнения ( например, ожидается, что группа наберет наивысший балл по зависимой переменной), и, наконец, размер выборки группы должен быть значительным и не маленьким по сравнению с другими группами. [3]

При фиктивном кодировании референтной группе присваивается значение 0 для каждой кодовой переменной, группе, представляющей интерес для сравнения с эталонной группой, присваивается значение 1 для ее указанной кодовой переменной, а всем остальным группам присваивается 0 для этой конкретной кодовой переменной. переменная кода. [2]

Значения b следует интерпретировать таким образом, чтобы экспериментальную группу сравнивали с контрольной группой. Следовательно, получение отрицательного значения b приведет к тому, что экспериментальная группа наберет меньше баллов по зависимой переменной, чем контрольная группа . Чтобы проиллюстрировать это, предположим, что мы измеряем оптимизм среди нескольких национальностей и решили, что французы будут служить полезным контролем. Если мы сравниваем их с итальянцами и наблюдаем отрицательное значение b , это предполагает, что итальянцы в среднем получают более низкие показатели оптимизма.

В следующей таблице приведен пример фиктивного кодирования, в котором французский язык является контрольной группой, а C1, C2 и C3 соответственно являются кодами итальянского , немецкого и другого языков (ни французского, ни итальянского, ни немецкого):

Кодирование эффектов

В системе кодирования эффектов данные анализируются путем сравнения одной группы со всеми другими группами. В отличие от фиктивного кодирования здесь нет контрольной группы. Скорее, сравнение проводится по среднему значению всех групп вместе взятых ( теперь a является общим средним значением ). Таким образом, мы не ищем данные по отношению к другой группе, а, скорее, ищем данные по отношению к общему среднему значению. [2]

Кодирование эффектов может быть взвешенным или невзвешенным. Кодирование взвешенных эффектов представляет собой просто вычисление взвешенного среднего значения с учетом размера выборки по каждой переменной. Это наиболее целесообразно в ситуациях, когда выборка является репрезентативной для рассматриваемой совокупности. Кодирование невзвешенных эффектов наиболее целесообразно в ситуациях, когда различия в размере выборки являются результатом случайных факторов. Интерпретация b для каждого из них различна: при кодировании невзвешенных эффектов b представляет собой разницу между средним значением экспериментальной группы и общим средним значением, тогда как во взвешенной ситуации это среднее значение экспериментальной группы минус взвешенное среднее значение. [2]

При кодировании эффектов мы кодируем интересующую группу цифрой 1, как и при кодировании фиктивных эффектов. Принципиальное отличие состоит в том, что мы кодируем -1 для группы, которая нас меньше всего интересует. Поскольку мы продолжаем использовать схему кодирования g - 1, фактически именно группа с кодом -1 не будет производить данные, следовательно, мы меньше всего заинтересованы в этой группе. Всем остальным группам присвоен код 0.

Значения b следует интерпретировать таким образом, чтобы экспериментальную группу сравнивали со средним значением всех групп вместе взятых (или со взвешенным средним значением в случае кодирования взвешенных эффектов). Таким образом, получение отрицательного значения b приведет к тому, что закодированная группа будет иметь меньший балл, чем среднее значение всех групп по зависимой переменной. Используя наш предыдущий пример оценки оптимизма среди национальностей, если группа интересов — итальянцы, наблюдение отрицательного значения b предполагает, что они получают более низкий показатель оптимизма.

В следующей таблице приведен пример кодирования эффектов, в которых « Другие» входят в группу наименьшего интереса.

Контрастное кодирование

Система контрастного кодирования позволяет исследователю напрямую задавать конкретные вопросы. Вместо того, чтобы система кодирования диктовала проводимое сравнение (т. е. с контрольной группой, как при фиктивном кодировании, или со всеми группами, как при кодировании эффектов), можно разработать уникальное сравнение, отвечающее конкретному исследовательскому вопросу. Эта адаптированная гипотеза обычно основана на предыдущей теории и/или исследованиях. Предлагаемые гипотезы обычно таковы: во-первых, существует центральная гипотеза, которая постулирует большую разницу между двумя наборами групп; вторая гипотеза предполагает, что внутри каждого набора различия между группами невелики. Благодаря своим априорно сфокусированным гипотезам контрастное кодирование может привести к увеличению мощности статистического теста по сравнению с менее целенаправленными предыдущими системами кодирования. [2]

Определенные различия возникают, когда мы сравниваем наши априорные коэффициенты между ANOVA и регрессией. В отличие от использования в ANOVA, где по усмотрению исследователя выбираются значения коэффициентов, которые являются ортогональными или неортогональными, в регрессии важно, чтобы значения коэффициентов, присвоенные при контрастном кодировании, были ортогональными. Кроме того, в регрессии значения коэффициентов должны быть либо в дробной, либо в десятичной форме. Они не могут принимать интервальные значения.

Построение контрастных кодов ограничивается тремя правилами:

  1. Сумма коэффициентов контрастности по каждой кодовой переменной должна равняться нулю.
  2. Разница между суммой положительных коэффициентов и суммой отрицательных коэффициентов должна равняться 1.
  3. Кодированные переменные должны быть ортогональными. [2]

Нарушение правила 2 дает точные значения R 2 и F , указывая на то, что мы придем к тем же выводам о том, существует ли значительная разница или нет; однако мы больше не можем интерпретировать значения b как среднюю разницу.

Для иллюстрации построения контрастных кодов рассмотрим следующую таблицу. Коэффициенты были выбраны для иллюстрации наших априорных гипотез: Гипотеза 1: Французы и итальянцы будут иметь более высокий показатель оптимизма, чем немцы (французы = +0,33, итальянцы = +0,33, немцы = -0,66). Это иллюстрируется присвоением одного и того же коэффициента французским и итальянским категориям и другого — немцам. Присвоенные знаки указывают направление взаимосвязи (следовательно, присвоение немцам отрицательного знака указывает на их более низкие предполагаемые показатели оптимизма). Гипотеза 2: Ожидается, что французы и итальянцы различаются по показателям оптимизма (французы = +0,50, итальянцы = -0,50, немцы = 0). Здесь присвоение немцам нулевого значения демонстрирует их невключение в анализ этой гипотезы. Опять же, присвоенные знаки указывают на предполагаемые отношения.

Бессмысленное кодирование

Бессмысленное кодирование происходит, когда вместо обозначенных «0», «1» и «-1» используются произвольные значения, которые использовались в предыдущих системах кодирования. Несмотря на то, что оно дает правильные средние значения переменных, использование бессмысленного кодирования не рекомендуется, поскольку оно приведет к неинтерпретируемым статистическим результатам. [2]

Вложения

Вложения — это кодирование категориальных значений в маломерные вещественные (иногда комплексные ) векторные пространства, обычно таким образом, что «похожим» значениям присваиваются «похожие» векторы, или по отношению к какому-либо другому критерию, определяющему векторы, полезные для соответствующего приложения. Распространенным особым случаем являются встраивания слов , где возможными значениями категориальной переменной являются слова на языке , а словам со схожим значением должны быть присвоены схожие векторы.

Взаимодействия

Взаимодействие может возникнуть при рассмотрении взаимосвязи между тремя и более переменными и описывает ситуацию, в которой одновременное влияние двух переменных на третью не является аддитивным. Взаимодействия с категориальными переменными могут возникать двумя способами: либо категориальные посредством взаимодействий категориальных переменных, либо категориальные посредством взаимодействий непрерывных переменных.

Категориальные взаимодействия с категориальными переменными

Этот тип взаимодействия возникает, когда у нас есть две категориальные переменные. Чтобы исследовать этот тип взаимодействия, можно написать код, используя систему, которая наиболее соответствует гипотезе исследователя. Произведение кодов дает взаимодействие. Затем можно вычислить значение b и определить, является ли взаимодействие значимым. [2]

Категориальный посредством непрерывных взаимодействий переменных

Простой анализ наклонов — это распространенный апостериорный тест , используемый в регрессии, который аналогичен простому анализу эффектов в ANOVA, используемому для анализа взаимодействий. В этом тесте мы исследуем простые наклоны одной независимой переменной при определенных значениях другой независимой переменной. Такой тест не ограничивается использованием непрерывных переменных, но также может применяться, когда независимая переменная является категориальной. Мы не можем просто выбирать значения для исследования взаимодействия, как в случае с непрерывной переменной, из-за номинального характера данных (т. е. в непрерывном случае можно анализировать данные на высоком, умеренном и низком уровнях, присваивая 1 стандартное отклонение). выше среднего, на уровне среднего и на одно стандартное отклонение ниже среднего соответственно). В нашем категориальном случае мы бы использовали простое уравнение регрессии для каждой группы, чтобы исследовать простые наклоны. Обычной практикой является стандартизация или центрирование переменных, чтобы сделать данные более интерпретируемыми при простом анализе наклонов; однако категориальные переменные никогда не следует стандартизировать или центрировать. Этот тест можно использовать со всеми системами кодирования. [2]

Смотрите также

Рекомендации

  1. ^ Йейтс, Дэниел С.; Мур, Дэвид С.; Старнс, Дарен С. (2003). Практика статистики (2-е изд.). Нью-Йорк: Фриман . ISBN 978-0-7167-4773-4. Архивировано из оригинала 9 февраля 2005 г. Проверено 28 сентября 2014 г.
  2. ^ abcdefghij Коэн, Дж.; Коэн, П.; Уэст, СГ; Эйкен, Л.С. (2003). Прикладной множественный регрессионный/корреляционный анализ для поведенческих наук (3-е изд.) . Нью-Йорк, штат Нью-Йорк: Рутледж.
  3. ^ Харди, Мелисса (1993). Регрессия с фиктивными переменными . Ньюбери-Парк, Калифорния: Сейдж.

дальнейшее чтение