В статистике категориальная переменная (также называемая качественной переменной ) — это переменная , которая может принимать одно из ограниченного и обычно фиксированного числа возможных значений, присваивая каждому индивидууму или другой единице наблюдения определенную группу или номинальную категорию на основе некоторого качественного свойства . [1] В информатике и некоторых разделах математики категориальные переменные называются перечислениями или перечисляемыми типами . Обычно (хотя и не в этой статье) каждое из возможных значений категориальной переменной называется уровнем . Распределение вероятностей, связанное со случайной категориальной переменной, называется категориальным распределением .
Категориальные данные — это тип статистических данных, состоящий из категориальных переменных или данных, преобразованных в эту форму, например, как сгруппированные данные . Более конкретно, категориальные данные могут быть получены из наблюдений, сделанных над качественными данными , которые суммируются как подсчеты или перекрестные таблицы , или из наблюдений над количественными данными , сгруппированными в заданные интервалы. Часто чисто категориальные данные суммируются в форме таблицы сопряженности . Однако, особенно при рассмотрении анализа данных, термин «категориальные данные» обычно используется для применения к наборам данных, которые, хотя и содержат некоторые категориальные переменные, могут также содержать некатегориальные переменные. Порядковые переменные имеют осмысленный порядок, в то время как номинальные переменные не имеют осмысленного порядка.
Категориальная переменная, которая может принимать ровно два значения, называется бинарной переменной или дихотомической переменной ; важным частным случаем является переменная Бернулли . Категориальные переменные с более чем двумя возможными значениями называются политомическими переменными ; категориальные переменные часто считаются политомическими, если не указано иное. Дискретизация — это обработка непрерывных данных так, как если бы они были категориальными. Дихотомизация — это обработка непрерывных данных или политомических переменных так, как если бы они были бинарными переменными. Регрессионный анализ часто обрабатывает принадлежность к категории с одной или несколькими количественными фиктивными переменными .
Примеры значений, которые могут быть представлены в категориальной переменной:
Для удобства статистической обработки категориальным переменным могут быть назначены числовые индексы, например, от 1 до K для K -way категориальной переменной (т. е. переменной, которая может выразить ровно K возможных значений). В общем случае, однако, числа являются произвольными и не имеют никакого значения, кроме простого предоставления удобной метки для конкретного значения. Другими словами, значения в категориальной переменной существуют в номинальной шкале : каждое из них представляет собой логически отдельную концепцию, не обязательно может быть осмысленно упорядочено и не может быть иным образом обработано, как числа. Вместо этого допустимыми операциями являются эквивалентность , членство во множестве и другие операции, связанные с множествами.
В результате центральная тенденция набора категориальных переменных задается его модой ; ни среднее , ни медиана не могут быть определены. В качестве примера, учитывая набор людей, мы можем рассмотреть набор категориальных переменных, соответствующих их фамилиям. Мы можем рассмотреть такие операции, как эквивалентность (имеют ли два человека одинаковую фамилию), членство во множестве (есть ли у человека имя в данном списке), подсчет (сколько людей носят данную фамилию) или нахождение моды (какое имя встречается чаще всего). Однако мы не можем осмысленно вычислить «сумму» Смит + Джонсон или спросить, является ли Смит «меньше» или «больше» Джонсона. В результате мы не можем осмысленно спросить, что такое «среднее имя» (среднее) или «среднее имя» (медиана) в наборе имен.
Это игнорирует концепцию алфавитного порядка , которая является свойством, которое не присуще самим именам, а способу, которым мы строим метки. Например, если мы напишем имена кириллицей и рассмотрим кириллический порядок букв, мы можем получить другой результат оценки "Smith < Johnson", чем если бы мы написали имена стандартным латинским алфавитом ; а если мы напишем имена китайскими иероглифами , мы вообще не сможем осмысленно оценить "Smith < Johnson", потому что для таких символов не определено никакого последовательного порядка. Однако, если мы рассмотрим имена, как они написаны, например, латинским алфавитом, и определим порядок, соответствующий стандартному алфавитному порядку, то мы фактически преобразуем их в порядковые переменные, определенные на порядковой шкале .
Категориальные случайные величины обычно статистически описываются категориальным распределением , которое позволяет произвольной категориальной переменной K -way быть выраженной с отдельными вероятностями, указанными для каждого из K возможных результатов. Такие многокатегорийные категориальные переменные часто анализируются с использованием полиномиального распределения , которое подсчитывает частоту каждой возможной комбинации чисел появлений различных категорий. Регрессионный анализ категориальных результатов выполняется с помощью полиномиальной логистической регрессии , полиномиального пробит-анализа или связанного типа модели дискретного выбора .
Категориальные переменные, которые имеют только два возможных результата (например, «да» против «нет» или «успех» против «неудачи»), известны как бинарные переменные (или переменные Бернулли ). Из-за их важности эти переменные часто рассматриваются как отдельная категория с отдельным распределением ( распределение Бернулли ) и отдельными регрессионными моделями ( логистическая регрессия , пробит-регрессия и т. д.). В результате термин «категориальная переменная» часто зарезервирован для случаев с 3 или более результатами, иногда называемых многофакторной переменной в противоположность бинарной переменной.
Также можно рассмотреть категориальные переменные, в которых количество категорий заранее не зафиксировано. Например, для категориальной переменной, описывающей конкретное слово, мы можем заранее не знать размер словарного запаса, и мы хотели бы допустить возможность встречи со словами, которые мы еще не видели. Стандартные статистические модели, такие как модели, включающие категориальное распределение и полиномиальную логистическую регрессию , предполагают, что количество категорий известно заранее, и изменение количества категорий на лету является сложным. В таких случаях необходимо использовать более продвинутые методы. Примером является процесс Дирихле , который относится к области непараметрической статистики . В таком случае логически предполагается, что существует бесконечное количество категорий, но в любой момент времени большинство из них (фактически все, кроме конечного числа) никогда не встречались. Все формулы сформулированы в терминах количества категорий, фактически наблюдаемых на данный момент, а не (бесконечного) общего количества потенциальных существующих категорий, и созданы методы для постепенного обновления статистических распределений, включая добавление «новых» категорий.
Категориальные переменные представляют собой качественный метод оценки данных (т. е. представляют категории или членство в группе). Они могут быть включены как независимые переменные в регрессионный анализ или как зависимые переменные в логистическую регрессию или пробит-регрессию , но должны быть преобразованы в количественные данные , чтобы иметь возможность анализировать данные. Это делается с помощью систем кодирования. Анализы проводятся таким образом, что кодируются только g -1 ( g — число групп). Это минимизирует избыточность, при этом по-прежнему представляя полный набор данных, поскольку кодирование всех групп g не дает дополнительной информации : например, при кодировании пола (где g = 2: мужчины и женщины), если мы кодируем только женщин, все оставшиеся обязательно будут мужчинами. В общем, группа, которую не кодируют, представляет собой группу, представляющую наименьший интерес. [2]
Существует три основные системы кодирования, обычно используемые при анализе категориальных переменных в регрессии: фиктивное кодирование, кодирование эффектов и контрастное кодирование. Уравнение регрессии имеет вид Y = bX + a , где b — наклон и дает вес, эмпирически назначенный объясняющей переменной, X — объясняющая переменная, а a — Y -отрезок , и эти значения принимают разные значения в зависимости от используемой системы кодирования. Выбор системы кодирования не влияет на статистику F или R2 . Однако выбирается система кодирования на основе сравнения интересующих вас данных , поскольку интерпретация значений b будет различаться. [2]
Фиктивное кодирование используется, когда имеется в виду контрольная или сравнительная группа. Таким образом, анализируются данные одной группы по отношению к сравнительной группе: a представляет собой среднее значение контрольной группы, а b — разницу между средним значением экспериментальной группы и средним значением контрольной группы. Предполагается, что для определения подходящей контрольной группы должны быть соблюдены три критерия: группа должна быть устоявшейся группой (например, не должна быть категорией «другие»), должна быть логическая причина для выбора этой группы в качестве сравнения (например, ожидается, что группа наберет самые высокие баллы по зависимой переменной), и, наконец, размер выборки группы должен быть существенным и не маленьким по сравнению с другими группами. [3]
При фиктивном кодировании контрольной группе присваивается значение 0 для каждой кодовой переменной, группе, представляющей интерес для сравнения с контрольной группой, присваивается значение 1 для ее указанной кодовой переменной, в то время как всем остальным группам присваивается 0 для этой конкретной кодовой переменной. [2]
Значения b следует интерпретировать таким образом, чтобы экспериментальная группа сравнивалась с контрольной группой. Таким образом, получение отрицательного значения b означало бы, что экспериментальная группа набрала меньше баллов, чем контрольная группа, по зависимой переменной . Чтобы проиллюстрировать это, предположим, что мы измеряем оптимизм среди представителей нескольких национальностей и решили, что французы послужат полезным контролем. Если мы сравниваем их с итальянцами и наблюдаем отрицательное значение b , это будет означать, что итальянцы в среднем получают более низкие баллы оптимизма.
В следующей таблице представлен пример фиктивного кодирования, где французский язык является контрольной группой, а C1, C2 и C3 являются кодами для итальянского , немецкого и другого языков (ни французского, ни итальянского, ни немецкого соответственно):
В системе кодирования эффектов данные анализируются путем сравнения одной группы со всеми другими группами. В отличие от фиктивного кодирования, здесь нет контрольной группы. Вместо этого сравнение проводится по среднему значению всех объединенных групп ( теперь a — это общее среднее ). Таким образом, не ищут данные относительно другой группы, а ищут данные относительно общего среднего. [2]
Кодирование эффектов может быть взвешенным или невзвешенным. Кодирование взвешенных эффектов — это просто расчет взвешенного общего среднего, при этом учитывается размер выборки для каждой переменной. Это наиболее целесообразно в ситуациях, когда выборка является репрезентативной для рассматриваемой популяции. Кодирование невзвешенных эффектов наиболее целесообразно в ситуациях, когда различия в размере выборки являются результатом случайных факторов. Интерпретация b для каждого случая различна: при кодировании невзвешенных эффектов b — это разница между средним значением экспериментальной группы и общим средним значением, тогда как в взвешенной ситуации это среднее значение экспериментальной группы за вычетом взвешенного общего среднего значения. [2]
При кодировании эффектов мы кодируем интересующую группу с помощью 1, как и при фиктивном кодировании. Главное отличие в том, что мы кодируем −1 для группы, которая нас меньше всего интересует. Поскольку мы продолжаем использовать схему кодирования g - 1, на самом деле это группа, закодированная −1, которая не будет производить данные, отсюда и тот факт, что мы меньше всего заинтересованы в этой группе. Код 0 присваивается всем остальным группам.
Значения b следует интерпретировать таким образом, чтобы экспериментальная группа сравнивалась со средним значением всех групп вместе взятых (или со взвешенным общим средним в случае кодирования взвешенных эффектов). Таким образом, получение отрицательного значения b будет означать, что кодированная группа набрала меньше среднего значения всех групп по зависимой переменной. Используя наш предыдущий пример оценок оптимизма среди национальностей, если интересующая нас группа — итальянцы, наблюдение отрицательного значения b предполагает, что они получили более низкую оценку оптимизма.
В следующей таблице представлен пример кодирования эффектов для группы «Другое» как наименее интересной.
Система кодирования контраста позволяет исследователю напрямую задавать конкретные вопросы. Вместо того, чтобы система кодирования диктовала сравнение (например, с контрольной группой, как при фиктивном кодировании, или со всеми группами, как при кодировании эффектов), можно разработать уникальное сравнение, отвечающее конкретному исследовательскому вопросу. Эта адаптированная гипотеза, как правило, основана на предыдущей теории и/или исследовании. Предлагаемые гипотезы, как правило, следующие: во-первых, есть центральная гипотеза, которая постулирует большую разницу между двумя наборами групп; вторая гипотеза предполагает, что внутри каждого набора различия между группами невелики. Благодаря своим априорно сфокусированным гипотезам, кодирование контраста может привести к увеличению мощности статистического теста по сравнению с менее направленными предыдущими системами кодирования. [2]
Определенные различия возникают, когда мы сравниваем наши априорные коэффициенты между ANOVA и регрессией. В отличие от ANOVA, где исследователь сам выбирает, ортогональные или неортогональные значения коэффициентов, в регрессии важно, чтобы значения коэффициентов, назначенные при контрастном кодировании, были ортогональными. Кроме того, в регрессии значения коэффициентов должны быть либо в дробной, либо в десятичной форме. Они не могут принимать интервальные значения.
Построение контрастных кодов ограничивается тремя правилами:
Нарушение правила 2 приводит к точным значениям R 2 и F , что указывает на то, что мы придем к тем же выводам о том, существует ли существенная разница; однако мы больше не можем интерпретировать значения b как среднюю разницу.
Для иллюстрации построения контрастных кодов рассмотрим следующую таблицу. Коэффициенты были выбраны для иллюстрации наших априорных гипотез: Гипотеза 1: французы и итальянцы будут иметь более высокий уровень оптимизма, чем немцы (французы = +0,33, итальянцы = +0,33, немцы = −0,66). Это иллюстрируется путем назначения одного и того же коэффициента категориям французов и итальянцев и другого коэффициента немцам. Присвоенные знаки указывают направление связи (следовательно, присвоение немцам отрицательного знака указывает на их более низкие предполагаемые баллы оптимизма). Гипотеза 2: ожидается, что французы и итальянцы будут различаться по своим баллам оптимизма (французы = +0,50, итальянцы = −0,50, немцы = 0). Здесь присвоение нулевого значения немцам демонстрирует их невключение в анализ этой гипотезы. Опять же, присвоенные знаки указывают на предлагаемую связь.
Бессмысленное кодирование происходит, когда используются произвольные значения вместо обозначенных "0", "1" и "-1", которые использовались в предыдущих системах кодирования. Хотя это дает правильные средние значения для переменных, использование бессмысленного кодирования не рекомендуется, поскольку это приведет к неинтерпретируемым статистическим результатам. [2]
Вложения — это кодировки категориальных значений в низкоразмерные вещественные (иногда комплексные ) векторные пространства, обычно таким образом, что «похожим» значениям назначаются «похожие» векторы, или в отношении какого-либо другого вида критерия, делающего векторы полезными для соответствующего приложения. Распространенным особым случаем являются вложения слов , где возможными значениями категориальной переменной являются слова в языке , а словам со схожими значениями должны быть назначены схожие векторы.
Взаимодействие может возникнуть при рассмотрении взаимосвязи между тремя или более переменными и описывает ситуацию, в которой одновременное влияние двух переменных на третью не является аддитивным. Взаимодействия могут возникнуть с категориальными переменными двумя способами: либо категориальное взаимодействие через категориальные переменные, либо категориальное взаимодействие через непрерывные переменные .
Этот тип взаимодействия возникает, когда у нас есть две категориальные переменные. Чтобы исследовать этот тип взаимодействия, нужно закодировать с помощью системы, которая наиболее точно соответствует гипотезе исследователя. Произведение кодов дает взаимодействие. Затем можно вычислить значение b и определить, является ли взаимодействие значимым. [2]
Простой анализ наклонов — это распространенный постфактум-тест, используемый в регрессии, который похож на простой анализ эффектов в ANOVA, используемый для анализа взаимодействий. В этом тесте мы изучаем простые наклоны одной независимой переменной при определенных значениях другой независимой переменной. Такой тест не ограничивается использованием с непрерывными переменными, но может также использоваться, когда независимая переменная является категориальной. Мы не можем просто выбрать значения для исследования взаимодействия, как мы это сделали бы в случае непрерывной переменной, из-за номинальной природы данных (т. е. в непрерывном случае можно анализировать данные на высоком, среднем и низком уровнях, назначая 1 стандартное отклонение выше среднего, на среднем и на одно стандартное отклонение ниже среднего соответственно). В нашем категориальном случае мы бы использовали простое уравнение регрессии для каждой группы, чтобы исследовать простые наклоны. Обычной практикой является стандартизация или центрирование переменных, чтобы сделать данные более интерпретируемыми в простом анализе наклонов; однако категориальные переменные никогда не следует стандартизировать или центрировать. Этот тест можно использовать со всеми системами кодирования. [2]