Переменная, используемая для связывания каждой точки данных в наборе наблюдений или в конкретном случае с определенной качественной категорией, является категориальной переменной. Категориальные переменные имеют два типа шкал: порядковые и номинальные. [1] Первый тип категориальной шкалы зависит от естественного порядка, уровней, которые определяются чувством качества. Переменные с таким соглашением о порядке известны как порядковые переменные . Для сравнения, переменные с неупорядоченными шкалами являются номинальными переменными. [1]
Номинальная переменная или номинальная группа — это группа объектов или идей, объединенных в группу по определенной качественной характеристике . [3] Номинальные переменные не имеют естественного порядка, что означает, что статистический анализ этих переменных всегда будет давать одни и те же результаты, независимо от порядка представления данных. [1] [3]
Несмотря на то, что методы статистики порядковых переменных не могут быть использованы для номинальных групп, методы номинальных групп могут быть использованы для обоих типов наборов категориальных данных; однако номинальная категоризация порядковых данных приведет к удалению порядка, что ограничит дальнейший анализ набора данных получением номинальных результатов. [1]
Поскольку номинальная группа состоит из данных, которые либо идентифицированы как член, либо не член, каждая отдельная точка данных не несет никакой дополнительной значимости помимо идентификации группы. Кроме того, идентификация данных обосновывает необходимость формирования новых номинальных групп на основе доступной информации. [3] Поскольку номинальные категории не могут быть численно организованы или ранжированы, члены, связанные с номинальной группой, не могут быть помещены в порядковую или пропорциональную форму .
Номинальные данные часто сравниваются с порядковыми и пропорциональными данными, чтобы определить, влияют ли отдельные точки данных на поведение количественно управляемых наборов данных. [1] [4] Например, влияние расы (номинальная) на доход (пропорциональная) можно исследовать путем регрессии уровня дохода на одну или несколько фиктивных переменных , которые определяют расу. Когда номинальные переменные используются в этих контекстах, допустимые операции с данными, которые могут быть выполнены, ограничены. В то время как арифметические операции и вычисления, измеряющие центральную тенденцию данных (количественные назначения анализа данных, включая среднее , медиану ), не могут быть выполнены на номинальных категориях, выполняемые операции с данными включают сравнение частот и распределение частот , определение моды , создание сводных таблиц и использование тестов согласия и независимости хи-квадрат , кодирование и перекодирование, а также логистические или пробит-регрессии . [1] [3] [4]
Как предполагает «номинальный», номинальные группы основаны на названии инкапсулируемых ими данных. [3] Например, гражданство — это номинальная группа. Человек может быть гражданином страны или нет. При этом гражданин Канады не имеет «большего гражданства», чем другой гражданин Канады; следовательно, невозможно упорядочить гражданство с помощью какой-либо математической логики.
Другим примером категоризации имени может быть определение «слов, начинающихся с буквы 'a'». Существуют тысячи слов, начинающихся с буквы 'a', но ни одно из них не имеет «больше» этого номинального качества, чем другие, что означает, что слово, начинающееся с буквы 'a', важнее, чем определение количества 'a' в качестве первых букв экземпляра, поскольку это связано с членством, а не с количественной оценкой данных как порядковой группы.
При этом корреляция двух номинальных категорий затруднена, поскольку некоторые возникающие связи являются ложными, когда две или более переменных ошибочно предполагаются коррелирующими друг с другом. Данные, сравниваемые внутри категорий, также могут быть неважными. Например, выяснение того, пропорционально ли больше канадцев имеют имена, начинающиеся с буквы «а», чем неканадцев, было бы довольно произвольным, случайным упражнением. Однако использование сравнения номинальных данных с распределением частот для связывания пола и политической принадлежности было бы более эффективным, поскольку корреляция между подсчетами принадлежности к определенной партии будет сопоставима с числом избирателей мужского и/или женского пола, учтенных в наборе данных.
С точки зрения количественного анализа, одной из наиболее распространенных операций, выполняемых с номинальными данными, является назначение фиктивной переменной, метод, представленный ранее. Например, если номинальная переменная имеет три категории (A, B и C), будут созданы две фиктивные переменные (для A и B), где C — это референтная категория, номинальная переменная, которая служит базой для сравнения переменных. [6] Другим примером этого является использование кодирования индикаторной переменной, которое присваивает числовое значение 0 или 1 каждой точке данных в наборе. Этот метод определяет, принадлежат ли отдельные наблюдения к определенной группе (устанавливается на единицу) или нет (устанавливается на ноль). [6] Эта числовая ассоциация обеспечивает большую гибкость в анализе номинальных данных, поскольку она фиксирует различия не только между отдельными номинальными группами, но и различия, присутствующие среди данных в наборе, определяя взаимодействия между номинальными переменными и другими переменными в систематическом контексте. [6]