Порядковые данные

Порядковые данные — это категориальный, статистический тип данных , в котором переменные имеют естественные, упорядоченные категории, а расстояния между категориями неизвестны. ^[1]^{: 2} Эти данные существуют на порядковой шкале , одном из четырех уровней измерения, описанных С. С. Стивенсом в 1946 году. Порядковая шкала отличается от номинальной шкалы наличием ранга . ^[2] Она также отличается от интервальной шкалы и шкалы отношений тем, что не имеет ширины категорий, которые представляют собой равные приращения базового атрибута. ^[3]

Примеры порядковых данных

Известным примером порядковых данных является шкала Лайкерта . Пример шкалы Лайкерта: ^[4]^{: 685}

Примеры порядковых данных часто встречаются в анкетах: например, вопрос опроса «Является ли ваше общее состояние здоровья плохим, удовлетворительным, хорошим или отличным?» может иметь эти ответы, закодированные соответственно как 1, 2, 3 и 4. Иногда данные по интервальной шкале или шкале отношений группируются в порядковую шкалу: например, лица, чей доход известен, могут быть сгруппированы в категории дохода $0–$19 999, $20 000–$39 999, $40 000–$59 999, ..., которые затем могут быть закодированы как 1, 2, 3, 4, .... Другие примеры порядковых данных включают социально-экономический статус, воинские звания и буквенные оценки за курсовые работы. ^[5]

Способы анализа порядковых данных

Порядковый анализ данных требует иного набора анализов, чем другие качественные переменные. Эти методы включают естественное упорядочение переменных, чтобы избежать потери мощности. ^[1]^{: 88} Вычисление среднего значения выборки порядковых данных не рекомендуется; другие меры центральной тенденции, включая медиану или моду, обычно более уместны. ^[6]

Общий

Стивенс (1946) утверждал, что, поскольку предположение о равном расстоянии между категориями не выполняется для порядковых данных, использование средних значений и стандартных отклонений для описания порядковых распределений и выводной статистики, основанной на средних значениях и стандартных отклонениях, нецелесообразно. Вместо этого следует использовать позиционные меры, такие как медиана и процентили, в дополнение к описательной статистике, подходящей для номинальных данных (число случаев, мода, корреляция непредвиденных обстоятельств). ^[3]^{: 678} Непараметрические методы были предложены в качестве наиболее подходящих процедур для выводной статистики, включающей порядковые данные (например, W Кендалла , коэффициент ранговой корреляции Спирмена и т. д.), особенно те, которые разработаны для анализа ранжированных измерений. ^[5]^{: 25–28} Однако использование параметрической статистики для порядковых данных может быть допустимо с некоторыми оговорками, чтобы воспользоваться большим диапазоном доступных статистических процедур. ^[7]^[8]^[4]^{: 90}

Одномерная статистика

Вместо средних значений и стандартных отклонений одномерные статистики, подходящие для порядковых данных, включают медиану, ^[9]^{: 59–61} другие процентили (такие как квартили и децили), ^[9]^{: 71} и квартильное отклонение. ^[9]^{: 77} Одновыборочные тесты для порядковых данных включают одновыборочный тест Колмогорова-Смирнова , ^[5]^{: 51–55} одновыборочный тест серий , ^[5]^{: 58–64} и тест точки изменения. ^[5]^{: 64–71}

Двумерная статистика

Вместо проверки различий в средних значениях с помощью t -тестов , различия в распределениях порядковых данных из двух независимых выборок можно проверить с помощью тестов Манна-Уитни , ^[9]^{: 259–264} , ^[9]^{: 253–259,} Смирнова , ^[9]^{: 266–269} и знаковых рангов ^[9]^{: 269–273} . Тест для двух связанных или соответствующих выборок включает тест знаков ^[5]^{: 80–87} и тест знаковых рангов Вилкоксона . ^[5]^{: 87–95} Дисперсионный анализ с рангами ^[9]^{: 367–369} и тест Джонкхира для упорядоченных альтернатив ^[5]^{: 216–222} можно провести с порядковыми данными вместо независимых выборок ANOVA . Тесты для более чем двух связанных выборок включают двусторонний дисперсионный анализ Фридмана по рангам ^[5]^{: 174–183} и тест Пейджа для упорядоченных альтернатив . ^[5]^{: 184–188} Меры корреляции, подходящие для двух порядковых масштабированных переменных, включают тау Кендалла , ^[9]^{: 436–439} гамма , ^[9]^{: 442–443}r s , ^[9]^{: 434–436} и d yx /d xy . ^[9]^{: 443}

Регрессионные приложения

Порядковые данные можно рассматривать как количественную переменную. В логистической регрессии уравнение

\operatorname {logit} [P(Y=1)]=\alpha +\beta _{1}c+\beta _{2}x

— модель, а c принимает назначенные уровни категориальной шкалы. ^[1]^{: 189} В регрессионном анализе результаты ( зависимые переменные ), которые являются порядковыми переменными, можно предсказать с помощью варианта порядковой регрессии , такого как упорядоченный логит или упорядоченный пробит .

В множественном регрессионном/корреляционном анализе порядковые данные могут быть учтены с помощью степенных полиномов и посредством нормализации оценок и рангов. ^[10]

Линейные тенденции

Линейные тренды также используются для поиска связей между порядковыми данными и другими категориальными переменными, обычно в таблицах сопряженности . Корреляция r находится между переменными, где r лежит между -1 и 1. Для проверки тренда используется тестовая статистика:

M^{2}=(n-1)r^{2}

используется, где n — размер выборки. ^[1]^{: 87}

R можно найти, если принять, что будет оценками строк, а будет оценками столбцов. Пусть будет средним значением оценок строк, а . Тогда — предельная вероятность строки, а — предельная вероятность столбца. R вычисляется по формуле: $u_{1}\leq u_{2}\leq ...\leq u_{I}$ $v_{1}\leq v_{2}\leq ...\leq v_{I}$ ${\bar {u}}\ =\sum _{i}u_{i}p_{i+}$ ${\bar {v}}\ =\sum _{j}v_{j}p_{j+}.$ $p_{i+}$ $p_{+j}$

r={\frac {\sum _{i,j}\left(u_{i}-{\bar {u}}\ \right)\left(v_{j}-{\bar {v}}\ \right)p_{ij}}{\sqrt {\left\lbrack \sum _{i}(u_{i}-{\bar {u}}\ \right)^{2}p_{i+}\rbrack \lbrack \sum _{j}(v_{j}-{\bar {v}}\ )^{2}p_{+j}\rbrack }}}

Методы классификации

Методы классификации также были разработаны для порядковых данных. Данные делятся на различные категории таким образом, чтобы каждое наблюдение было похоже на другие. Дисперсия измеряется и минимизируется в каждой группе для максимизации результатов классификации. Функция дисперсии используется в теории информации . ^[11]

Статистические модели для порядковых данных

Существует несколько различных моделей, которые можно использовать для описания структуры порядковых данных. ^[12] Ниже описаны четыре основных класса моделей, каждый из которых определен для случайной величины с уровнями, индексированными по . $Y$ $k=1,2,\dots ,q$

Обратите внимание, что в определениях моделей ниже значения и не будут одинаковыми для всех моделей для одного и того же набора данных, но обозначение используется для сравнения структуры различных моделей. $\mu _{k}$ $\mathbf {\beta }$

Модель пропорциональных шансов

Наиболее часто используемой моделью для порядковых данных является модель пропорциональных шансов, определяемая тем , что параметры описывают базовое распределение порядковых данных, являются ковариатами, а коэффициенты — описывающими эффекты ковариат. $\log \left[{\frac {\Pr(Y\leq k)}{Pr(Y>k)}}\right]=\log \left[{\frac {\Pr(Y\leq k)}{1-\Pr(Y\leq k)}}\right]=\mu _{k}+\mathbf {\beta } ^{T}\mathbf {x}$ $\mu _{k}$ $\mathbf {x}$ $\mathbf {\beta }$

Эту модель можно обобщить, определив модель, используя вместо , и это сделает модель подходящей для номинальных данных (в которых категории не имеют естественного порядка), а также для порядковых данных. Однако это обобщение может значительно затруднить подгонку модели к данным. $\mu _{k}+\mathbf {\beta } _{k}^{T}\mathbf {x}$ $\mu _{k}+\mathbf {\beta } ^{T}\mathbf {x}$

Базовая категория логической модели

Базовая модель категории определяется следующим образом: $\log \left[{\frac {\Pr(Y=k)}{\Pr(Y=1)}}\right]=\mu _{k}+\mathbf {\beta } _{k}^{T}\mathbf {x}$

Эта модель не навязывает упорядочение категорий и поэтому может применяться как к номинальным, так и к порядковым данным.

Упорядоченная стереотипная модель

Упорядоченная стереотипная модель определяется тем , что параметры оценки ограничены таким образом, что . $\log \left[{\frac {\Pr(Y=k)}{\Pr(Y=1)}}\right]=\mu _{k}+\phi _{k}\mathbf {\beta } ^{T}\mathbf {x}$ $0=\phi _{1}\leq \phi _{2}\leq \dots \leq \phi _{q}=1$

Это более экономичная и более специализированная модель, чем базовая модель логит-категории: ее можно рассматривать как аналогичную . $\phi _{k}\mathbf {\beta }$ $\mathbf {\beta } _{k}$

Неупорядоченная стереотипная модель имеет ту же форму, что и упорядоченная стереотипная модель, но без упорядочения, налагаемого на . Эту модель можно применять к номинальным данным. $\phi _{k}$

Обратите внимание, что подобранные оценки, , показывают, насколько легко различать разные уровни . Если то это указывает на то, что текущий набор данных для ковариатов не предоставляет достаточно информации для различения уровней и , но это не обязательно означает, что фактические значения и сильно различаются. И если значения ковариатов изменяются, то для этих новых данных подобранные оценки и могут сильно различаться. ${\hat {\phi }}_{k}$ $Y$ ${\hat {\phi }}_{k}\approx {\hat {\phi }}_{k-1}$ $\mathbf {x}$ $k$ $k-1$ $k$ $k-1$ ${\hat {\phi }}_{k}$ ${\hat {\phi }}_{k-1}$

Логистическая модель смежных категорий

Модель смежных категорий определяется, хотя наиболее распространенная форма, называемая в работе Агрести (2010) ^[12] «формой пропорциональных шансов», определяется следующим образом: $\log \left[{\frac {\Pr(Y=k)}{\Pr(Y=k+1)}}\right]=\mu _{k}+\mathbf {\beta } _{k}^{T}\mathbf {x}$ $\log \left[{\frac {\Pr(Y=k)}{\Pr(Y=k+1)}}\right]=\mu _{k}+\mathbf {\beta } ^{T}\mathbf {x}$

Эту модель можно применять только к порядковым данным, поскольку моделирование вероятностей переходов из одной категории в следующую подразумевает, что существует упорядоченность этих категорий.

Логит-модель смежных категорий можно рассматривать как частный случай логит-модели базовой категории, где . Логит-модель смежных категорий можно также рассматривать как частный случай упорядоченной стереотипной модели, где , т.е. расстояния между определяются заранее, а не оцениваются на основе данных. $\mathbf {\beta } _{k}=\mathbf {\beta } (k-1)$ $\phi _{k}\propto k-1$ $\phi _{k}$

Сравнение моделей

Модель пропорциональных шансов имеет совершенно иную структуру по сравнению с тремя другими моделями, а также иное базовое значение. Обратите внимание, что размер справочной категории в модели пропорциональных шансов меняется в зависимости от , поскольку сравнивается с , тогда как в других моделях размер справочной категории остается фиксированным, поскольку сравнивается с или . $k$ $Y\leq k$ $Y>k$ $Y=k$ $Y=1$ $Y=k+1$

Различные функции ссылок

Существуют варианты всех моделей, использующие различные функции связи, такие как пробит-связь или дополнительная логарифмическая связь.

Статистические тесты

Различия в порядковых данных можно проверить с помощью ранговых тестов .

Визуализация и отображение

Порядковые данные можно визуализировать несколькими способами. Распространенными визуализациями являются столбчатая диаграмма или круговая диаграмма . Таблицы также могут быть полезны для отображения порядковых данных и частот. Мозаичные диаграммы можно использовать для отображения связи между порядковой переменной и номинальной или порядковой переменной. ^[13] Рельефная диаграмма — линейная диаграмма, которая показывает относительный рейтинг элементов от одного момента времени к другому — также подходит для порядковых данных. ^[14]

Цвет или градации серого могут использоваться для представления упорядоченной природы данных. Однонаправленная шкала, такая как диапазоны доходов, может быть представлена в виде столбчатой диаграммы, где увеличение (или уменьшение) насыщенности или светлоты одного цвета указывает на более высокий (или более низкий) доход. Порядковое распределение переменной, измеренной по двухнаправленной шкале, такой как шкала Лайкерта, также может быть проиллюстрировано цветом в составной столбчатой диаграмме. Нейтральный цвет (белый или серый) может использоваться для средней (нулевой или нейтральной) точки, с контрастными цветами, используемыми в противоположных направлениях от средней точки, где увеличение насыщенности или темноты цветов может указывать на категории на увеличивающемся расстоянии от средней точки. ^[15] Хороплетные карты также используют цвет или затенение в оттенках серого для отображения порядковых данных. ^[16]

Приложения

Использование порядковых данных можно найти в большинстве областей исследований, где генерируются категориальные данные. Установки, где порядковые данные часто собираются, включают социальные и поведенческие науки, а также правительственные и деловые установки, где измерения собираются у людей путем наблюдения, тестирования или анкетирования . Некоторые общие контексты для сбора порядковых данных включают исследования опросов ; ^[17]^[18] и тестирование интеллекта , способностей , личности и принятия решений . ^[2]^[4]^{: 89–90}

Расчет «размера эффекта» (дельта d Клиффа ) с использованием порядковых данных был рекомендован в качестве меры статистического доминирования. ^[19]

Смотрите также

Ссылки

^ abcd Агрести, Алан (2013). Категориальный анализ данных (3-е изд.). Хобокен, Нью-Джерси: John Wiley & Sons. ISBN 978-0-470-46363-5.
^ ab Ataei, Younes; Mahmoudi, Amin; Feylizadeh, Mohammad Reza; Li, Deng-Feng (январь 2020 г.). «Подход с порядковыми приоритетами (OPA) при принятии решений по нескольким атрибутам». Applied Soft Computing . 86 : 105893. doi : 10.1016/j.asoc.2019.105893. ISSN 1568-4946. S2CID 209928171.
^ ab Stevens, SS (1946). «О теории шкал измерения». Science . New Series. 103 (2684): 677–680. Bibcode : 1946Sci...103..677S. doi : 10.1126/science.103.2684.677. PMID 17750512.
^ abc Коэн, Рональд Джей; Свердик, Марк Э.; Филлипс, Сюзанна М. (1996). Психологическое тестирование и оценка: Введение в тесты и измерения (3-е изд.). Маунтин-Вью, Калифорния: Мейфилд. С. 685. ISBN 1-55934-427-X.
^ abcdefghij Сигел, Сидней; Кастеллан, Н. Джон младший (1988). Непараметрическая статистика для поведенческих наук (2-е изд.). Бостон: МакГроу-Хилл. стр. 25–26. ISBN 0-07-057357-3.
^ Джеймисон, Сьюзан (декабрь 2004 г.). «Шкалы Лайкерта: как их (использовать)» (PDF) . Медицинское образование . 38 (12): 1212–1218. doi :10.1111/j.1365-2929.2004.02012.x. PMID 15566531. S2CID 42509064.
^ Сарл, Уоррен С. (14 сентября 1997 г.). «Теория измерений: часто задаваемые вопросы».
^ Ван Белль, Джеральд (2002). Статистические правила большого пальца . Нью-Йорк: John Wiley & Sons. С. 23–24. ISBN 0-471-40227-3.
^ abcdefghijkl Блэлок, Хьюберт М. младший (1979). Социальная статистика (Rev. 2nd ed.). Нью-Йорк: McGraw-Hill. ISBN 0-07-005752-4.
^ Коэн, Джейкоб; Коэн, Патрисия (1983). Прикладной множественный регрессионный/корреляционный анализ для поведенческих наук (2-е изд.). Хиллсдейл, Нью-Джерси: Lawrence Erlbaum Associates. стр. 273. ISBN 0-89859-268-2.
^ Лэрд, Нэн М. (1979). «Заметка о классификации данных порядковой шкалы». Социологическая методология . 10 : 303–310. doi :10.2307/270775. JSTOR 270775.
^ ab Agresti, Alan (2010). Анализ порядковых категориальных данных (2-е изд.). Хобокен, Нью-Джерси: Wiley. ISBN 978-0470082898.
^ «Техники построения сюжета».
^ Беринато, Скотт (2016). Хорошие диаграммы: руководство HBR по созданию более умных и убедительных визуализаций данных . Бостон: Harvard Business Review Press. стр. 228. ISBN 978-1633690707.
^ Кирк, Энди (2016). Визуализация данных: Справочник по проектированию на основе данных (1-е изд.). Лондон: SAGE. стр. 269. ISBN 978-1473912144.
^ Каиро, Альберто (2016). Истинное искусство: данные, диаграммы и карты для коммуникации (1-е изд.). Сан-Франциско: New Riders. стр. 280. ISBN 978-0321934079.
^ Alwin, Duane F. (2010). «Оценка надежности и валидности показателей обследования». В Marsden, Peter V.; Wright, James D. (ред.). Handbook of Survey Research . Howard House, Wagon Lane, Bingley BD16 1WA, UK: Emerald House. стр. 420. ISBN 978-1-84855-224-1.{{cite book}}: CS1 maint: location (link)
^ Фаулер, Флойд Дж. младший (1995). Улучшение вопросов для опроса: разработка и оценка. Thousand Oaks, CA: Sage. стр. 156–165. ISBN 0-8039-4583-3.
^ Клифф, Норман (ноябрь 1993 г.). «Статистика доминирования: порядковый анализ для ответа на порядковые вопросы». Psychological Bulletin . 114 (3): 494–509. doi :10.1037/0033-2909.114.3.494. ISSN 1939-1455.

Дальнейшее чтение

Агрести, Алан (2010). Анализ порядковых категориальных данных (2-е изд.). Хобокен, Нью-Джерси: Wiley. ISBN 978-0470082898.