Уровень измерения или шкала измерения — это классификация, которая описывает природу информации в пределах значений, присвоенных переменным . [1] Психолог Стэнли Смит Стивенс разработал самую известную классификацию с четырьмя уровнями или шкалами измерения: номинальный, порядковый, интервальный и относительный. [1] [2] Эта структура различения уровней измерения возникла в психологии и с тех пор имеет сложную историю, будучи принятой и расширенной в некоторых дисциплинах и некоторыми учеными, и подвергнутой критике или отвергнутой другими. [3] Другие классификации включают классификации Мостеллера и Тьюки , [4] и Крисмана. [5]
Стивенс предложил свою типологию в статье журнала Science 1946 года под названием «О теории шкал измерения». [2] В этой статье Стивенс утверждал, что все измерения в науке проводятся с использованием четырех различных типов шкал, которые он назвал «номинальными», «порядковыми», «интервальными» и «отношениями», объединяя как « качественные » (которые описываются его «номинальным» типом), так и « количественные » (в разной степени все остальные его шкалы). Концепция типов шкал позже получила математическую строгость, которой ей не хватало в начале, благодаря работам математических психологов Теодора Альпера (1985, 1987), Луи Наренса (1981a, b) и Р. Дункана Люса (1986, 1987, 2001). Как писал Люс (1997, стр. 395):
SS Stevens (1946, 1951, 1975) утверждал, что значение имеет наличие интервальной или пропорциональной шкалы. Последующие исследования придали смысл этому утверждению, но, учитывая его попытки использовать идеи типа шкалы, сомнительно, что он сам это понимал... ни один известный мне теоретик измерений не принимает широкое определение измерения Стивенса... по нашему мнению, единственное разумное значение слова «правило» — это эмпирически проверяемые законы об атрибуте.
Номинальная шкала состоит только из нескольких отдельных классов или категорий, например: [Кошка, Собака, Кролик]. В отличие от других шкал, ни на какие отношения между классами нельзя положиться. Таким образом, измерение с помощью номинальной шкалы эквивалентно классификации .
Номинальное измерение может различать элементы или субъекты, основываясь только на их именах или (мета-)категориях и других качественных классификациях, к которым они принадлежат. Таким образом, утверждается, что даже дихотомические данные опираются на конструктивистскую эпистемологию . В этом случае обнаружение исключения из классификации можно рассматривать как прогресс.
Для представления переменных могут использоваться числа, но числа не имеют числового значения или связи: например, глобальный уникальный идентификатор .
Примерами таких классификаций являются пол, национальность, этническая принадлежность, язык, жанр, стиль, биологический вид и форма. [6] [7] В университете можно также использовать общежитие или принадлежность к факультету в качестве примеров. Другие конкретные примеры:
Номинальные шкалы часто называли качественными шкалами, а измерения, выполненные на качественных шкалах, называли качественными данными. Однако рост качественных исследований сделал это использование запутанным. Если числа назначаются в качестве меток в номинальном измерении, они не имеют конкретного числового значения или смысла. Никакая форма арифметических вычислений (+, −, × и т. д.) не может быть выполнена на номинальных мерах. Номинальный уровень — это самый низкий уровень измерения, используемый со статистической точки зрения.
Равенство и другие операции, которые можно определить в терминах равенства, такие как неравенство и членство во множестве , являются единственными нетривиальными операциями , которые в общем случае применяются к объектам номинального типа.
Мода , т.е. наиболее распространенный элемент, допускается как мера центральной тенденции для номинального типа. С другой стороны, медиана , т.е. элемент, занимающий среднее место , не имеет смысла для номинального типа данных, поскольку ранжирование для номинального типа бессмысленно. [8]
Порядковый тип допускает ранговый порядок (1-й, 2-й, 3-й и т. д.), по которому данные могут быть отсортированы, но все еще не допускает относительной степени различия между ними. Примерами являются, с одной стороны, дихотомические данные с дихотомическими (или дихотомизированными) значениями, такими как «больной» против «здоровый» при измерении здоровья, «виновный» против «невиновный» при вынесении решений в судах, «неправильно/ложно» против «правильно/истинно» при измерении истинностного значения , и, с другой стороны, недихотомические данные, состоящие из спектра значений, таких как «полностью согласен», «в основном согласен», «в основном не согласен», «полностью не согласен» при измерении мнения .
Порядковая шкала располагает события по порядку, но не делается попытки сделать интервалы шкалы равными с точки зрения какого-либо правила. Ранги представляют собой порядковые шкалы и часто используются в исследованиях, связанных с качественными явлениями. Ранг студента в его выпускном классе подразумевает использование порядковой шкалы. Нужно быть очень осторожным, делая заявления о баллах, основанных на порядковых шкалах. Например, если позиция Деви в его классе 10, а позиция Ганги 40, нельзя сказать, что позиция Деви в четыре раза лучше, чем у Ганги. Порядковые шкалы позволяют ранжировать элементы только от самого высокого к самому низкому. Порядковые меры не имеют абсолютных значений, и реальные различия между соседними рангами могут быть не равными. Все, что можно сказать, это то, что один человек выше или ниже на шкале, чем другой, но более точные сравнения сделать нельзя. Таким образом, использование порядковой шкалы подразумевает утверждение «больше чем» или «меньше чем» (утверждение о равенстве также приемлемо), без возможности указать, насколько больше или меньше. Реальная разница между рангами 1 и 2, например, может быть больше или меньше разницы между рангами 5 и 6. Поскольку числа этой шкалы имеют только ранговое значение, подходящей мерой центральной тенденции является медиана. Процентильная или квартильная мера используется для измерения дисперсии. Корреляции ограничены различными методами ранжирования. Меры статистической значимости ограничены непараметрическими методами (RM Kothari, 2004).
Медиана , т.е. элемент, занимающий среднее место , допускается в качестве меры центральной тенденции ; однако среднее значение (или усредненное значение) в качестве меры центральной тенденции не допускается. Мода допускается.
В 1946 году Стивенс заметил, что психологическое измерение, такое как измерение мнений, обычно работает на порядковых шкалах; таким образом, средние значения и стандартные отклонения не имеют никакой достоверности , но их можно использовать для получения идей о том, как улучшить операционализацию переменных, используемых в анкетах . Большинство психологических данных, собранных с помощью психометрических инструментов и тестов, измеряющих когнитивные и другие способности, являются порядковыми, хотя некоторые теоретики утверждали, что их можно рассматривать как интервальные или относительные шкалы. Однако существует мало prima facie доказательств, позволяющих предположить, что такие атрибуты являются чем-то большим, чем порядковые (Cliff, 1996; Cliff & Keats, 2003; Michell, 2008). [9] В частности, [10] баллы IQ отражают порядковую шкалу, в которой все баллы имеют смысл только для сравнения. [11] [12] [13] Абсолютного нуля не существует, и разница в 10 баллов может иметь разное значение в разных точках шкалы. [14] [15]
Тип интервала позволяет определять степень разницы между измерениями, но не соотношение между измерениями. Примерами служат температурные шкалы со шкалой Цельсия , которая имеет две определенные точки (точка замерзания и точка кипения воды при определенных условиях), а затем разделена на 100 интервалов, дата при измерении от произвольной эпохи (например, нашей эры), местоположение в декартовых координатах и направление, измеренное в градусах от истинного или магнитного севера. Отношения не имеют смысла, поскольку нельзя сказать, что 20 °C «вдвое горячее», чем 10 °C (в отличие от температуры в кельвинах ), и нельзя напрямую выполнять умножение/деление между любыми двумя датами. Однако можно выразить соотношения разностей ; например, одна разность может быть вдвое больше другой; например, разница в десять градусов между 15 °C и 25 °C вдвое больше разницы в пять градусов между 17 °C и 22 °C. Переменные интервального типа иногда также называют «масштабированными переменными», но формальным математическим термином является аффинное пространство (в данном случае аффинная линия ).
Мода , медиана и среднее арифметическое могут измерять центральную тенденцию интервальных переменных, в то время как меры статистической дисперсии включают размах и стандартное отклонение . Поскольку можно делить только на разности , нельзя определить меры, требующие некоторых соотношений, таких как коэффициент вариации . Более тонко, хотя можно определить моменты относительно начала координат , только центральные моменты имеют смысл, поскольку выбор начала координат произволен. Можно определить стандартизированные моменты , поскольку соотношения разностей имеют смысл, но нельзя определить коэффициент вариации, поскольку среднее значение является моментом относительно начала координат, в отличие от стандартного отклонения, которое является (квадратным корнем) центрального момента.
Тип отношения получил свое название от того факта, что измерение является оценкой отношения между величиной непрерывной величины и единицей измерения того же рода (Michell, 1997, 1999). Большинство измерений в физических науках и технике выполняется на шкалах отношений. Примерами являются масса , длина , длительность , плоский угол , энергия и электрический заряд . В отличие от интервальных шкал, отношения можно сравнивать с помощью деления . Очень неформально, многие шкалы отношений можно описать как указывающие «сколько» чего-либо (т. е. количества или величины). Шкала отношений часто используется для выражения порядка величины, например, для температуры в Порядки величины (температура) .
Геометрическое среднее и гармоническое среднее разрешено для измерения центральной тенденции, в дополнение к моде, медиане и арифметическому среднему. Стьюдентизированный размах и коэффициент вариации разрешены для измерения статистической дисперсии. Все статистические меры разрешены, поскольку все необходимые математические операции определены для шкалы отношений.
Хотя типология Стивенса широко принята, она по-прежнему оспаривается другими теоретиками, особенно в случаях номинальных и порядковых типов (Мичелл, 1986). [16] Дункан (1986), например, возражал против использования слова «измерение» по отношению к номинальному типу, а Люс (1997) не соглашался с определением измерения, данным Стивеном.
С другой стороны, Стивенс (1975) сказал о своем собственном определении измерения, что «назначение может быть любым последовательным правилом. Единственным недопустимым правилом было бы случайное назначение, поскольку случайность фактически означает отсутствие правила». Хэнд говорит: «Основные тексты по психологии часто начинаются с фреймворка Стивенса, и его идеи повсеместны. Действительно, существенная обоснованность его иерархии была установлена для репрезентативного измерения математиками, определяющими свойства инвариантности отображений из эмпирических систем в действительные числовые континуумы. Конечно, идеи были пересмотрены, расширены и разработаны, но примечательно то, что он проницателен, учитывая относительно ограниченный формальный аппарат, доступный ему, и то, сколько десятилетий прошло с тех пор, как он их придумал». [17]
Использование среднего значения в качестве меры центральной тенденции для порядкового типа все еще является предметом споров среди тех, кто принимает типологию Стивенса. Многие ученые-бихевиористы в любом случае используют среднее значение для порядковых данных. Это часто оправдывается тем, что порядковый тип в поведенческой науке на самом деле находится где-то между истинным порядковым и интервальным типами; хотя интервальная разница между двумя порядковыми рангами не является постоянной, она часто имеет тот же порядок величины.
Например, применение моделей измерения в образовательных контекстах часто указывает на то, что общие баллы имеют довольно линейную связь с измерениями по всему диапазону оценки. Таким образом, некоторые утверждают, что до тех пор, пока неизвестная разница интервалов между рангами порядковой шкалы не слишком изменчива, статистики интервальной шкалы, такие как средние значения, могут осмысленно использоваться для переменных порядковой шкалы. Программное обеспечение для статистического анализа, такое как SPSS, требует от пользователя выбора соответствующего класса измерения для каждой переменной. Это гарантирует, что последующие ошибки пользователя не смогут непреднамеренно выполнить бессмысленный анализ (например, корреляционный анализ с переменной на номинальном уровне).
LL Thurstone добился прогресса в разработке обоснования для получения интервального типа, основанного на законе сравнительного суждения . Распространенным применением закона является аналитический иерархический процесс . Дальнейший прогресс был достигнут Георгом Рашем (1960), который разработал вероятностную модель Раша , которая обеспечивает теоретическую основу и обоснование для получения измерений на уровне интервалов из подсчетов наблюдений, таких как общие баллы по оценкам.
Были предложены типологии, отличные от типологии Стивенса. Например, Мостеллер и Тьюки (1977), Нелдер (1990) [18] описали непрерывные подсчеты, непрерывные отношения, подсчетные отношения и категориальные режимы данных. См. также Крисмана (1998), ван ден Берга (1991). [19]
Мостеллер и Тьюки [4] отметили, что четыре уровня не являются исчерпывающими, и предложили:
Например, проценты (вариация дробей в системе Мостеллера–Тьюки) плохо вписываются в систему Стивенса: ни одно преобразование не является полностью допустимым. [16]
Николас Р. Крисман [5] представил расширенный список уровней измерения для учета различных измерений, которые не обязательно соответствуют традиционным представлениям об уровнях измерения. Измерения, привязанные к диапазону и повторяющиеся (например, градусы в круге, время по часам и т. д.), градуированные категории членства и другие типы измерений не соответствуют оригинальной работе Стивенса, что привело к введению шести новых уровней измерения, в общей сложности десяти:
Хотя некоторые утверждают, что расширенные уровни измерения редко используются за пределами академической географии, [20] градуированное членство является центральным в теории нечетких множеств , в то время как абсолютные измерения включают вероятности и правдоподобие и невежество в теории Демпстера-Шейфера . Циклические измерения отношения включают углы и время. Подсчеты кажутся измерениями отношения, но масштаб не является произвольным, и дробные подсчеты обычно бессмысленны. Измерения логарифмического интервала обычно отображаются в графиках фондового рынка. Все эти типы измерений обычно используются за пределами академической географии и не очень хорошо соответствуют оригинальной работе Стивенса.
Теория типов шкал является интеллектуальной служанкой «операциональной теории измерения» Стивенса, которая должна была стать окончательной в психологии и поведенческих науках , [ требуется ссылка ] несмотря на характеристику Мичелла как совершенно не соответствующей измерению в естественных науках (Michell, 1999). По сути, операциональная теория измерения была реакцией на выводы комитета, созданного в 1932 году Британской ассоциацией содействия развитию науки для исследования возможности подлинного научного измерения в психологических и поведенческих науках. Этот комитет, который стал известен как комитет Фергюсона , опубликовал Заключительный отчет (Ferguson, et al., 1940, p. 245), в котором шкала Стивенса ( Stevens & Davis, 1938) была объектом критики:
…любой закон, претендующий на выражение количественной связи между интенсивностью ощущения и интенсивностью стимула, не просто ложен, но фактически бессмыслен до тех пор, пока не будет придан смысл концепции сложения применительно к ощущению.
То есть, если шкала Сон Стивенса действительно измеряла интенсивность слуховых ощущений, то необходимо было предоставить доказательства того, что такие ощущения являются количественными атрибутами. Требуемым доказательством было наличие аддитивной структуры — концепции, всесторонне рассмотренной немецким математиком Отто Гёльдером (Hölder, 1901). Учитывая, что физик и теоретик измерений Норман Роберт Кэмпбелл доминировал в обсуждениях комитета Фергюсона, комитет пришел к выводу, что измерение в социальных науках невозможно из-за отсутствия операций конкатенации . Этот вывод позже был признан ложным открытием теории совместного измерения Дебре (1960) и независимо Люсом и Тьюки (1964). Однако реакция Стивенса заключалась не в проведении экспериментов для проверки наличия аддитивной структуры в ощущениях, а в том, чтобы сделать выводы комитета Фергюсона недействительными, предложив новую теорию измерения:
Перефразируя Н. Р. Кэмпбелла (Заключительный отчет, стр. 340), мы можем сказать, что измерение в самом широком смысле определяется как присвоение цифр объектам и событиям в соответствии с правилами (Стивенс, 1946, стр. 677).
На Стивенса оказали большое влияние идеи другого гарвардского ученого, [21] лауреата Нобелевской премии по физике Перси Бриджмена (1927), чью доктрину операционализма Стивенс использовал для определения измерения. Например, в определении Стивенса именно использование рулетки определяет длину (объект измерения) как измеримую (и, следовательно, по смыслу количественную). Критики операционализма возражают, что он путает отношения между двумя объектами или событиями со свойствами одного из объектов или событий. [22] [23] (Moyer, 1981a,b; Rogers, 1989).
Канадский теоретик измерений Уильям Розебум был одним из первых и резких критиков теории типов шкал Стивенса. [24]
Другая проблема заключается в том, что одна и та же переменная может иметь разный тип шкалы в зависимости от того, как она измеряется, и от целей анализа. Например, цвет волос обычно рассматривается как номинальная переменная, поскольку он не имеет очевидного порядка. [25] Однако можно упорядочить цвета (включая цвет волос) различными способами, в том числе по оттенку; это известно как колориметрия . Оттенок — это переменная уровня интервала.
Хотя, формально говоря, интервальное измерение всегда можно получить путем спецификации, такая спецификация теоретически значима только в том случае, если она подразумевается теорией и моделью, относящимися к процедуре измерения.
Хотя на практике IQ и большинство других человеческих характеристик, измеряемых психологическими тестами (таких как тревожность, интроверсия, самооценка и т. д.), рассматриваются как интервальные шкалы, многие исследователи утверждают, что их правильнее отнести к порядковым шкалам. Такие аргументы основываются на том факте, что такие измерения на самом деле не отвечают требованиям интервальной шкалы, поскольку невозможно продемонстрировать, что равные числовые различия в разных точках шкалы сопоставимы.
По сути, IQ — это ранг; истинных «единиц» интеллектуальных способностей не существует.
Показатель IQ не является результатом равноинтервального измерения, как это видно из Таблицы A.4 в руководстве WISC-III.
Когда мы дойдем до таких величин, как IQ или g, которые мы в настоящее время можем измерить, мы увидим позже, что у нас есть еще более низкий уровень измерения — порядковый уровень. Это означает, что числа, которые мы присваиваем индивидуумам, могут использоваться только для их ранжирования — число говорит нам, где индивидуум находится в порядке ранга, и ничего больше.
В идеале шкала измерения должна иметь истинную нулевую точку и идентичные интервалы. . . . Шкалы твердости лишены этих преимуществ, как и IQ. Абсолютного нуля не существует, и разница в 10 пунктов может иметь разное значение в разных точках шкалы.
На жаргоне теории психологических измерений IQ — это порядковая шкала, в которой мы просто ранжируем людей. ... Неуместно даже утверждать, что разница в 10 баллов между показателями IQ 110 и 100 такая же, как разница в 10 баллов между показателями IQ 160 и 150.