Уровень измерения или шкала измерения — это классификация, которая описывает характер информации в пределах значений, присвоенных переменным . [1] Психолог Стэнли Смит Стивенс разработал самую известную классификацию с четырьмя уровнями или шкалами измерения: номинальным, порядковым, интервальным и пропорциональным. [1] [2] Эта система различения уровней измерения зародилась в психологии и с тех пор имеет сложную историю: она была принята и расширена в некоторых дисциплинах и некоторыми учеными, а также подвергнута критике или отклонению другими. [3] Другие классификации включают классификации Мостеллера и Тьюки , [4] и Крисмана. [5]
Стивенс предложил свою типологию в статье Science 1946 года под названием «К теории шкал измерения». [2] В этой статье Стивенс утверждал, что все измерения в науке проводились с использованием четырех различных типов шкал, которые он назвал «номинальными», «порядковыми», «интервальными» и «отношениями», объединяя обе « качественные » шкалы (которые являются описывается его «номинальным» типом) и « количественным » (в разной степени все остальные его шкалы). Концепция типов масштабов позже получила математическую строгость, которой ей не хватало в начале, благодаря работам математических психологов Теодора Альпера (1985, 1987), Луи Наренса (1981a, b) и Р. Дункана Люса (1986, 1987, 2001). . Как писала Люс (1997, стр. 395):
С. С. Стивенс (1946, 1951, 1975) утверждал, что значение имеет интервальная шкала или шкала отношений. Последующие исследования придали смысл этому утверждению, но, учитывая его попытки использовать идеи типа шкалы, сомнительно, что он понял это сам... ни один теоретик измерений, которого я знаю, не принимает широкое определение измерения Стивенса... на наш взгляд, единственное разумное определение измерения. Значение слова «правило» — это эмпирически проверяемые законы об атрибуте.
Номинальный тип различает предметы или предметы только на основе их названий или (мета) категорий и других качественных классификаций, к которым они принадлежат; таким образом, дихотомические данные включают в себя построение классификаций , а также классификацию элементов. Обнаружение исключения из классификации можно рассматривать как прогресс. Для представления переменных можно использовать числа, но числа не имеют числового значения или взаимосвязи: например, глобальный уникальный идентификатор .
Примеры этих классификаций включают пол, национальность, этническую принадлежность, язык, жанр, стиль, биологический вид и форму. [6] [7] В университете в качестве примера можно также использовать общежитие или факультет. Другими конкретными примерами являются
Номинальные шкалы часто называли качественными шкалами, а измерения, выполненные по качественным шкалам, — качественными данными. Однако рост качественных исследований сделал это использование запутанным. Если числа назначаются в качестве меток при номинальном измерении, они не имеют конкретного числового значения или значения. Никакие формы арифметических вычислений (+, −, × и т. д.) не могут выполняться с номинальными мерами. Номинальный уровень — это самый низкий уровень измерения, используемый со статистической точки зрения.
Равенство и другие операции, которые могут быть определены в терминах равенства, такие как неравенство и членство в множестве , являются единственными нетривиальными операциями , которые в общем случае применяются к объектам номинального типа.
В качестве меры центральной тенденции для номинального типа допускается мода , т.е. наиболее распространенный параметр. С другой стороны, медиана , т.е. элемент среднего ранга , не имеет смысла для номинального типа данных, поскольку ранжирование не имеет смысла для номинального типа. [8]
Порядковый тип допускает ранговый порядок (1-й, 2-й, 3-й и т. д.), по которому можно сортировать данные, но при этом не учитывает относительную степень различия между ними. Примеры включают, с одной стороны, дихотомические данные с дихотомическими (или дихотомическими) значениями, такими как «больной» и «здоровый» при измерении здоровья, «виновный» и «невиновный» при вынесении решений в судах, «неправильный/ложный». ' против «верно/верно» при измерении значения истинности , и, с другой стороны, недихотомические данные, состоящие из спектра значений, таких как «полностью согласен», «в основном согласен», «в основном не согласен», «полностью согласен». не согласен» при измерении мнения .
Порядковая шкала упорядочивает события, но нет попытки сделать интервалы шкалы равными с точки зрения какого-либо правила. Ранговые порядки представляют собой порядковые шкалы и часто используются в исследованиях, касающихся качественных явлений. Звание учащегося в выпускном классе предполагает использование порядковой шкалы. Нужно быть очень осторожным, делая заявления о баллах, основанных на порядковых шкалах. Например, если позиция Деви в его классе равна 10, а позиция Ганги — 40, нельзя сказать, что позиция Деви в четыре раза лучше, чем позиция Ганги. Порядковые шкалы позволяют ранжировать элементы только от высшего к низшему. Порядковые меры не имеют абсолютных значений, и реальные различия между соседними рангами могут быть неравными. Все, что можно сказать, это то, что один человек стоит выше или ниже по шкале, чем другой, но более точные сравнения провести невозможно. Таким образом, использование порядковой шкалы подразумевает утверждение «больше» или «меньше» (утверждение о равенстве также приемлемо), при этом мы не можем указать, насколько больше или меньше. Например, реальная разница между рангами 1 и 2 может быть больше или меньше, чем разница между рангами 5 и 6. Поскольку числа этой шкалы имеют только ранговое значение, подходящей мерой центральной тенденции является медиана. Для измерения дисперсии используется процентиль или квартиль. Корреляции ограничены различными методами ранжирования. Измерения статистической значимости ограничиваются непараметрическими методами (RM Kothari, 2004).
Медианный , т.е. средний показатель , допускается в качестве меры центральной тенденции ; однако среднее значение (или среднее значение) как мера центральной тенденции не допускается. Режим разрешен .
В 1946 году Стивенс заметил, что психологические измерения, такие как измерение мнений, обычно проводятся по порядковым шкалам; таким образом, средние значения и стандартные отклонения не имеют юридической силы , но их можно использовать для получения идей о том, как улучшить операционализацию переменных, используемых в вопросниках . Большинство психологических данных, собранных с помощью психометрических инструментов и тестов, измеряющих когнитивные и другие способности, являются порядковыми, хотя некоторые теоретики утверждают, что их можно рассматривать как интервальные или пропорциональные шкалы. Однако существует мало доказательств prima facie , позволяющих предположить, что такие атрибуты являются чем-то большим, чем просто порядковыми (Cliff, 1996; Cliff & Keats, 2003; Michell, 2008). [9] В частности, [10] показатели IQ отражают порядковую шкалу, в которой все показатели имеют смысл только для сравнения. [11] [12] [13] Абсолютного нуля не существует, и разница в 10 пунктов может иметь разное значение в разных точках шкалы. [14] [15]
Тип интервала позволяет определить степень различия между измерениями, но не соотношение между измерениями. Примеры включают температурные шкалы со шкалой Цельсия , которая имеет две определенные точки (точки замерзания и кипения воды при определенных условиях), а затем разделены на 100 интервалов, дату , измеренную от произвольной эпохи (например, нашей эры), местоположение в декартовых координатах. и направление , измеренное в градусах от истинного или магнитного севера. Соотношения не имеют смысла, поскольку нельзя сказать, что 20 ° C «вдвое горячее», чем 10 ° C (в отличие от температуры в Кельвинах ), а также нельзя напрямую выполнять умножение / деление между любыми двумя датами. Однако можно выразить соотношения различий ; например, одна разница может быть вдвое больше другой; например, разница в десять градусов между 15 °C и 25 °C в два раза превышает разницу в пять градусов между 17 °C и 22 °C. Переменные интервального типа иногда также называют «масштабируемыми переменными», но формальным математическим термином является аффинное пространство (в данном случае аффинная линия ).
Мода , медиана и среднее арифметическое позволяют измерять центральную тенденцию интервальных переменных, тогда как меры статистической дисперсии включают диапазон и стандартное отклонение . Поскольку делить можно только на разности , нельзя определить меры, требующие некоторых коэффициентов, таких как коэффициент вариации . Более тонко: хотя можно определить моменты относительно начала координат , значимыми являются только центральные моменты, поскольку выбор начала координат произволен. Можно определить стандартизированные моменты , поскольку отношения разностей имеют смысл, но нельзя определить коэффициент вариации, поскольку среднее значение — это момент относительно начала координат, в отличие от стандартного отклонения, которое (квадратный корень) является центральным моментом.
Тип отношения получил свое название от того факта, что измерение — это оценка отношения между величиной непрерывной величины и единицей измерения того же вида (Michell, 1997, 1999). Большинство измерений в физических науках и технике проводится на шкалах отношений. Примеры включают массу , длину , продолжительность , угол плоскости , энергию и электрический заряд . В отличие от интервальных шкал, отношения можно сравнивать с помощью деления . Очень неформально многие шкалы отношений можно описать как определяющие «сколько» чего-либо (т. е. количества или величины). Шкала отношений часто используется для выражения порядка величины , например, для температуры в порядках величины (температура) .
Среднее геометрическое и среднее гармоническое позволяют измерять центральную тенденцию в дополнение к моде, медиане и среднему арифметическому. Стьюдентизированный диапазон и коэффициент вариации позволяют измерять статистическую дисперсию. Допускаются все статистические измерения, поскольку для шкалы отношений определены все необходимые математические операции.
Хотя типология Стивенса получила широкое распространение, она все еще оспаривается другими теоретиками, особенно в случае номинальных и порядковых типов (Michell, 1986). [16] Дункан (1986), например, возражал против использования слова « измерение» по отношению к номинальному типу, а Люс (1997) не соглашался с определением измерения, данным Стивеном.
С другой стороны, Стивенс (1975) сказал о своем собственном определении измерения, что «назначение может быть любым непротиворечивым правилом. Единственным недопустимым правилом является случайное назначение, поскольку случайность фактически равносильна неправилу». Хэнд говорит: «Тексты по фундаментальной психологии часто начинаются с структуры Стивенса, и идеи повсеместно распространены. Действительно, существенная обоснованность его иерархии была установлена для репрезентативных измерений математиками, определяя свойства инвариантности отображений эмпирических систем в континуумы действительных чисел. Конечно, идеи были пересмотрены, расширены и развиты, но примечательна его проницательность, учитывая относительно ограниченный формальный аппарат, доступный ему, и то, сколько десятилетий прошло с тех пор, как он их придумал». [17]
Хотя Стивенс предположил, что уровень измерения набора наблюдений определяет, какие математические или статистические операции допустимы, сам по себе статистический анализ обычно не делает предположений об уровнях измерения [18] .
Использование среднего значения в качестве меры центральной тенденции для порядкового типа до сих пор остается спорным среди тех, кто принимает типологию Стивенса. В любом случае многие ученые-бихевиористы используют среднее значение для порядковых данных. Это часто оправдывается тем, что порядковый тип в науке о поведении на самом деле находится где-то между истинными порядковым и интервальным типами; хотя интервальная разница между двумя порядковыми рангами не постоянна, часто она имеет один и тот же порядок.
Например, применение моделей измерения в образовательном контексте часто показывает, что общие баллы имеют довольно линейную связь с измерениями по всему диапазону оценки. Таким образом, некоторые утверждают, что до тех пор, пока неизвестная интервальная разница между рангами порядковой шкалы не слишком изменчива, статистика интервальной шкалы, такая как средние значения, может значимо использоваться для переменных порядковой шкалы. Программное обеспечение для статистического анализа, такое как SPSS, требует от пользователя выбора соответствующего класса измерения для каждой переменной. Это гарантирует, что последующие ошибки пользователя не смогут случайно привести к бессмысленному анализу (например, корреляционный анализ с переменной на номинальном уровне).
Л. Л. Терстон добился прогресса в разработке обоснования получения интервального типа, основанного на законе сравнительного суждения . Распространенным применением закона является процесс анализа иерархии . Дальнейший прогресс был достигнут Георгом Рашем (1960), который разработал вероятностную модель Раша , которая обеспечивает теоретическую основу и обоснование для получения измерений на интервальном уровне на основе количества наблюдений, таких как общие баллы по оценкам.
Были предложены типологии помимо типологии Стивенса. Например, Мостеллер и Тьюки (1977), Нелдер (1990) [19] описали непрерывный подсчет, непрерывные отношения, отношения подсчета и категориальные режимы данных. См. также Крисман (1998), ван ден Берг (1991). [20]
Мостеллер и Тьюки [4] отметили, что четыре уровня не являются исчерпывающими, и предложили:
Например, проценты (вариант дробей в системе Мостеллера-Тьюки) плохо вписываются в структуру Стивенса: никакие преобразования не являются полностью допустимыми. [16]
Николас Р. Крисман [5] представил расширенный список уровней измерения для учета различных измерений, которые не обязательно соответствуют традиционным представлениям об уровнях измерения. Измерения, привязанные к диапазону и повторяющиеся (например, градусы в круге, время по часам и т. д.), градуированные категории членства и другие типы измерений не соответствуют исходной работе Стивенса, что привело к введению шести новых уровней измерения, для всего десять:
Хотя некоторые утверждают, что расширенные уровни измерения редко используются за пределами академической географии, [21] градуированное членство занимает центральное место в теории нечетких множеств , в то время как абсолютные измерения включают вероятности, а также правдоподобие и незнание в теории Демпстера-Шейфера . Измерения циклических соотношений включают углы и время. Кажется, что подсчеты представляют собой измерения отношений, но масштаб не является произвольным, и дробные подсчеты обычно бессмысленны. Измерения логарифмических интервалов обычно отображаются на графиках фондового рынка. Все эти типы измерений обычно используются за пределами академической географии и не соответствуют оригинальной работе Стивенса.
Теория типов шкалы является интеллектуальной помощницей «операционной теории измерения» Стивенса, которая должна была стать окончательной в психологии и поведенческих науках , несмотря на характеристику Мичелла как совершенно противоречащую измерениям в естественных науках ( Мичелл, 1999). По сути, операционная теория измерения была реакцией на выводы комитета, созданного в 1932 году Британской ассоциацией развития науки для исследования возможности подлинно научных измерений в психологических и поведенческих науках. Этот комитет, который стал известен как комитет Фергюсона , опубликовал Заключительный отчет (Ferguson, et al., 1940, стр. 245), в котором шкала Стивенса (Stevens & Davis, 1938) стала объектом критики:
…любой закон, претендующий на выражение количественной связи между интенсивностью ощущения и интенсивностью стимула, не просто ложен, но фактически бессмыслен до тех пор, пока не будет придан смысл понятию сложения применительно к ощущению.
То есть, если шкала Стивенса действительно измеряла интенсивность слуховых ощущений, то необходимо было предоставить доказательства того, что такие ощущения являются количественными атрибутами. Необходимым доказательством было наличие аддитивной структуры – концепции, всесторонне разработанной немецким математиком Отто Гёльдером (Hölder, 1901). Учитывая, что физик и теоретик измерений Норман Роберт Кэмпбелл доминировал в обсуждениях комитета Фергюсона, комитет пришел к выводу, что измерения в социальных науках невозможны из-за отсутствия операций конкатенации . Позднее этот вывод оказался ложным благодаря открытию теории совместного измерения Дебре (1960) и независимо Люсом и Тьюки (1964). Однако реакцией Стивенса было не проведение экспериментов для проверки наличия аддитивной структуры в ощущениях, а вместо этого аннулирование выводов комитета Фергюсона, предложив новую теорию измерения:
Перефразируя Н. Р. Кэмпбелла (Заключительный отчет, с. 340), можно сказать, что измерение в самом широком смысле определяется как присвоение чисел объектам и событиям в соответствии с правилами (Стивенс, 1946, с. 677).
На Стивенса большое влияние оказали идеи другого ученого из Гарварда, [22] физика , лауреата Нобелевской премии Перси Бриджмена (1927), чью доктрину операционализма Стивенс использовал для определения измерения. Например, в определении Стивенса именно использование рулетки определяет длину (объект измерения) как измеримую (и, следовательно, косвенно количественную). Критики операционизма возражают, что он путает отношения между двумя объектами или событиями со свойствами одного из объектов или событий. [23] [24] (Мойер, 1981a,b; Роджерс, 1989).
Канадский теоретик измерений Уильям Розбум был одним из первых и резких критиков теории типов масштабов Стивенса. [25]
Другая проблема заключается в том, что одна и та же переменная может относиться к разным типам шкалы в зависимости от того, как она измеряется и от целей анализа. Например, цвет волос обычно считают номинальной переменной, поскольку он не имеет очевидного порядка. [26] Однако заказать цвета (в том числе цвета для волос) можно различными способами, в том числе по оттенку; это известно как колориметрия . Оттенок — это переменная интервального уровня.
Хотя, формально говоря, интервальное измерение всегда можно получить путем спецификации, такая спецификация имеет теоретический смысл только в том случае, если она подразумевается теорией и моделью, соответствующей процедуре измерения.
Хотя на практике IQ и большинство других характеристик человека, измеряемых с помощью психологических тестов (таких как тревога, интроверсия, самооценка и т. д.), рассматриваются как интервальные шкалы, многие исследователи утверждают, что их правильнее отнести к порядковым шкалам. Такие аргументы будут основаны на том факте, что такие меры на самом деле не отвечают требованиям интервальной шкалы, поскольку невозможно продемонстрировать, что равные численные различия в разных точках шкалы сопоставимы.
IQ – это, по сути, ранг; не существует настоящих «единиц» интеллектуальных способностей.
Оценка IQ не является оценкой с равными интервалами, как видно из Таблицы A.4 в руководстве WISC-III.
Когда мы подойдем к таким величинам, как IQ или g, в том виде, в котором мы в настоящее время можем их измерить, позже мы увидим, что имеем еще более низкий уровень измерения — порядковый уровень. Это означает, что числа, которые мы присваиваем отдельным лицам, можно использовать только для их ранжирования — число говорит нам, на каком месте в рейтинге находится человек, и ничего больше.
В идеале шкала измерений должна иметь истинную нулевую точку и одинаковые интервалы. . . . Шкалы твердости лишены этих преимуществ, как и IQ. Абсолютного нуля не существует, и разница в 10 пунктов может иметь разное значение в разных точках шкалы.
На жаргоне теории психологических измерений IQ — это порядковая шкала, по которой мы просто ранжируем людей. . . . Даже неуместно утверждать, что разница в 10 баллов между показателями IQ 110 и 100 такая же, как разница в 10 баллов между IQ 160 и 150.