Психометрия — это область изучения в психологии, занимающаяся теорией и техникой измерения . Психометрия обычно охватывает специализированные области в психологии и образовании, посвященные тестированию, измерению, оценке и связанным с этим видам деятельности. [1] Психометрия занимается объективным измерением скрытых конструкций, которые не могут быть непосредственно обнаружены. Примерами скрытых конструкций являются интеллект , интроверсия , психические расстройства и образовательные достижения . [2] Уровни людей по ненаблюдаемым скрытым переменным выводятся с помощью математического моделирования на основе того, что наблюдается из ответов людей на пункты тестов и шкал. [2]
Практикующие специалисты описываются как психометристы, хотя не все, кто занимается психометрическими исследованиями, носят это звание. Психометристы обычно обладают определенной квалификацией, такой как степени или сертификаты, и большинство из них являются психологами с углубленной подготовкой в области психометрии и теории измерений. Помимо традиционных академических учреждений, специалисты также работают в таких организациях, как Educational Testing Service и Psychological Corporation . Некоторые исследователи психометрии сосредоточены на разработке и проверке инструментов оценки, включая опросы , шкалы и открытые или закрытые анкеты . Другие сосредоточены на исследованиях, связанных с теорией измерений (например, теория ответов на вопросы , внутриклассовая корреляция ) или специализируются как специалисты по обучению и развитию .
Психологическое тестирование произошло из двух направлений мысли: первое, от Дарвина , Гальтона и Кеттелла , по измерению индивидуальных различий, и второе, от Гербарта , Вебера , Фехнера и Вундта и их психофизических измерений схожей конструкции. Вторая группа людей и их исследования привели к развитию экспериментальной психологии и стандартизированного тестирования. [3]
Чарльз Дарвин был вдохновителем Фрэнсиса Гальтона, ученого, который продвинул развитие психометрии. В 1859 году Дарвин опубликовал свою книгу « О происхождении видов» . Дарвин описал роль естественного отбора в возникновении с течением времени различных популяций видов растений и животных. Книга показала, как отдельные члены вида отличаются друг от друга и как они обладают характеристиками, которые более или менее адаптивны к их среде. Те, у кого более адаптивные характеристики, с большей вероятностью выживут, чтобы произвести потомство и дать начало другому поколению. Те, у кого менее адаптивные характеристики, с меньшей вероятностью. Эти идеи стимулировали интерес Гальтона к изучению людей и того, как они отличаются друг от друга и как измерить эти различия.
Гальтон написал книгу под названием «Наследственный гений» , которая была впервые опубликована в 1869 году. В книге описывались различные характеристики, которыми обладают люди, и то, как эти характеристики делают некоторых людей более «подходящими», чем других. Сегодня эти различия, такие как сенсорные и моторные функции (время реакции, острота зрения и физическая сила), являются важными областями научной психологии. Большая часть ранних теоретических и прикладных работ в области психометрии была предпринята в попытке измерить интеллект . Гальтона часто называют «отцом психометрии», он разработал и включил умственные тесты в свои антропометрические измерения. Джеймс Маккин Кэттелл , пионер в области психометрии, продолжил работу Гальтона. Кэттелл ввел термин «умственный тест » и отвечает за исследования и знания, которые в конечном итоге привели к разработке современных тестов. [4]
Происхождение психометрии также связано с родственной областью психофизики . Примерно в то же время, когда Дарвин, Гальтон и Кеттелл делали свои открытия, Гербарт также интересовался «раскрытием тайн человеческого сознания» с помощью научного метода. [4] Гербарт был ответственен за создание математических моделей разума, которые оказали влияние на образовательную практику на долгие годы вперед.
EH Weber основывался на работе Гербарта и пытался доказать существование психологического порога, утверждая, что для активации сенсорной системы необходим минимальный стимул . После Вебера, GT Fechner расширил знания, почерпнутые им у Гербарта и Вебера, чтобы разработать закон, согласно которому сила ощущения растет как логарифм интенсивности стимула. Последователь Вебера и Фехнера, Вильгельм Вундт считается основателем науки психологии. Именно влияние Вундта проложило путь другим к разработке психологического тестирования. [4]
В 1936 году психометрист Л. Л. Терстоун , основатель и первый президент Психометрического общества, разработал и применил теоретический подход к измерению, называемый законом сравнительного суждения , подход, тесно связанный с психофизической теорией Эрнста Генриха Вебера и Густава Фехнера . Кроме того, Спирмен и Терстоун внесли важный вклад в теорию и применение факторного анализа , статистического метода, разработанного и широко используемого в психометрии. [5] В конце 1950-х годов Леопольд Зонди дал историческую и эпистемологическую оценку влияния статистического мышления на психологию в течение предыдущих нескольких десятилетий: «в последние десятилетия специфически психологическое мышление было почти полностью подавлено и удалено и заменено статистическим мышлением. Именно здесь мы видим рак тестологии и тестомании сегодняшнего дня». [6]
Совсем недавно психометрическая теория была применена для измерения личности, установок и убеждений , а также академических достижений . Эти скрытые конструкции не могут быть по-настоящему измерены, и большая часть исследований и науки в этой дисциплине была разработана в попытке измерить эти конструкции как можно ближе к истинному результату.
Среди деятелей, внесших значительный вклад в психометрию, можно назвать Карла Пирсона , Генри Ф. Кайзера, Карла Бригама , Л. Л. Терстоуна , Э. Л. Торндайка , Георга Раша , Юджина Галантера , Джонсона О'Коннора , Фредерика М. Лорда , Ледьярда Р. Такера , Луиса Гуттмана и Джейн Лёвингер .
Определение измерения в социальных науках имеет долгую историю. Современное широко распространенное определение, предложенное Стэнли Смитом Стивенсом , заключается в том, что измерение — это «присвоение чисел объектам или событиям в соответствии с некоторым правилом». Это определение было введено в статье журнала Science в 1946 году , в которой Стивенс предложил четыре уровня измерения . [7] Хотя это определение широко распространено, оно отличается в важных отношениях от более классического определения измерения, принятого в физических науках, а именно, что научное измерение влечет за собой «оценку или открытие отношения некоторой величины количественного атрибута к единице того же атрибута» (стр. 358) [8]
Действительно, определение измерения Стивенса было выдвинуто в ответ на Британский комитет Фергюсона, председателем которого был А. Фергюсон, физик. Комитет был назначен в 1932 году Британской ассоциацией содействия развитию науки для исследования возможности количественной оценки сенсорных событий. Хотя его председателем и другими членами были физики, в комитет также входили несколько психологов. В отчете комитета подчеркивалась важность определения измерения. Хотя ответ Стивенса заключался в предложении нового определения, которое оказало значительное влияние в этой области, это был далеко не единственный ответ на отчет. Другим, заметно отличающимся ответом было принятие классического определения, как отражено в следующем заявлении:
Эти расходящиеся ответы отражены в альтернативных подходах к измерению. Например, методы, основанные на ковариационных матрицах, обычно применяются на основе предпосылки, что числа, такие как сырые баллы, полученные из оценок, являются измерениями. Такие подходы неявно влекут за собой определение измерения Стивенса, которое требует только, чтобы числа назначались в соответствии с некоторым правилом. Основной исследовательской задачей, таким образом, обычно считается обнаружение связей между баллами и факторов, лежащих в основе таких связей. [10]
С другой стороны, когда используются модели измерения, такие как модель Раша , числа не назначаются на основе правила. Вместо этого, в соответствии с утверждением Риза выше, указываются конкретные критерии измерения, и цель состоит в том, чтобы построить процедуры или операции, которые предоставляют данные, которые соответствуют соответствующим критериям. Измерения оцениваются на основе моделей, и проводятся тесты, чтобы убедиться, были ли выполнены соответствующие критерии. [ необходима цитата ]
Первые психометрические инструменты были разработаны для измерения интеллекта . [11] Одним из ранних подходов к измерению интеллекта был тест, разработанный во Франции Альфредом Бине и Теодором Симоном . Этот тест был известен как Тест Бине-Симона . Французский тест был адаптирован для использования в США Льюисом Терманом из Стэнфордского университета и назван Тестом IQ Стэнфорда-Бине .
Другим важным направлением психометрии было тестирование личности . Существует ряд теоретических подходов к концептуализации и измерению личности, хотя общепринятой теории нет. Некоторые из наиболее известных инструментов включают Миннесотский многофазный личностный опросник , Пятифакторную модель (или «Большую пятерку») и такие инструменты, как Личностный опросник и индикатор типа Майерс-Бриггс . Отношение также широко изучалось с использованием психометрических подходов. [ необходима цитата ] [12] Альтернативный метод включает применение разворачивающихся моделей измерения, наиболее общей из которых является Модель гиперболического косинуса (Andrich & Luo, 1993). [13]
Психометристы разработали ряд различных теорий измерения. К ним относятся классическая теория тестирования (CTT) и теория ответов на вопросы (IRT). [14] [15] Подход, который математически похож на IRT, но также весьма отличен с точки зрения его происхождения и особенностей, представлен моделью Раша для измерения. Разработка модели Раша и более широкого класса моделей, к которому она принадлежит, была явно основана на требованиях измерения в физических науках. [16]
Психометристы также разработали методы для работы с большими матрицами корреляций и ковариаций. Методы в этой общей традиции включают: факторный анализ , [17] метод определения базовых измерений данных. Одной из основных проблем, с которой сталкиваются пользователи факторного анализа, является отсутствие консенсуса относительно соответствующих процедур для определения числа скрытых факторов . [18] Обычная процедура заключается в том, чтобы прекратить факторизацию, когда собственные значения падают ниже единицы, потому что исходная сфера сжимается. Отсутствие точек разрезания касается и других многомерных методов. [19]
Многомерное шкалирование [20] — это метод поиска простого представления данных с большим количеством скрытых измерений. Кластерный анализ — это подход к поиску объектов, похожих друг на друга. Факторный анализ, многомерное шкалирование и кластерный анализ — это многомерные описательные методы, используемые для извлечения из больших объемов данных более простых структур.
В последнее время структурное моделирование уравнений [21] и анализ путей представляют собой более сложные подходы к работе с большими ковариационными матрицами . Эти методы позволяют статистически сложным моделям подгонять данные и тестировать их, чтобы определить, являются ли они адекватными. Поскольку на гранулярном уровне психометрические исследования касаются степени и природы многомерности в каждом из интересующих элементов, относительно новая процедура, известная как двухфакторный анализ [22] [23] [24], может быть полезной. Двухфакторный анализ может разложить «систематическую дисперсию элемента с точки зрения, в идеале, двух источников, общего фактора и одного источника дополнительной систематической дисперсии». [25]
Ключевые понятия в классической теории тестирования — надежность и валидность . Надежная мера — это та, которая измеряет конструкцию последовательно во времени, у отдельных лиц и в разных ситуациях. Действительная мера — это та, которая измеряет то, что она должна измерять. Надежность необходима, но не достаточна для валидности.
Как надежность, так и валидность могут быть оценены статистически. Согласованность при повторных измерениях одного и того же теста может быть оценена с помощью коэффициента корреляции Пирсона и часто называется надежностью повторного теста. [26] Аналогично, эквивалентность различных версий одной и той же меры может быть проиндексирована с помощью корреляции Пирсона и называется надежностью эквивалентных форм или аналогичным термином. [26]
Внутренняя согласованность, которая касается однородности одной тестовой формы, может быть оценена путем корреляции производительности на двух половинах теста, что называется надежностью разделенного пополам ; значение этого коэффициента корреляции Пирсона для двух половинных тестов корректируется с помощью формулы прогнозирования Спирмена–Брауна , чтобы соответствовать корреляции между двумя полноразмерными тестами. [26] Возможно, наиболее часто используемым индексом надежности является α Кронбаха , который эквивалентен среднему значению всех возможных коэффициентов разделения пополам. Другие подходы включают внутриклассовую корреляцию , которая является отношением дисперсии измерений заданной цели к дисперсии всех целей.
Существует ряд различных форм валидности. Валидность, связанная с критериями, относится к степени, в которой тест или шкала предсказывает образец поведения, т. е. критерий, который является «внешним по отношению к самому измерительному инструменту». [27] Этот внешний образец поведения может быть многим, включая другой тест; средний балл колледжа, как когда школьный SAT используется для прогнозирования успеваемости в колледже; и даже поведение, которое имело место в прошлом, например, когда тест текущих психологических симптомов используется для прогнозирования возникновения прошлой виктимизации (что будет точно представлять постдиктию). Когда мера критерия собирается одновременно с проверяемой мерой, цель состоит в том, чтобы установить совпадающую валидность ; когда критерий собирается позже, цель состоит в том, чтобы установить прогностическую валидность . Мера имеет конструктную валидность , если она связана с мерами других конструктов, как того требует теория. Контентная валидность - это демонстрация того, что элементы теста выполняют адекватную работу по покрытию измеряемой области. В примере с отбором персонала содержание теста основано на определенном утверждении или наборе утверждений о знаниях, навыках, способностях или других характеристиках, полученных в результате анализа работы .
Теория ответов на вопросы моделирует связь между скрытыми чертами и ответами на тестовые задания. Среди других преимуществ IRT обеспечивает основу для получения оценки местоположения тестируемого по заданной скрытой черте, а также стандартной ошибки измерения этого местоположения. Например, знания студента университета по истории могут быть выведены из его или ее баллов за университетский тест, а затем надежно сравнены со знаниями ученика средней школы, выведенными из менее сложного теста. Баллы, полученные с помощью классической теории тестов, не обладают этой характеристикой, и оценка фактических способностей (а не способностей относительно других тестируемых) должна оцениваться путем сравнения баллов с баллами «нормальной группы», случайно выбранной из популяции. Фактически, все меры, полученные с помощью классической теории тестов, зависят от тестируемой выборки, в то время как, в принципе, те, которые получены с помощью теории ответов на вопросы, не зависят.
Соображения валидности и надежности обычно рассматриваются как существенные элементы для определения качества любого теста. Однако профессиональные и практические ассоциации часто помещают эти проблемы в более широкие контексты при разработке стандартов и вынесении общих суждений о качестве любого теста в целом в данном контексте. Соображение, вызывающее беспокойство во многих прикладных исследовательских установках, заключается в том, является ли метрика данного психологического инвентаря осмысленной или произвольной. [28]
В 2014 году Американская ассоциация образовательных исследований (AERA), Американская психологическая ассоциация (APA) и Национальный совет по измерениям в образовании (NCME) опубликовали пересмотренную версию Стандартов образовательного и психологического тестирования [ 29] , в которой описаны стандарты разработки, оценки и использования тестов. Стандарты охватывают основные темы в тестировании, включая валидность, надежность/ошибки измерения и справедливость в тестировании. В книге также устанавливаются стандарты, связанные с операциями тестирования, включая разработку и проектирование тестов, баллы, шкалы, нормы, связывание баллов, проходные баллы, администрирование тестов, подсчет баллов, отчетность, интерпретацию баллов, документацию тестов, а также права и обязанности тестируемых и пользователей тестов. Наконец, Стандарты охватывают темы, связанные с приложениями для тестирования, включая психологическое тестирование и оценку , тестирование на рабочем месте и аттестацию , образовательное тестирование и оценку , а также тестирование в оценке программ и государственной политике.
В области оценки , и в частности образовательной оценки , Объединенный комитет по стандартам образовательной оценки [30] опубликовал три набора стандартов для оценки. Стандарты оценки персонала [31] были опубликованы в 1988 году, Стандарты оценки программ (2-е издание) [32] были опубликованы в 1994 году, а Стандарты оценки студентов [33] были опубликованы в 2003 году.
Каждая публикация представляет и разрабатывает набор стандартов для использования в различных образовательных условиях. Стандарты предоставляют руководящие принципы для разработки, внедрения, оценки и улучшения определенной формы оценки. [34] Каждый из стандартов был помещен в одну из четырех основных категорий для содействия образовательным оценкам, которые являются надлежащими, полезными, осуществимыми и точными. В этих наборах стандартов соображения валидности и надежности рассматриваются в разделе точности. Например, стандарты точности учащихся помогают гарантировать, что оценки учащихся будут предоставлять надежную, точную и достоверную информацию об обучении и успеваемости учащихся.
Поскольку психометрия основана на латентных психологических процессах, измеряемых посредством корреляций , возникли разногласия по поводу некоторых психометрических мер. [35] [ нужна страница ] Критики, включая практиков в области физических наук , утверждали, что такое определение и количественная оценка сложны, и что такие измерения часто неправильно используются неспециалистами, например, в случае с личностными тестами, используемыми в процедурах трудоустройства. Стандарты образовательных и психологических измерений дают следующее утверждение о валидности теста : «валидность относится к степени, в которой доказательства и теория подтверждают интерпретации результатов тестов, вытекающие из предлагаемого использования тестов». [36] Проще говоря, тест не является валидным, если он не используется и не интерпретируется так, как он задуман. [37]
Два типа инструментов, используемых для измерения черт личности , — это объективные тесты и проективные измерения . Примерами таких тестов являются: Big Five Inventory (BFI), Minnesota Multiphasic Personality Inventory (MMPI-2), Rorschach Inkblot test , Neurotic Personality Questionnaire KON-2006 , [38] или Eysenck Personality Questionnaire . Некоторые из этих тестов полезны, поскольку они обладают достаточной надежностью и валидностью , двумя факторами, которые делают тесты последовательными и точными отражениями базовой конструкции. Однако индикатор типа Майерс-Бриггс (MBTI) имеет сомнительную валидность и был предметом большой критики. Специалист по психометрии Роберт Хоган написал об этом измерении: «Большинство психологов личности считают MBTI не более чем замысловатым китайским печеньем с предсказанием». [39]
Ли Кронбах отметил в «Американском психологе» (1957), что «корреляционная психология, хотя и столь же стара, как и эксперимент, созревала медленнее. Однако она в равной степени может считаться дисциплиной, поскольку задает особый тип вопросов и имеет технические методы проверки того, был ли вопрос правильно поставлен, а данные правильно интерпретированы». Он продолжил: «Метод корреляции, со своей стороны, может изучать то, что человек не научился контролировать или никогда не сможет надеяться контролировать... Требуется настоящая федерация дисциплин. Оставаясь независимыми, они могут давать только неправильные ответы или вообще не давать ответов относительно некоторых важных проблем». [40]
Психометрия рассматривает человеческие способности, отношения, черты и образовательную эволюцию. Примечательно, что изучение поведения, умственных процессов и способностей животных, не являющихся людьми, обычно рассматривается сравнительной психологией , или континуумом между животными, не являющимися людьми, и остальными животными — эволюционной психологией . Тем не менее, есть некоторые сторонники более постепенного перехода между подходом, принятым для людей, и подходом, принятым для (не являющихся людьми) животных. [41] [42] [43] [44]
Оценка способностей, черт и эволюции обучения машин в основном не была связана с людьми и нечеловеческими животными, с конкретными подходами в области искусственного интеллекта . Более комплексный подход под названием универсальной психометрии также был предложен. [45] [46]
особое психологическое мышление, в последние десятилетия, было полностью устранено и устранено из-за того, что оно существовало для пенсий estadistico. Precisamente aqui vemos el cancer de la testologia y testomania de hoy.
{{cite book}}
: CS1 maint: location missing publisher (link){{cite book}}
: CS1 maint: location missing publisher (link)