stringtranslate.com

Альфа Кронбаха

Альфа Кронбаха (Cronbach ), также известная как тау-эквивалентная надежность ( ) или коэффициент альфа (коэффициент ), является коэффициентом надежности и мерой внутренней согласованности тестов и измерений. [1] [2] [3]

Многочисленные исследования предостерегают от безоговорочного использования альфа Кронбаха. Статистики считают коэффициенты надежности, основанные на моделировании структурными уравнениями (SEM) или теории обобщаемости , лучшей альтернативой во многих ситуациях. [4] [5] [6 ] [7 ] [8] [9]

История

Ли Кронбах впервые назвал этот коэффициент « коэффициентом альфа» в своей первой публикации 1951 года . [1] В этой статье также описан дополнительный вывод. [10] Коэффициент альфа неявно использовался в предыдущих исследованиях, [11] [12] [13] [14] , но его интерпретация считалась более интуитивно привлекательной по сравнению с предыдущими исследованиями, и она стала довольно популярной. [15]

Предварительные условия для использования альфа Кронбаха

Чтобы использовать альфа Кронбаха в качестве коэффициента надежности, необходимо выполнение следующих условий: [17] [18]

  1. Данные нормально распределены и линейны [ii] ;
  2. Сравниваемые тесты или меры по существу являются тау-эквивалентными;
  3. Погрешности измерений независимы .

Формула и расчет

Альфа Кронбаха рассчитывается путем взятия баллов по каждому пункту шкалы и их корреляции с общим баллом для каждого наблюдения. Полученные корреляции затем сравниваются с дисперсией для всех оценок по отдельным пунктам. Альфу Кронбаха лучше всего понимать как функцию количества вопросов или элементов в показателе, средней ковариации между парами элементов и общей дисперсии общего измеренного балла. [19] [8]

отклонение, связанное с каждым элементом i

дисперсия, связанная с общим количеством баллов


Альтернативно его можно рассчитать по следующей формуле: [20]

где

представляет собой среднюю дисперсию

представляет собой среднюю ковариацию между позициями.

Распространенные заблуждения

[7]

Значение альфа Кронбаха колеблется от нуля до единицы.

По определению надежность не может быть меньше нуля и не может быть больше единицы. Многие учебники ошибочно отождествляют надежность и дают неточное объяснение ее диапазона. может быть ниже надежности при применении к данным, которые по сути не являются тау-эквивалентными. Предположим, что скопировали значение как есть и скопировали, умножив значение на -1.

Ковариационная матрица между элементами выглядит следующим образом: .

Отрицательный результат может возникнуть по таким причинам, как негативная дискриминация или ошибки при обработке элементов с обратной оценкой.

В отличие от , коэффициенты надежности на основе SEM (например, ) всегда больше или равны нулю.

На эту аномалию впервые указал Кронбах (1943) [21] для критики , но Кронбах (1951) [10] не прокомментировал эту проблему в своей статье, в которой иначе обсуждались потенциально проблемные вопросы, связанные с . [9] : 396 

Если ошибки измерения нет, значение альфа Кронбаха равно единице.

Эта аномалия также возникает из-за того, что недооценивается надежность.

Предположим, что скопировали значение как есть и скопировали, умножив значение на два.

Ковариационная матрица между элементами выглядит следующим образом: .

Для приведенных выше данных оба и имеют значение, равное единице.

Приведенный выше пример представлен Чо и Ким (2015). [7]

Высокое значение альфа Кронбаха указывает на однородность между элементами.

Во многих учебниках его называют показателем однородности [22] между предметами. Это заблуждение проистекает из неточного объяснения Кронбаха (1951) [10] о том, что высокие значения показывают однородность между элементами. Гомогенность — это термин, который редко используется в современной литературе, и соответствующие исследования интерпретируют этот термин как относящийся к одномерности. Несколько исследований предоставили доказательства или контрпримеры того, что высокие значения не указывают на одномерность. [23] [7] [24] [25] [26] [27] См. контрпримеры ниже.

в одномерных данных выше.

в многомерных данных выше.

Приведенные выше данные имеют , но являются многомерными.

Приведенные выше данные имеют , но являются одномерными.

Одномерность является обязательным условием для . Следует проверять одномерность перед расчетом , а не вычислять для проверки одномерности. [3]

Высокое значение альфа Кронбаха указывает на внутреннюю согласованность.

Термин «внутренняя согласованность» обычно используется в литературе по надежности, но его значение четко не определено. Этот термин иногда используется для обозначения определенного вида надежности (например, надежности внутренней согласованности), но неясно, какие именно коэффициенты надежности сюда включены, помимо . Кронбах (1951) [10] использовал этот термин в нескольких значениях без четкого определения. Чо и Ким (2015) [7] показали, что это не является показателем ни одного из них.

Удаление элементов с использованием «альфа, если элемент удален» всегда повышает надежность.

Удаление элемента с использованием «альфа, если элемент удален» [ необходимы разъяснения ] может привести к «альфа-инфляции», когда сообщается, что надежность на уровне выборки выше, чем надежность на уровне генеральной совокупности. [28] Это также может снизить надежность на уровне населения. [29] Исключение менее надежных элементов должно основываться не только на статистической, но также на теоретической и логической основе. Также рекомендуется разделить всю выборку на две части и провести перекрестную проверку. [28]

Идеальный уровень надежности и как повысить надежность

Рекомендации Нанналли по уровню надежности

Nunnally's book[30][31] is often mentioned as the primary source for determining the appropriate level of dependability coefficients. However, his proposals contradict his aims as he suggests that different criteria should be used depending on the goal or stage of the investigation. Regardless of the type of study, whether it is exploratory research, applied research, or scale development research, a criterion of 0.7 is universally employed.[32] He advocated 0.7 as a criterion for the early stages of a study, most studies published in the journal do not fall under that category. Rather than 0.7, Nunnally's applied research criterion of 0.8 is more suited for most empirical studies.[32]

His recommendation level did not imply a cutoff point. If a criterion means a cutoff point, it is important whether or not it is met, but it is unimportant how much it is over or under. He did not mean that it should be strictly 0.8 when referring to the criteria of 0.8. If the reliability has a value near 0.8 (e.g., 0.78), it can be considered that his recommendation has been met.[33]

Cost to obtain a high level of reliability

Nunnally's idea was that there is a cost to increasing reliability, so there is no need to try to obtain maximum reliability in every situation.

Trade-off with validity

Measurements with perfect reliability lack validity.[7] For example, a person who takes the test with a reliability of one will either receive a perfect score or a zero score, because if they answer one item correctly or incorrectly, they will answer all other items in the same manner. The phenomenon where validity is sacrificed to increase reliability is known as the attenuation paradox.[34][35]

A high value of reliability can conflict with content validity. To achieve high content validity, each item should comprehensively represent the content to be measured. However, a strategy of repeatedly measuring essentially the same question in different ways is often used solely to increase reliability.[36][37]

Trade-off with efficiency

When the other conditions are equal, reliability increases as the number of items increases. However, the increase in the number of items hinders the efficiency of measurements.

Methods to increase reliability

Despite the costs associated with increasing reliability discussed above, a high level of reliability may be required. The following methods can be considered to increase reliability.

Before data collection:

После сбора данных:

Какой коэффициент надежности использовать

используется в подавляющем количестве. По оценкам исследования, примерно в 97% исследований используется коэффициент надежности. [3]

Однако исследования моделирования, сравнивающие точность нескольких коэффициентов надежности, привели к общему результату — неточному коэффициенту надежности. [41] [42] [6] [43] [44]

Методологические исследования критически относятся к использованию . Упрощение и классификация выводов существующих исследований заключаются в следующем.

  1. Условное использование: Используйте только при соблюдении определенных условий. [3] [7] [8]
  2. Противодействие использованию: является неполноценным и не должно использоваться. [45] [5] [46] [6] [4] [47]

Альтернативы альфе Кронбаха

Существующие исследования практически единодушны в том, что выступают против широко распространенной практики использования безоговорочно для всех данных. Однако существуют разные мнения относительно того, какой коэффициент надежности следует использовать вместо .

Различные коэффициенты надежности заняли первое место в каждом исследовании моделирования [41] [42] [6] [43] [44] при сравнении точности нескольких коэффициентов надежности. [7]

По мнению большинства , в качестве альтернативы следует использовать моделирование структурными уравнениями или коэффициенты надежности на основе SEM . [3] [7] [45] [5] [46] [8] [6] [47]

Однако нет единого мнения о том, какой из нескольких коэффициентов надежности, основанных на SEM (например, одномерные или многомерные модели), лучше всего использовать.

Некоторые предлагают [6] в качестве альтернативы, но показывают информацию, совершенно отличную от достоверности. — это тип коэффициента, сравнимый с коэффициентом Ревеля . [48] ​​[6] Они не заменяют, а дополняют надежность. [3]

Среди коэффициентов надежности на основе SEM редко используются многомерные коэффициенты надежности, и наиболее часто используется [3] , также известный как составная или родственная надежность .

Программное обеспечение для расчета коэффициентов надежности на основе SEM

Статистическое программное обеспечение общего назначения, такое как SPSS и SAS, включает функцию расчета . Пользователи, не знающие формулы, без проблем получают оценки всего несколькими щелчками мыши.

Программное обеспечение SEM, такое как AMOS, LISREL и MPLUS, не имеет функции для расчета коэффициентов надежности на основе SEM. Пользователям необходимо рассчитать результат, введя его в формулу. Чтобы избежать этого неудобства и возможной ошибки, даже в исследованиях, сообщающих об использовании SEM, вместо коэффициентов надежности, основанных на SEM, используются коэффициенты надежности. [3] Существует несколько альтернатив автоматического расчета коэффициентов надежности на основе SEM.

  1. R (бесплатно): пакет psych [49] рассчитывает различные коэффициенты надежности.
  2. EQS (платный): [50] Это программное обеспечение SEM имеет функцию расчета коэффициентов надежности.
  3. RelCalc (бесплатно): [3] Доступно в Microsoft Excel . можно получить без необходимости использования программного обеспечения SEM. На основе результатов программного обеспечения SEM можно рассчитать различные многомерные коэффициенты надежности SEM и различные типы .

Примечания

  1. ^ Истинная оценка — это разница между оценкой, полученной во время теста или измерения, и ошибкой этого наблюдения. Дополнительную информацию см. в классической теории испытаний .
  2. ^ Это неявно требует, чтобы данные можно было упорядочить, и, следовательно, требует, чтобы они не были номинальными .

Рекомендации

  1. ^ аб Кронбах, Ли Дж. (1951). "Коэффициент альфа и внутренняя структура тестов". Психометрика . ООО «Спрингер Сайенс энд Бизнес Медиа». 16 (3): 297–334. дои : 10.1007/bf02310555. hdl : 10983/2196 . S2CID  13820448.
  2. ^ a b Cronbach, L. J. (1978). "Citation Classics" (PDF). Current Contents. 13: 263. Archived (PDF) from the original on 2022-01-20. Retrieved 2021-03-22.
  3. ^ a b c d e f g h i j Cho, Eunseong (2016-07-08). "Making Reliability Reliable". Organizational Research Methods. SAGE Publications. 19 (4): 651–682. doi:10.1177/1094428116656239. ISSN 1094-4281. S2CID 124129255.
  4. ^ a b Sijtsma, K. (2009). "On the use, the misuse, and the very limited usefulness of Cronbach's alpha". Psychometrika. 74 (1): 107–120. doi:10.1007/s11336-008-9101-0. PMC 2792363. PMID 20037639.
  5. ^ a b c Green, S. B.; Yang, Y. (2009). "Commentary on coefficient alpha: A cautionary tale". Psychometrika. 74 (1): 121–135. doi:10.1007/s11336-008-9098-4. S2CID 122718353.
  6. ^ a b c d e f g Revelle, W.; Zinbarg, R. E. (2009). "Coefficients alpha, beta, omega, and the glb: Comments on Sijtsma". Psychometrika. 74 (1): 145–154. doi:10.1007/s11336-008-9102-z. S2CID 5864489.
  7. ^ a b c d e f g h i Cho, E.; Kim, S. (2015). "Cronbach's coefficient alpha: Well known but poorly understood". Organizational Research Methods (2): 207–230. doi:10.1177/1094428114555994. S2CID 124810308.
  8. ^ a b c d Raykov, T.; Marcoulides, G. A. (2017). "Thanks coefficient alpha, we still need you!". Educational and Psychological Measurement. 79 (1): 200–210. doi:10.1177/0013164417725127. PMC 6318747. PMID 30636788.
  9. ^ a b c Cronbach, L. J.; Shavelson, R. J. (2004). "My Current Thoughts on Coefficient Alpha and Successor Procedures". Educational and Psychological Measurement. 64 (3): 391–418. doi:10.1177/0013164404266386. S2CID 51846704.
  10. ^ a b c d Cronbach, L.J. (1951). "Coefficient alpha and the internal structure of tests". Psychometrika. 16 (3): 297–334. doi:10.1007/BF02310555. hdl:10983/2196. S2CID 13820448.
  11. ^ Хойт, К. (1941). «Надежность теста оценивается путем дисперсионного анализа». Психометрика . 6 (3): 153–160. дои : 10.1007/BF02289270. S2CID  122361318.
  12. ^ Гуттман, Л. (1945). «Основы анализа надежности тест-ретестов». Психометрика . 10 (4): 255–282. дои : 10.1007/BF02288892. PMID  21007983. S2CID  17220260.
  13. ^ Джексон, RWB; Фергюсон, Джорджия (1941). «Исследования надежности испытаний». Бюллетень Департамента образовательных исследований Университета Торонто . 12 : 132.
  14. ^ Гулликсен, Х. (1950). Теория ментальных тестов . Уайли. дои : 10.1037/13240-000.
  15. ^ Кронбах, Ли (1978). «Классика цитирования» (PDF) . Текущее содержание . 13 (8). Архивировано (PDF) из оригинала 22 октября 2022 г. Проверено 21 октября 2022 г.
  16. ^ Новик, MR; Льюис, К. (1967). «Коэффициент альфа и надежность комплексных измерений». Психометрика . 32 (1): 1–13. дои : 10.1007/BF02289400. PMID  5232569. S2CID  186226312.
  17. ^ Спилиотопулу, Грузия (2009). «Переосмысление надежности: альфа Кронбаха и педиатрическая оценка трудотерапии». Австралийский журнал профессиональной терапии . 56 (3): 150–155. дои : 10.1111/j.1440-1630.2009.00785.x. PMID  20854508. Архивировано из оригинала 21 октября 2022 г. Проверено 21 октября 2022 г.
  18. ^ Кортина, Хосе М. (1993). «Что такое коэффициент альфа? Анализ теории и приложений». Журнал прикладной психологии . 78 (1): 98–104. дои : 10.1037/0021-9010.78.1.98. ISSN  1939–1854. Архивировано из оригинала 13 августа 2023 г. Проверено 21 октября 2022 г.
  19. Гофорт, Челси (16 ноября 2015 г.). «Использование и интерпретация альфа Кронбаха - Службы исследовательских данных библиотеки Университета Вирджинии + науки». Библиотека Университета Вирджинии . Архивировано из оригинала 9 августа 2022 г. Проверено 06 сентября 2022 г.
  20. ^ DATAtab (27 октября 2021 г.). Альфа Кронбаха (просто объяснено). YouTube. Событие происходит в 4:08 . Проверено 1 августа 2023 г.
  21. ^ Кронбах, ЖЖ (1943). «Об оценках надежности испытаний». Журнал педагогической психологии . 34 (8): 485–494. дои : 10.1037/h0058608.
  22. ^ "Психологический словарь APA". словарь.apa.org . Архивировано из оригинала 31 июля 2019 г. Проверено 20 февраля 2023 г.
  23. ^ Кортина, JM (1993). «Что такое коэффициент альфа? Анализ теории и приложений». Журнал прикладной психологии . 78 (1): 98–104. дои : 10.1037/0021-9010.78.1.98.
  24. ^ Грин, С.Б.; Лиссиц, RW; Мулайк, С.А. (1977). «Ограничения коэффициента альфа как показателя одномерности теста». Образовательные и психологические измерения . 37 (4): 827–838. дои : 10.1177/001316447703700403. S2CID  122986180.
  25. ^ Макдональд, Р.П. (1981). «Размерность тестов и заданий». Британский журнал математической и статистической психологии . 34 (1): 100–117. doi :10.1111/j.2044-8317.1981.tb00621.x.
  26. ^ Шмитт, Н. (1996). «Использование и злоупотребление коэффициентом альфа». Психологическая оценка . 8 (4): 350–3. дои : 10.1037/1040-3590.8.4.350.
  27. ^ Тен Берге, JMF; Сочан, Г. (2004). «Наибольшая нижняя граница надежности теста и гипотеза одномерности». Психометрика . 69 (4): 613–625. дои : 10.1007/BF02289858. S2CID  122674001.
  28. ^ аб Копалле, ПК; Леманн, Д.Р. (1997). «Альфа-инфляция? Влияние устранения элементов шкалы на альфу Кронбаха». Организационное поведение и процессы принятия человеческих решений . 70 (3): 189–197. дои : 10.1006/obhd.1997.2702 .
  29. ^ Райков, Т. (2007). «Надежность при удалении, а не« альфа при удалении »: оценка надежности весов после удаления компонента». Британский журнал математической и статистической психологии . 60 (2): 201–216. дои : 10.1348/000711006X115954. ПМИД  17971267.
  30. ^ аб Наннелли, JC (1967). Психометрическая теория . МакГроу-Хилл. ISBN 0-07-047465-6. ОКЛК  926852171.
  31. ^ аб Наннелли, JC; Бернштейн, Айленд (1994). Психометрическая теория (3-е изд.). МакГроу-Хилл. ISBN 0-07-047849-Х. ОСЛК  28221417.
  32. ^ ab Ланс, CE; Баттс, ММ; Михелс, LC (2006). «Что они на самом деле сказали?». Организационные методы исследования . 9 (2): 202–220. дои : 10.1177/1094428105284919. S2CID  144195175.
  33. ^ Чо, Э. (2020). «Всесторонний обзор так называемой альфы Кронбаха». Журнал исследований продуктов . 38 (1): 9–20.
  34. ^ Левинджер, Дж. (1954). «Парадокс затухания в теории испытаний». Психологический вестник . 51 (5): 493–504. doi :10.1002/j.2333-8504.1954.tb00485.x. ПМИД  13204488.
  35. ^ Хамфрис, Л. (1956). «Нормальная кривая и парадокс затухания в теории испытаний». Психологический вестник . 53 (6): 472–6. дои : 10.1037/h0041091. ПМИД  13370692.
  36. ^ Бойл, GJ (1991). «Означает ли однородность заданий внутреннюю согласованность или избыточность заданий в психометрических шкалах?». Личность и индивидуальные различия . 12 (3): 291–4. дои : 10.1016/0191-8869(91)90115-R.
  37. ^ Стрейнер, Д.Л. (2003). «Начиная с самого начала: введение в коэффициент альфа и внутреннюю согласованность». Журнал оценки личности . 80 (1): 99–103. doi : 10.1207/S15327752JPA8001_18. PMID  12584072. S2CID  3679277.
  38. ^ Битти, П.; Херрманн, Д.; Пушкар, К.; Кервин, Дж. (июль 1998 г.). «Ответы «Не знаю» в опросах: то, что я знаю, это то, что вы хотите знать, и хочу ли я, чтобы вы это знали?». Память (Хов, Англия) . 6 (4): 407–426. дои : 10.1080/741942605. ISSN  0965-8211. PMID  9829099. Архивировано из оригинала 20 февраля 2023 г. Проверено 20 февраля 2023 г.
  39. ^ Ли, Х. (2017). Методология исследования (2-е изд.), Хахюнса.
  40. ^ Петерсон, РА; Ким, Ю. (2013). «О связи коэффициента альфа и комплексной надежности». Журнал прикладной психологии . 98 (1): 194–8. дои : 10.1037/a0030767. ПМИД  23127213.
  41. ^ Аб Камата А., Турхан А. и Дарандари Э. (2003). Оценка надежности оценок по многомерной сложной шкале. Ежегодное собрание Американской ассоциации исследований в области образования, Чикаго, апрель 2003 г., 1–27 апреля.
  42. ^ аб Осберн, HG (2000). «Коэффициент альфа и связанные с ним коэффициенты надежности внутренней согласованности». Психологические методы . 5 (3): 343–355. дои : 10.1037/1082-989X.5.3.343. ПМИД  11004872.
  43. ^ Аб Тан, В., и Цуй, Ю. (2012). Моделирование для сравнения трех нижних границ надежности. Документ представлен 17 апреля 2012 г. в Отделе D AERA: Методология измерений и исследований, Раздел 1: Измерения, психометрия и оценка в образовании, 1–25.
  44. ^ Аб ван дер Арк, Луизиана; ван дер Пальм, DW; Сийтсма, К. (2011). «Скрытый классовый подход к оценке надежности результатов тестов». Прикладные психологические измерения . 35 (5): 380–392. дои : 10.1177/0146621610392911. S2CID  41739445. Архивировано из оригинала 13 августа 2023 г. Проверено 4 июня 2023 г.
  45. ^ Аб Данн, ТиДжей; Багули, Т.; Брансден, В. (2014). «От альфы к омеге: практическое решение широко распространенной проблемы оценки внутренней согласованности» (PDF) . Британский журнал психологии . 105 (3): 399–412. дои : 10.1111/bjop.12046. PMID  24844115. Архивировано (PDF) из оригинала 24 марта 2023 г. Проверено 4 июня 2023 г.
  46. ^ Аб Петерс, GY (2014). «Альфа и омега надежности и валидности шкалы, комплексная оценка качества шкалы». Европейский психолог здоровья . 1 (2): 56–69.
  47. ^ Аб Ян, Ю., и Грин, С.Б. Яньюнь Ян; Грин, Сэмюэл Б. (2011). «Коэффициент альфа: коэффициент надежности для 21 века?». Журнал психопедагогической оценки . 29 (4): 377–392. дои : 10.1177/0734282911406668. S2CID  119926199.
  48. ^ Ревель, В. (1979). «Иерархический кластерный анализ и внутренняя структура тестов». Многомерное поведенческое исследование . 14 (1): 57–74. дои : 10.1207/s15327906mbr1401_4. ПМИД  26766619.
  49. Ревелл, Уильям (7 января 2017 г.). «Обзор психологического пакета» (PDF) . Архивировано (PDF) из оригинала 27 августа 2020 г. Проверено 23 апреля 2020 г.
  50. ^ "Многовариантное программное обеспечение, Inc" . www.mvsoft.com . Архивировано из оригинала 21 мая 2001 г.

Внешние ссылки