stringtranslate.com

Статистика оценки

Статистика оценки , или просто оценка , представляет собой структуру анализа данных, которая использует комбинацию размеров эффекта , доверительных интервалов , точного планирования и метаанализа для планирования экспериментов, анализа данных и интерпретации результатов. [1] Он дополняет подходы к проверке гипотез, такие как проверка значимости нулевой гипотезы (NHST), выходя за рамки вопроса о наличии или отсутствии эффекта и предоставляя информацию о том, насколько велик эффект. [2] [3] Оценочную статистику иногда называют новой статистикой . [3] [4] [5]

Основная цель методов оценки — сообщить о размере эффекта ( точечная оценка ) вместе с его доверительным интервалом , последний из которых связан с точностью оценки. [6] Доверительный интервал суммирует диапазон вероятных значений основного популяционного эффекта. Сторонники оценки рассматривают сообщение о значении P как бесполезное отвлечение от важного дела, связанного с сообщением о величине эффекта с его доверительными интервалами, [7] и считают, что оценка должна заменить проверку значимости для анализа данных. [8] [9]

История

Начиная с 1929 года физик Раймонд Тайер Бирдж публиковал обзорные статьи [10] , в которых он использовал методы средневзвешенных значений для расчета оценок физических констант - процедуру, которую можно рассматривать как предшественник современного метаанализа . [11]

В 1960-х годах оценочная статистика была принята нефизическими науками с разработкой Джейкобом Коэном стандартизированной величины эффекта .

В 1970-х годах синтез современных исследований был впервые осуществлен Джином В. Глассом, опубликовавшим первый систематический обзор и метаанализ психотерапии. [12] Эта новаторская работа впоследствии повлияла на принятие мета-анализа для лечения в целом.

В 1980-х и 1990-х годах методы оценки были расширены и усовершенствованы биостатистиками, в том числе Ларри Хеджесом , Майклом Боренштейном, Дугом Альтманом , Мартином Гарднером и многими другими, с развитием современного (медицинского) метаанализа.

Начиная с 1980-х годов систематический обзор , используемый в сочетании с метаанализом, стал методом, широко используемым в медицинских исследованиях. В PubMed имеется более 200 000 ссылок на «метаанализ» .

В 1990-х годах редактор Кеннет Ротман запретил использование p-значений в журнале «Эпидемиология» ; согласие было высоким среди авторов, но это существенно не изменило их аналитическое мышление. [13]

В 2010-х годах Джефф Камминг опубликовал учебник, посвященный статистике оценок, а также программное обеспечение в Excel, предназначенное для обучения мышлению о величине эффекта, в первую очередь психологов. [14] Также в 2010-х годах методы оценки получили все большее распространение в нейробиологии. [15] [16]

В 2013 году Руководство для публикаций Американской психологической ассоциации рекомендовало использовать оценку в дополнение к проверке гипотез. [17] Также в 2013 году документ «Единые требования к рукописям, представляемым в биомедицинские журналы» содержал аналогичную рекомендацию: «Избегайте полагаться исключительно на проверку статистических гипотез, таких как значения P, которые не могут передать важную информацию о величине эффекта». [18]

В 2019 году более 800 ученых подписали открытый комментарий, призывающий отказаться от всей концепции статистической значимости. [19]

В 2019 году журнал Общества нейронаук eNeuro ввел политику, рекомендующую использование оценочных графиков в качестве предпочтительного метода представления данных. [20] А в 2022 году редакторы журналов Международного общества физиотерапии рекомендовали использовать методы оценки вместо статистических тестов с нулевой гипотезой. [21]

Несмотря на широкое распространение метаанализа в клинических исследованиях и рекомендации нескольких крупных издательских учреждений, система оценки обычно не используется в первичных биомедицинских исследованиях. [22]

Методология

Многие тесты значимости имеют оценочный аналог; [23] почти в каждом случае результат теста (или его p-значение ) можно просто заменить величиной эффекта и оценкой точности. Например, вместо использования t-критерия Стьюдента аналитик может сравнить две независимые группы, рассчитав среднюю разницу и ее 95% доверительный интервал . Соответствующие методы можно использовать для парного t-теста и множественных сравнений. Аналогично, для регрессионного анализа аналитик сообщит коэффициент детерминации (R 2 ) и уравнение модели вместо p-значения модели.

Однако сторонники оценочной статистики предостерегают от сообщения лишь нескольких цифр. Вместо этого рекомендуется анализировать и представлять данные с помощью визуализации данных. [2] [5] [6] Примеры подходящих визуализаций включают диаграмму рассеяния для регрессии и графики Гарднера-Альтмана для двух независимых групп. [24] Хотя графики групп исторических данных (столбчатые диаграммы, коробчатые диаграммы и графики скрипки) не отображают сравнение, оценочные графики добавляют вторую ось для явной визуализации размера эффекта. [25]

График Гарднера-Альтмана. Слева: обычная гистограмма, на которой звездочки показывают, что разница «статистически значима». Справа: график Гарднера-Альтмана, на котором показаны все точки данных, а также средняя разница и ее доверительные интервалы.

График Гарднера-Альтмана

График разницы средних Гарднера-Альтмана был впервые описан Мартином Гарднером и Дугом Альтманом в 1986 году; [24] представляет собой статистический график, предназначенный для отображения данных двух независимых групп. [5] Существует также версия, подходящая для парных данных. Ключевые инструкции по созданию этой диаграммы заключаются в следующем: (1) отобразите все наблюдаемые значения для обеих групп рядом друг с другом; (2) поместите вторую ось справа, сместив ее, чтобы показать шкалу средней разницы; и (3) постройте среднюю разницу с ее доверительным интервалом в виде маркера с полосами ошибок. [3] Графики Гарднера-Альтмана можно построить с помощью DABEST-Python или dabestr; в качестве альтернативы аналитик может использовать программное обеспечение с графическим интерфейсом, например приложение Estimation Stats.

Заговор Камминга. График Камминга, отображаемый веб-приложением EstimationStats. На верхней панели показаны все наблюдаемые значения. Размеры эффекта, распределение выборки и 95% доверительные интервалы отложены на отдельных осях под необработанными данными. Для каждой группы итоговые измерения (среднее значение ± стандартное отклонение) показаны в виде линий с промежутками.

Заговор Камминга

Для нескольких групп Джефф Камминг предложил использовать вторичную панель для построения двух или более средних различий и их доверительных интервалов, расположенную под панелью наблюдаемых значений; [3] такое расположение позволяет легко сравнивать средние различия («дельты») по нескольким группам данных. Графики Камминга можно создать с помощью пакета ESCI, DABEST или приложения Estimation Stats.

Другие методологии

Помимо средней разницы, существует множество других типов величины эффекта , каждый из которых имеет относительные преимущества. Основные типы включают величину эффекта в классе стандартизированных показателей Коэна d и коэффициент детерминации (R 2 ) для регрессионного анализа . Для ненормальных распределений существует ряд более надежных величин эффекта, включая дельту Клиффа и статистику Колмогорова-Смирнова .

Ошибки в проверке гипотез

При проверке гипотез основной целью статистических вычислений является получение значения p , вероятности увидеть полученный результат или более экстремальный результат, если предположить, что нулевая гипотеза верна. Если значение p низкое (обычно <0,05), специалисту по статистике рекомендуется отвергнуть нулевую гипотезу. Сторонники оценки отвергают обоснованность проверки гипотез [3] [6] по следующим причинам, среди прочего:

Преимущества оценочной статистики

Количественная оценка

В то время как значения p фокусируются на ответах «да» или «нет», оценка направляет внимание аналитика на количественную оценку.

Преимущества доверительных интервалов

Доверительные интервалы ведут себя предсказуемым образом. По определению, 95% доверительные интервалы имеют 95% вероятность покрытия основного генерального среднего значения (μ). Эта особенность остается постоянной при увеличении размера выборки; меняется то, что интервал становится меньше. Кроме того, 95% доверительные интервалы также являются 83% интервалами прогнозирования: один (доэкспериментальный) доверительный интервал имеет 83% вероятность охватить среднее значение любого будущего эксперимента. [3] Таким образом, знание 95% доверительных интервалов одного эксперимента дает аналитику разумный диапазон среднего значения генеральной совокупности. Тем не менее, доверительные распределения и апостериорные распределения предоставляют гораздо больше информации, чем одноточечная оценка или интервалы, [30] что может усугубить дихотомическое мышление в зависимости от того, охватывает ли интервал «нулевое» интересующее значение (т. е. индуктивное поведение Неймана в отличие от Фишера [31] ).

Доказательная статистика

Психологические исследования восприятия статистики показывают, что интервальные оценки отчетности обеспечивают более точное восприятие данных, чем отчетные p-значения. [32]

Точное планирование

Точность оценки формально определяется как 1/ дисперсия и, как и степень, увеличивается (улучшается) с увеличением размера выборки. Как и мощность , высокий уровень точности стоит дорого; Заявки на исследовательские гранты в идеале должны включать анализ точности/затрат. Сторонники оценки считают, что точное планирование должно заменить власть , поскольку сама статистическая мощность концептуально связана с проверкой значимости. [3] Точное планирование можно выполнить с помощью веб-приложения ESCI.

Смотрите также

Рекомендации

  1. ^ Эллис, Пол. «Часто задаваемые вопросы о размере эффекта».
  2. ^ Аб Коэн, Джейкоб. «Земля круглая (p<0,05)» (PDF) .
  3. ^ abcdefg Камминг, Джефф (2011). Понимание новой статистики: размеры эффекта, доверительные интервалы и метаанализ . Нью-Йорк: Рутледж. ISBN 978-0415879675.[ нужна страница ]
  4. ^ Альтман, Дуглас (1991). Практическая статистика для медицинских исследований . Лондон: Чепмен и Холл.
  5. ^ abc Дуглас Альтман, изд. (2000). Статистика с уверенностью . Лондон: Уайли-Блэквелл.[ нужна страница ]
  6. ^ abc Коэн, Джейкоб (1990). «Вещи, которые я узнал (на данный момент)». Американский психолог . 45 (12): 1304–1312. дои : 10.1037/0003-066x.45.12.1304.
  7. ^ Эллис, Пол (31 мая 2010 г.). «Почему я не могу просто судить о своем результате, глядя на значение p?» . Проверено 5 июня 2013 г.
  8. ^ Кларидж-Чанг, Адам; Ассам, Присели Н. (2016). «Оценочная статистика должна заменить тестирование значимости». Природные методы . 13 (2): 108–109. дои : 10.1038/nmeth.3729. PMID  26820542. S2CID  205424566.
  9. ^ Бернер, Дэниел; Амрайн, Валентин (2022). «Почему и как нам следует присоединиться к переходу от тестирования значимости к оценке». Журнал эволюционной биологии . 35 (6): 777–787. дои : 10.1111/jeb.14009. ISSN  1010-061X. ПМЦ 9322409 . PMID  35582935. S2CID  247788899. 
  10. ^ Бирдж, Раймонд Т. (1929). «Вероятные значения общих физических констант». Обзоры современной физики . 1 (1): 1–73. Бибкод : 1929RvMP....1....1B. doi : 10.1103/RevModPhys.1.1.
  11. ^ Хеджес, Ларри (1987). «Насколько сложна точная наука и насколько мягка мягкая наука». Американский психолог . 42 (5): 443. CiteSeerX 10.1.1.408.2317 . дои : 10.1037/0003-066x.42.5.443. 
  12. ^ Хант, Мортон (1997). Как наука подводит итоги: история метаанализа . Нью-Йорк: Фонд Рассела Сейджа. ISBN 978-0-87154-398-1.
  13. ^ Фидлер, Фиона; Томасон, Нил; Камминг, Джефф; Финч, Сью; Лиман, Джоанна (2004). «Редакторы могут привести исследователей к доверительным интервалам, но не могут заставить их задуматься: уроки статистической реформы в медицине». Психологическая наука . 15 (2): 119–126. дои : 10.1111/j.0963-7214.2004.01502008.x. PMID  14738519. S2CID  21199094.
  14. ^ Камминг, Джефф. «ESCI (исследовательское программное обеспечение для доверительных интервалов)».
  15. ^ Йылдызоглу, Тугче; Вайслогель, Ян-Марек; Мохаммед, Фархан; Чан, Эдвин С.-Ю.; Ассам, Присели Н.; Кларидж-Чанг, Адам (2015). «Оценка обработки информации в системе памяти: полезность метааналитических методов для генетики». ПЛОС Генетика . 11 (12): e1005718. дои : 10.1371/journal.pgen.1005718 . ПМЦ 4672901 . ПМИД  26647168. 
  16. ^ Хентшке, Харальд; Майк К. Штюттген (2011). «Расчет показателей величины эффекта для наборов данных нейробиологии». Европейский журнал неврологии . 34 (12): 1887–1894. дои : 10.1111/j.1460-9568.2011.07902.x. PMID  22082031. S2CID  12505606.
  17. ^ «Руководство по публикации Американской психологической ассоциации, шестое издание».
  18. ^ «Единые требования к рукописям, представляемым в биомедицинские журналы». Архивировано из оригинала 15 мая 2013 года.
  19. ^ Амрайн, Валентин; Гренландия, Сандер; МакШейн, Блейк (2019). «Ученые восстают против статистической значимости», Nature 567, 305–307.
  20. ^ Бернар, Кристоф (2019). «Изменение того, как мы сообщаем, интерпретируем и обсуждаем наши результаты, чтобы восстановить доверие к нашим исследованиям». эНейро . 6 (4). doi :10.1523/ENEURO.0259-19.2019. ПМК 6709206 . ПМИД  31453315. 
  21. ^ Элкинс, Марк; и другие. (2022). «Статистический вывод посредством оценки: рекомендации редакторов журналов Международного общества физиотерапии», Журнал физиотерапии, 68 (1), 1-4.
  22. ^ Хэлси, Льюис Г. (2019). «Царство p-значения закончилось: какие альтернативные методы анализа мы могли бы использовать, чтобы заполнить вакуум власти?». Письма по биологии . 15 (5): 20190174. doi :10.1098/rsbl.2019.0174. ПМК 6548726 . ПМИД  31113309. 
  23. ^ Камминг, Джефф; Калин-Джагеман, Роберт (2016). Введение в новую статистику: оценка, открытая наука и не только . Рутледж. ISBN 978-1138825529.[ нужна страница ]
  24. ^ Аб Гарднер, MJ; Альтман, Д.Г. (1986). «Доверительные интервалы, а не значения P: оценка, а не проверка гипотез». БМЖ . 292 (6522): 746–750. дои : 10.1136/bmj.292.6522.746. ПМЦ 1339793 . ПМИД  3082422. 
  25. ^ Хо, Хосес; Тумкая, Тайфун; Арьял, Самир; Чхве, Хёнвон; Кларидж-Чанг, Адам (2018). «Выход за рамки значений P: ежедневный анализ данных с оценочными графиками». дои : 10.1101/377978 . {{cite journal}}: Требуется цитировать журнал |journal=( помощь )
  26. ^ Коэн, Джейкоб (1994). «Земля круглая (p < 0,05)». Американский психолог . 49 (12): 997–1003. дои : 10.1037/0003-066X.49.12.997.
  27. ^ Эллис, Пол (2010). Основное руководство по размерам эффекта: статистическая мощность, метаанализ и интерпретация результатов исследований . Кембридж: Издательство Кембриджского университета.[ нужна страница ]
  28. ^ Дентон Э. Моррисон, Рамон Э. Хенкель, изд. (2006). Споры о тесте значимости: читатель . Альдинская сделка. ISBN 978-0202308791.[ нужна страница ]
  29. ^ Камминг, Джефф. «Танец значений р». YouTube .
  30. ^ Се, Мин-ге; Сингх, Кесар (2013). «Распределение достоверности, оценка частотного распределения параметра: обзор». Международный статистический обзор . 81 (1): 3–39. дои : 10.1111/insr.12000. JSTOR  43298799. S2CID  3242459.
  31. ^ Халпин, Питер Ф.; Стам, Хендерикус Дж. (2006). «Индуктивный вывод или индуктивное поведение: Фишер и Нейман: подходы Пирсона к статистическому тестированию в психологических исследованиях (1940–1960)». Американский журнал психологии . 119 (4): 625–653. дои : 10.2307/20445367. JSTOR  20445367. PMID  17286092.
  32. ^ Бейт-Маром, Руфь; Фидлер, Фиона Маргарет; Камминг, Джеффри Дэвид (2008). «Статистическое познание: на пути к научно обоснованной практике в статистике и статистическом образовании». Статистический исследовательский журнал в области образования . 7 (2): 20–39. CiteSeerX 10.1.1.154.7648 . doi : 10.52041/serj.v7i2.468. S2CID  18902043.