Статистика оценки , или просто оценка , представляет собой структуру анализа данных, которая использует комбинацию размеров эффекта , доверительных интервалов , точного планирования и метаанализа для планирования экспериментов, анализа данных и интерпретации результатов. [1] Он дополняет подходы к проверке гипотез, такие как проверка значимости нулевой гипотезы (NHST), выходя за рамки вопроса о наличии или отсутствии эффекта и предоставляя информацию о том, насколько велик эффект. [2] [3] Оценочную статистику иногда называют новой статистикой . [3] [4] [5]
Основная цель методов оценки — сообщить о размере эффекта ( точечная оценка ) вместе с его доверительным интервалом , последний из которых связан с точностью оценки. [6] Доверительный интервал суммирует диапазон вероятных значений основного популяционного эффекта. Сторонники оценки рассматривают сообщение о значении P как бесполезное отвлечение от важного дела, связанного с сообщением о величине эффекта с его доверительными интервалами, [7] и считают, что оценка должна заменить проверку значимости для анализа данных. [8] [9]
Начиная с 1929 года физик Раймонд Тайер Бирдж публиковал обзорные статьи [10] , в которых он использовал методы средневзвешенных значений для расчета оценок физических констант - процедуру, которую можно рассматривать как предшественник современного метаанализа . [11]
В 1960-х годах оценочная статистика была принята нефизическими науками с разработкой Джейкобом Коэном стандартизированной величины эффекта .
В 1970-х годах синтез современных исследований был впервые осуществлен Джином В. Глассом, опубликовавшим первый систематический обзор и метаанализ психотерапии. [12] Эта новаторская работа впоследствии повлияла на принятие мета-анализа для лечения в целом.
В 1980-х и 1990-х годах методы оценки были расширены и усовершенствованы биостатистиками, в том числе Ларри Хеджесом , Майклом Боренштейном, Дугом Альтманом , Мартином Гарднером и многими другими, с развитием современного (медицинского) метаанализа.
Начиная с 1980-х годов систематический обзор , используемый в сочетании с метаанализом, стал методом, широко используемым в медицинских исследованиях. В PubMed имеется более 200 000 ссылок на «метаанализ» .
В 1990-х годах редактор Кеннет Ротман запретил использование p-значений в журнале «Эпидемиология» ; согласие было высоким среди авторов, но это существенно не изменило их аналитическое мышление. [13]
В 2010-х годах Джефф Камминг опубликовал учебник, посвященный статистике оценок, а также программное обеспечение в Excel, предназначенное для обучения мышлению о величине эффекта, в первую очередь психологов. [14] Также в 2010-х годах методы оценки получили все большее распространение в нейробиологии. [15] [16]
В 2013 году Руководство для публикаций Американской психологической ассоциации рекомендовало использовать оценку в дополнение к проверке гипотез. [17] Также в 2013 году документ «Единые требования к рукописям, представляемым в биомедицинские журналы» содержал аналогичную рекомендацию: «Избегайте полагаться исключительно на проверку статистических гипотез, таких как значения P, которые не могут передать важную информацию о величине эффекта». [18]
В 2019 году более 800 ученых подписали открытый комментарий, призывающий отказаться от всей концепции статистической значимости. [19]
В 2019 году журнал Общества нейронаук eNeuro ввел политику, рекомендующую использование оценочных графиков в качестве предпочтительного метода представления данных. [20] А в 2022 году редакторы журналов Международного общества физиотерапии рекомендовали использовать методы оценки вместо статистических тестов с нулевой гипотезой. [21]
Несмотря на широкое распространение метаанализа в клинических исследованиях и рекомендации нескольких крупных издательских учреждений, система оценки обычно не используется в первичных биомедицинских исследованиях. [22]
Многие тесты значимости имеют оценочный аналог; [23] почти в каждом случае результат теста (или его p-значение ) можно просто заменить величиной эффекта и оценкой точности. Например, вместо использования t-критерия Стьюдента аналитик может сравнить две независимые группы, рассчитав среднюю разницу и ее 95% доверительный интервал . Соответствующие методы можно использовать для парного t-теста и множественных сравнений. Аналогично, для регрессионного анализа аналитик сообщит коэффициент детерминации (R 2 ) и уравнение модели вместо p-значения модели.
Однако сторонники оценочной статистики предостерегают от сообщения лишь нескольких цифр. Вместо этого рекомендуется анализировать и представлять данные с помощью визуализации данных. [2] [5] [6] Примеры подходящих визуализаций включают диаграмму рассеяния для регрессии и графики Гарднера-Альтмана для двух независимых групп. [24] Хотя графики групп исторических данных (столбчатые диаграммы, коробчатые диаграммы и графики скрипки) не отображают сравнение, оценочные графики добавляют вторую ось для явной визуализации размера эффекта. [25]
График разницы средних Гарднера-Альтмана был впервые описан Мартином Гарднером и Дугом Альтманом в 1986 году; [24] представляет собой статистический график, предназначенный для отображения данных двух независимых групп. [5] Существует также версия, подходящая для парных данных. Ключевые инструкции по созданию этой диаграммы заключаются в следующем: (1) отобразите все наблюдаемые значения для обеих групп рядом друг с другом; (2) поместите вторую ось справа, сместив ее, чтобы показать шкалу средней разницы; и (3) постройте среднюю разницу с ее доверительным интервалом в виде маркера с полосами ошибок. [3] Графики Гарднера-Альтмана можно построить с помощью DABEST-Python или dabestr; в качестве альтернативы аналитик может использовать программное обеспечение с графическим интерфейсом, например приложение Estimation Stats.
Для нескольких групп Джефф Камминг предложил использовать вторичную панель для построения двух или более средних различий и их доверительных интервалов, расположенную под панелью наблюдаемых значений; [3] такое расположение позволяет легко сравнивать средние различия («дельты») по нескольким группам данных. Графики Камминга можно создать с помощью пакета ESCI, DABEST или приложения Estimation Stats.
Помимо средней разницы, существует множество других типов величины эффекта , каждый из которых имеет относительные преимущества. Основные типы включают величину эффекта в классе стандартизированных показателей Коэна d и коэффициент детерминации (R 2 ) для регрессионного анализа . Для ненормальных распределений существует ряд более надежных величин эффекта, включая дельту Клиффа и статистику Колмогорова-Смирнова .
При проверке гипотез основной целью статистических вычислений является получение значения p , вероятности увидеть полученный результат или более экстремальный результат, если предположить, что нулевая гипотеза верна. Если значение p низкое (обычно <0,05), специалисту по статистике рекомендуется отвергнуть нулевую гипотезу. Сторонники оценки отвергают обоснованность проверки гипотез [3] [6] по следующим причинам, среди прочего:
В то время как значения p фокусируются на ответах «да» или «нет», оценка направляет внимание аналитика на количественную оценку.
Доверительные интервалы ведут себя предсказуемым образом. По определению, 95% доверительные интервалы имеют 95% вероятность покрытия основного генерального среднего значения (μ). Эта особенность остается постоянной при увеличении размера выборки; меняется то, что интервал становится меньше. Кроме того, 95% доверительные интервалы также являются 83% интервалами прогнозирования: один (доэкспериментальный) доверительный интервал имеет 83% вероятность охватить среднее значение любого будущего эксперимента. [3] Таким образом, знание 95% доверительных интервалов одного эксперимента дает аналитику разумный диапазон среднего значения генеральной совокупности. Тем не менее, доверительные распределения и апостериорные распределения предоставляют гораздо больше информации, чем одноточечная оценка или интервалы, [30] что может усугубить дихотомическое мышление в зависимости от того, охватывает ли интервал «нулевое» интересующее значение (т. е. индуктивное поведение Неймана в отличие от Фишера [31] ).
Психологические исследования восприятия статистики показывают, что интервальные оценки отчетности обеспечивают более точное восприятие данных, чем отчетные p-значения. [32]
Точность оценки формально определяется как 1/ дисперсия и, как и степень, увеличивается (улучшается) с увеличением размера выборки. Как и мощность , высокий уровень точности стоит дорого; Заявки на исследовательские гранты в идеале должны включать анализ точности/затрат. Сторонники оценки считают, что точное планирование должно заменить власть , поскольку сама статистическая мощность концептуально связана с проверкой значимости. [3] Точное планирование можно выполнить с помощью веб-приложения ESCI.
{{cite journal}}
: Требуется цитировать журнал |journal=
( помощь )