Статистика оценки

Статистика оценки , или просто оценка , представляет собой структуру анализа данных, которая использует комбинацию размеров эффекта , доверительных интервалов , точного планирования и метаанализа для планирования экспериментов, анализа данных и интерпретации результатов. ^[1] Он дополняет подходы к проверке гипотез, такие как проверка значимости нулевой гипотезы (NHST), выходя за рамки вопроса о наличии или отсутствии эффекта и предоставляя информацию о том, насколько велик эффект. ^[2]^[3] Оценочную статистику иногда называют новой статистикой . ^[3]^[4]^[5]

Основная цель методов оценки — сообщить о размере эффекта ( точечная оценка ) вместе с его доверительным интервалом , последний из которых связан с точностью оценки. ^[6] Доверительный интервал суммирует диапазон вероятных значений основного популяционного эффекта. Сторонники оценки рассматривают сообщение о значении P как бесполезное отвлечение от важного дела, связанного с сообщением о величине эффекта с его доверительными интервалами, ^[7] и считают, что оценка должна заменить проверку значимости для анализа данных. ^[8]^[9]

История

Начиная с 1929 года физик Раймонд Тайер Бирдж публиковал обзорные статьи ^[10] , в которых он использовал методы средневзвешенных значений для расчета оценок физических констант - процедуру, которую можно рассматривать как предшественник современного метаанализа . ^[11]

В 1960-х годах оценочная статистика была принята нефизическими науками с разработкой Джейкобом Коэном стандартизированной величины эффекта .

В 1970-х годах синтез современных исследований был впервые осуществлен Джином В. Глассом, опубликовавшим первый систематический обзор и метаанализ психотерапии. ^[12] Эта новаторская работа впоследствии повлияла на принятие мета-анализа для лечения в целом.

В 1980-х и 1990-х годах методы оценки были расширены и усовершенствованы биостатистиками, в том числе Ларри Хеджесом , Майклом Боренштейном, Дугом Альтманом , Мартином Гарднером и многими другими, с развитием современного (медицинского) метаанализа.

Начиная с 1980-х годов систематический обзор , используемый в сочетании с метаанализом, стал методом, широко используемым в медицинских исследованиях. В PubMed имеется более 200 000 ссылок на «метаанализ» .

В 1990-х годах редактор Кеннет Ротман запретил использование p-значений в журнале «Эпидемиология» ; согласие было высоким среди авторов, но это существенно не изменило их аналитическое мышление. ^[13]

В 2010-х годах Джефф Камминг опубликовал учебник, посвященный статистике оценок, а также программное обеспечение в Excel, предназначенное для обучения мышлению о величине эффекта, в первую очередь психологов. ^[14] Также в 2010-х годах методы оценки получили все большее распространение в нейробиологии. ^[15]^[16]

В 2013 году Руководство для публикаций Американской психологической ассоциации рекомендовало использовать оценку в дополнение к проверке гипотез. ^[17] Также в 2013 году документ «Единые требования к рукописям, представляемым в биомедицинские журналы» содержал аналогичную рекомендацию: «Избегайте полагаться исключительно на проверку статистических гипотез, таких как значения P, которые не могут передать важную информацию о величине эффекта». ^[18]

В 2019 году более 800 ученых подписали открытый комментарий, призывающий отказаться от всей концепции статистической значимости. ^[19]

В 2019 году журнал Общества нейронаук eNeuro ввел политику, рекомендующую использование оценочных графиков в качестве предпочтительного метода представления данных. ^[20] А в 2022 году редакторы журналов Международного общества физиотерапии рекомендовали использовать методы оценки вместо статистических тестов с нулевой гипотезой. ^[21]

Несмотря на широкое распространение метаанализа в клинических исследованиях и рекомендации нескольких крупных издательских учреждений, система оценки обычно не используется в первичных биомедицинских исследованиях. ^[22]

Методология

Многие тесты значимости имеют оценочный аналог; ^[23] почти в каждом случае результат теста (или его p-значение ) можно просто заменить величиной эффекта и оценкой точности. Например, вместо использования t-критерия Стьюдента аналитик может сравнить две независимые группы, рассчитав среднюю разницу и ее 95% доверительный интервал . Соответствующие методы можно использовать для парного t-теста и множественных сравнений. Аналогично, для регрессионного анализа аналитик сообщит коэффициент детерминации (R ² ) и уравнение модели вместо p-значения модели.

Однако сторонники оценочной статистики предостерегают от сообщения лишь нескольких цифр. Вместо этого рекомендуется анализировать и представлять данные с помощью визуализации данных. ^[2]^[5]^[6] Примеры подходящих визуализаций включают диаграмму рассеяния для регрессии и графики Гарднера-Альтмана для двух независимых групп. ^[24] Хотя графики групп исторических данных (столбчатые диаграммы, коробчатые диаграммы и графики скрипки) не отображают сравнение, оценочные графики добавляют вторую ось для явной визуализации размера эффекта. ^[25]

График Гарднера-Альтмана

График разницы средних Гарднера-Альтмана был впервые описан Мартином Гарднером и Дугом Альтманом в 1986 году; ^[24] представляет собой статистический график, предназначенный для отображения данных двух независимых групп. ^[5] Существует также версия, подходящая для парных данных. Ключевые инструкции по созданию этой диаграммы заключаются в следующем: (1) отобразите все наблюдаемые значения для обеих групп рядом друг с другом; (2) поместите вторую ось справа, сместив ее, чтобы показать шкалу средней разницы; и (3) постройте среднюю разницу с ее доверительным интервалом в виде маркера с полосами ошибок. ^[3] Графики Гарднера-Альтмана можно построить с помощью DABEST-Python или dabestr; в качестве альтернативы аналитик может использовать программное обеспечение с графическим интерфейсом, например приложение Estimation Stats.

Заговор Камминга

Для нескольких групп Джефф Камминг предложил использовать вторичную панель для построения двух или более средних различий и их доверительных интервалов, расположенную под панелью наблюдаемых значений; ^[3] такое расположение позволяет легко сравнивать средние различия («дельты») по нескольким группам данных. Графики Камминга можно создать с помощью пакета ESCI, DABEST или приложения Estimation Stats.

Другие методологии

Помимо средней разницы, существует множество других типов величины эффекта , каждый из которых имеет относительные преимущества. Основные типы включают величину эффекта в классе стандартизированных показателей Коэна d и коэффициент детерминации (R ² ) для регрессионного анализа . Для ненормальных распределений существует ряд более надежных величин эффекта, включая дельту Клиффа и статистику Колмогорова-Смирнова .

Ошибки в проверке гипотез

При проверке гипотез основной целью статистических вычислений является получение значения p , вероятности увидеть полученный результат или более экстремальный результат, если предположить, что нулевая гипотеза верна. Если значение p низкое (обычно <0,05), специалисту по статистике рекомендуется отвергнуть нулевую гипотезу. Сторонники оценки отвергают обоснованность проверки гипотез ^[3]^[6] по следующим причинам, среди прочего:

P-значения легко и часто неправильно интерпретируются. Например, значение p часто ошибочно принимают за «вероятность того, что нулевая гипотеза верна».
Нулевая гипотеза всегда неверна для любого набора наблюдений: всегда есть какой-то эффект, даже если он незначительный. ^[26]
Проверка гипотез дает дихотомические ответы «да-нет», отбрасывая при этом важную информацию о величине. ^[27]
Любое конкретное значение p возникает в результате взаимодействия размера эффекта , размера выборки (при прочих равных условиях больший размер выборки дает меньшее значение p) и ошибки выборки. ^[28]
При малой мощности моделирование показывает, что ошибка выборки делает значения p чрезвычайно нестабильными. ^[29]

Преимущества оценочной статистики

Количественная оценка

В то время как значения p фокусируются на ответах «да» или «нет», оценка направляет внимание аналитика на количественную оценку.

Преимущества доверительных интервалов

Доверительные интервалы ведут себя предсказуемым образом. По определению, 95% доверительные интервалы имеют 95% вероятность покрытия основного генерального среднего значения (μ). Эта особенность остается постоянной при увеличении размера выборки; меняется то, что интервал становится меньше. Кроме того, 95% доверительные интервалы также являются 83% интервалами прогнозирования: один (доэкспериментальный) доверительный интервал имеет 83% вероятность охватить среднее значение любого будущего эксперимента. ^[3] Таким образом, знание 95% доверительных интервалов одного эксперимента дает аналитику разумный диапазон среднего значения генеральной совокупности. Тем не менее, доверительные распределения и апостериорные распределения предоставляют гораздо больше информации, чем одноточечная оценка или интервалы, ^[30] что может усугубить дихотомическое мышление в зависимости от того, охватывает ли интервал «нулевое» интересующее значение (т. е. индуктивное поведение Неймана в отличие от Фишера ^[31] ).

Доказательная статистика

Психологические исследования восприятия статистики показывают, что интервальные оценки отчетности обеспечивают более точное восприятие данных, чем отчетные p-значения. ^[32]

Точное планирование

Точность оценки формально определяется как 1/ дисперсия и, как и степень, увеличивается (улучшается) с увеличением размера выборки. Как и мощность , высокий уровень точности стоит дорого; Заявки на исследовательские гранты в идеале должны включать анализ точности/затрат. Сторонники оценки считают, что точное планирование должно заменить власть , поскольку сама статистическая мощность концептуально связана с проверкой значимости. ^[3] Точное планирование можно выполнить с помощью веб-приложения ESCI.