stringtranslate.com

Тест Хосмера – Лемешоу

Тест Хосмера -Лемешоу представляет собой статистический тест на соответствие и калибровку моделей логистической регрессии . Он часто используется в моделях прогнозирования рисков . Тест оценивает, соответствуют ли наблюдаемые частоты событий ожидаемым частотам событий в подгруппах модельной совокупности. Критерий Хосмера-Лемешоу конкретно определяет подгруппы как децили подобранных значений риска. Модели, для которых ожидаемые и наблюдаемые частоты событий в подгруппах схожи, называются хорошо калиброванными.

Тест был назван в честь его разработчиков, статистиков Дэвида Хосмера и Стэнли Лемешоу, [1] [2] и популяризировался благодаря их учебнику по логистической регрессии. [3]

Введение

Мотивация

Модели логистической регрессии дают оценку вероятности результата, обычно обозначаемого как «успех». Желательно, чтобы предполагаемая вероятность успеха была близка к истинной вероятности. Рассмотрим следующий пример.

Исследователь хочет знать, улучшает ли кофеин результаты теста на память. Добровольцы потребляют разное количество кофеина от 0 до 500 мг, и их баллы в тесте на память фиксируются. Результаты показаны в таблице ниже.

Таблица имеет следующие столбцы.

Исследователь выполняет логистическую регрессию, где «успех» — это оценка А в тесте на память, а объясняющая переменная ( x ) — доза кофеина. Логистическая регрессия показывает, что доза кофеина значимо связана с вероятностью оценки А ( p  <0,001). Однако график зависимости вероятности кофеина класса А от мг показывает, что логистическая модель (красная линия) неточно предсказывает вероятность, наблюдаемую в данных (черные кружки).

логистическая пригодность кофеин класса А

Логистическая модель предполагает, что наибольшая доля оценок А будет наблюдаться у добровольцев, которые потребляют ноль мг кофеина, тогда как на самом деле самая высокая доля оценок А наблюдается у добровольцев, потребляющих кофеин в диапазоне от 100 до 150 мг.

Та же информация может быть представлена ​​на другом графике, что полезно при наличии двух или более объясняющих переменных ( x ). Это график наблюдаемой доли успехов в данных и ожидаемой доли, предсказанной логистической моделью. В идеале все точки попадают на диагональную красную линию.

График логистических наблюдений и опыта кофеина

Ожидаемая вероятность успеха (оценка А) определяется уравнением модели логистической регрессии:

где b 0 и b 1 заданы моделью логистической регрессии:

Для логистической модели P(успех) в зависимости от дозы кофеина оба графика показывают, что для многих доз расчетная вероятность не близка к вероятности, наблюдаемой в данных. Это происходит даже несмотря на то, что регрессия дала значительное значение p для кофеина. Можно иметь значительное значение p, но при этом иметь плохие прогнозы относительно доли успехов. Тест Хосмера-Лемешоу полезен для определения того, являются ли плохие прогнозы (несоответствие) значимыми, указывая на наличие проблем с моделью.

Существует множество возможных причин, по которым модель может давать плохие прогнозы. В этом примере график логистической регрессии предполагает, что вероятность получения оценки A не меняется монотонно в зависимости от дозы кофеина, как предполагается в модели. Вместо этого она увеличивается (от 0 до 100 мг), а затем снижается. Текущая модель — это P (успех) против кофеина, и она кажется неадекватной моделью. Лучшей моделью может быть P(успех) против кофеина + кофеина 2 . Добавление квадратичного члена «кофеин в регрессионную модель позволило бы увеличить, а затем уменьшить зависимость уровня кофеина от дозы кофеина. Логистическая модель, включающая термин «кофеин , показывает, что квадратичный термин «кофеин^2» является значимым ( p  = 0,003), тогда как линейный термин «кофеин» не является значимым ( p  = 0,21).

На графике ниже показана наблюдаемая доля успешных результатов в данных по сравнению с ожидаемой пропорцией, предсказанной логистической моделью, включающей термин «кофеин^\ .

График логистической наблюдаемой зависимости от опыта кофеина, квадратичный

Критерий Хосмера-Лемешоу может определить, являются ли различия между наблюдаемыми и ожидаемыми пропорциями значительными, что указывает на несоответствие модели.

Критерий пригодности Пирсона по хи-квадрату

Критерий соответствия хи-квадрат Пирсона позволяет проверить, значительно ли различаются наблюдаемые и ожидаемые пропорции. Этот метод полезен, если имеется много наблюдений для каждого значения переменной(ей) x.

Для примера с кофеином известно наблюдаемое количество оценок А и не-А. Ожидаемое число (из логистической модели) можно рассчитать с помощью уравнения логистической регрессии. Они показаны в таблице ниже.

Нулевая гипотеза заключается в том, что наблюдаемые и ожидаемые пропорции одинаковы для всех доз. Альтернативная гипотеза состоит в том, что наблюдаемые и ожидаемые пропорции не совпадают.

Статистика Пирсона хи-квадрат представляет собой сумму (наблюдаемое – ожидаемое)^2/ожидаемое. Для данных о кофеине статистика хи-квадрат Пирсона составляет 17,46. Число степеней свободы равно количеству доз (11) минус количество параметров логистической регрессии (2), что дает 11 – 2 = 9 степеней свободы. Вероятность того, что статистика хи-квадрат с df=9 будет равна 17,46 или больше, равна p = 0,042. Этот результат указывает на то, что для примера с кофеином наблюдаемые и ожидаемые пропорции оценок А значительно различаются. Модель неточно предсказывает вероятность получения оценки А с учетом дозы кофеина. Этот результат согласуется с графиками выше.

В этом примере с кофеином для каждой дозы имеется 30 наблюдений, что делает возможным вычисление статистики хи-квадрат Пирсона. К сожалению, часто бывает недостаточно наблюдений для каждой возможной комбинации значений переменных x, поэтому статистику хи-квадрат Пирсона невозможно легко вычислить. Решением этой проблемы является статистика Хосмера – Лемешоу. Ключевая концепция статистики Хосмера – Лемешоу заключается в том, что вместо того, чтобы наблюдения группировались по значениям переменных x, наблюдения группируются по ожидаемой вероятности. То есть наблюдения с одинаковой ожидаемой вероятностью помещаются в одну и ту же группу, обычно создавая примерно 10 групп.

Расчет статистики

Статистика теста Хосмера – Лемешова определяется следующим образом:

Здесь O 1 g , E 1 g , O 0 g , E 0 g , N g и π g обозначают наблюдаемые события Y  = 1, ожидаемые  события Y = 1, наблюдаемые события Y  = 0, ожидаемые события Y  = 0, всего наблюдения, прогнозируемый риск для g децильной группы риска, а G — количество групп. Тестовая статистика асимптотически следует распределению с G  - 2 степенями свободы. Количество групп риска может корректироваться в зависимости от того, сколько подходящих рисков определено моделью. Это помогает избежать единичных децильных групп.

Критерий соответствия хи-квадрат Пирсона не может быть легко применен, если имеется только одно или несколько наблюдений для каждого возможного значения переменной x или для каждой возможной комбинации значений переменных x. Для решения этой проблемы была разработана статистика Хосмера – Лемешова.

Предположим, что в исследовании кофеина исследователь не смог назначить 30 добровольцев на каждую дозу. Вместо этого 170 добровольцев сообщили примерное количество кофеина, которое они употребили за предыдущие 24 часа. Данные показаны в таблице ниже.

Таблица показывает, что для многих уровней дозы имеется только одно или несколько наблюдений. В этой ситуации статистика хи-квадрат Пирсона не даст надежных оценок.

Модель логистической регрессии для данных о кофеине для 170 добровольцев показывает, что доза кофеина значимо связана с оценкой А, p  <0,001. На графике видно, что наблюдается нисходящий наклон. Однако вероятность получения оценки А, предсказанная логистической моделью (красная линия), не позволяет точно предсказать вероятность, оцененную на основе данных для каждой дозы (черные кружки). Несмотря на значительное значение p для дозы кофеина, логистическая кривая не соответствует наблюдаемым данным.

логистический график 170 волонтеров

Эта версия графика может вводить в заблуждение, поскольку каждую дозу принимает разное количество добровольцев. На альтернативном графике — пузырьковом графике — размер круга пропорционален количеству добровольцев. [4]

Пузырьковая логистика 170 волонтеров

График наблюдаемой и ожидаемой вероятности также указывает на несоответствие модели с большим разбросом вокруг идеальной диагонали.

График зависимости obs от exp 170, пример логистики кофеина

Расчет статистики Хосмера-Лемешоу происходит в 6 этапов, [5] на примере кофеина для 170 добровольцев.

1. Вычислить p(успех) для всех n испытуемых.

Рассчитайте p(успех) для каждого субъекта, используя коэффициенты логистической регрессии. Испытуемые с одинаковыми значениями объясняющих переменных будут иметь одинаковую оценку вероятности успеха. В таблице ниже показано p (успех), ожидаемая доля добровольцев с оценкой А, предсказанная логистической моделью.

2. Упорядочите p(успех) от наибольшего к наименьшему значениям.

Таблица из шага 1 сортируется по p(успех), ожидаемой пропорции. Если бы каждый доброволец принимал разную дозу, в таблице было бы 170 разных значений. Поскольку существует только 21 уникальное значение дозы, существует только 21 уникальное значение p(успех).

3. Разделите упорядоченные значения на группы Q процентилей.

Упорядоченные значения p(успех) разделены на Q-группы. Число групп Q обычно равно 10. Из-за связанных значений p (успех) количество субъектов в каждой группе может не быть идентичным. В разных программных реализациях теста Хосмера-Лемешоу используются разные методы обработки субъектов с одинаковым p (успехом), поэтому точки отсечения для создания Q-групп могут различаться. Кроме того, использование другого значения Q приведет к получению разных точек отсечения. В таблице шага 4 показаны интервалы Q = 10 для данных о кофеине.

4. Создайте таблицу наблюдаемых и ожидаемых количеств.

Наблюдаемое количество успехов и неудач в каждом интервале получается путем подсчета испытуемых в этом интервале. Ожидаемое количество успехов в интервале представляет собой сумму вероятностей успеха для испытуемых в этом интервале.

В таблице ниже показаны точки отсечения для интервалов p (успех), выбранных функцией R HLTest() от Билдера и Лахина, с количеством наблюдаемых и ожидаемых A, а не A.

5. Рассчитайте статистику Хосмера–Лемешова по таблице.

Статистика Хосмера-Лемешова рассчитывается по формуле, приведенной во введении, которая для примера с кофеином равна 17,103.

6. Рассчитайте значение p

Сравните вычисленную статистику Хосмера – Лемешоу с распределением хи-квадрат с Q  - 2 степенями свободы, чтобы вычислить p-значение.

В примере с кофеином Q = 10 групп, что  дает 10 – 2 = 8 степеней свободы. Значение p для статистики хи-квадрат 17,103 с df = 8 составляет p  = 0,029. Значение p ниже альфа = 0,05, поэтому нулевая гипотеза о том, что наблюдаемые и ожидаемые пропорции одинаковы для всех доз, отвергается. Способ расчета — получить кумулятивную функцию распределения для правостороннего распределения хи-квадрат с 8 степенями свободы, т. е. cdf_chisq_rt(x,8) или 1 — cdf_chisq_lt(x, 8).

Ограничения и альтернативы

Тест Хосмера-Лемешоу имеет ограничения. Харрелл описывает несколько: [6]

«Тест Хосмера-Лемешоу предназначен для выявления общей ошибки калибровки, а не какого-либо конкретного недостатка соответствия, такого как квадратичные эффекты. Он не учитывает должным образом переоснащение, является произвольным в отношении выбора интервалов и метода вычисления квантилей и часто имеет мощность, которая слишком низко».

«По этим причинам тест Хосмера-Лемешоу больше не рекомендуется. У Хосмера и др. есть лучший комплексный тест на соответствие, реализованный в функции Rrms пакета Residuals.lrm».

«Но я рекомендую заранее указать модель, чтобы повысить вероятность ее соответствия (особенно в отношении ослабления предположений о линейности с помощью регрессионных сплайнов) и использовать бутстрап для оценки переобучения и получения сглаженной калибровочной кривой высокого разрешения с поправкой на переобучение для проверки абсолютная точность. Это делается с использованием пакета R rms».

Другие альтернативы были разработаны для устранения ограничений теста Хосмера – Лемешоу. К ним относятся тест Осиуса-Ройека и тест Штукеля. [7] [8]

Рекомендации

  1. ^ Хосмер, Дэвид В.; Лемсбоу, Стэнли (1980). «Тестирование соответствия модели множественной логистической регрессии». Коммуникации в статистике - теория и методы . 9 (10): 1043–1069. дои : 10.1080/03610928008827941. ISSN  0361-0926.
  2. ^ Лемешоу, Стэнли; Хосмер, Дэвид В. (1982). «Обзор пригодности статистики для использования при разработке моделей логистической регрессии». Американский журнал эпидемиологии . 115 (1): 92–106. doi : 10.1093/oxfordjournals.aje.a113284. ISSN  1476-6256.
  3. ^ Хосмер, Дэвид В.; Лемешоу, Стэнли; Стердивант, Родни X. (2013). Прикладная логистическая регрессия . Ряды Уайли по вероятности и статистике (3-е изд.). Хобокен, Нью-Джерси: Уайли. ISBN 978-0-470-58247-3.
  4. ^ Билдер, Кристофер Р.; Лафхин, Томас М. (2014), Анализ категориальных данных с помощью R (первое издание), Чепмен и Холл / CRC, ISBN 978-1439855676
  5. ^ Кляйнбаум, Дэвид Г.; Кляйн, Митчел (2012), Анализ выживания: текст для самообучения (Третье изд.), Springer, ISBN 978-1441966452
  6. ^ «Оценка логистической регрессии и интерпретация согласия Хосмера-Лемешоу» . Крест проверен . Проверено 29 февраля 2020 г.
  7. ^ Хосмер, Д.В.; Хосмер, Т.; Ле Сесси, С.; Лемешоу, С. (15 мая 1997 г.). «Сравнение критериев согласия для модели логистической регрессии». Статистика в медицине . 16 (9): 965–980. doi :10.1002/(SICI)1097-0258(19970515)16:9<965::AID-SIM509>3.0.CO;2-O. ISSN  0277-6715.
  8. ^ доступно в скрипте R AllGOFTests.R: www.chrisbilder.com/categorical/Chapter5/AllGOFTests.R.

Внешние ссылки