Тест Хосмера–Лемешоу — это статистический тест на соответствие и калибровку для моделей логистической регрессии . Он часто используется в моделях прогнозирования риска . Тест оценивает, соответствуют ли наблюдаемые частоты событий ожидаемым частотам событий в подгруппах популяции модели. Тест Хосмера–Лемешоу специально определяет подгруппы как децили подобранных значений риска. Модели, для которых ожидаемые и наблюдаемые частоты событий в подгруппах схожи, называются хорошо калиброванными.
Тест был назван в честь его разработчиков, статистиков Дэвида Хосмера и Стэнли Лемешоу, [1] [2] и был популяризирован их учебником по логистической регрессии. [3]
Модели логистической регрессии дают оценку вероятности результата, обычно обозначаемого как «успех». Желательно, чтобы предполагаемая вероятность успеха была близка к истинной вероятности. Рассмотрим следующий пример.
Исследователь хочет узнать, улучшает ли кофеин результаты теста на память. Добровольцы потребляют разное количество кофеина от 0 до 500 мг, и их баллы записываются в тесте на память. Результаты показаны в таблице ниже.
Таблица состоит из следующих столбцов.
Исследователь выполняет логистическую регрессию, где «успех» — это оценка A в тесте на память, а объясняющая переменная ( x ) — это доза кофеина. Логистическая регрессия показывает, что доза кофеина значительно связана с вероятностью оценки A ( p < 0,001). Однако график вероятности оценки A в зависимости от мг кофеина показывает, что логистическая модель (красная линия) неточно предсказывает вероятность, наблюдаемую в данных (черные круги).
Логистическая модель предполагает, что самая высокая доля оценок А будет у добровольцев, потребляющих ноль мг кофеина, тогда как на самом деле самая высокая доля оценок А будет у добровольцев, потребляющих от 100 до 150 мг.
Та же информация может быть представлена в другом графике, который полезен, когда есть две или более объясняющих ( x ) переменных. Это график наблюдаемой доли успехов в данных и ожидаемой доли, предсказанной логистической моделью. В идеале все точки попадают на диагональную красную линию.
Ожидаемая вероятность успеха (оценка А) определяется уравнением для модели логистической регрессии:
где b 0 и b 1 определяются моделью логистической регрессии:
Для логистической модели P(успех) против дозы кофеина оба графика показывают, что для многих доз предполагаемая вероятность не близка к вероятности, наблюдаемой в данных. Это происходит даже несмотря на то, что регрессия дала значимое значение p для кофеина. Можно иметь значимое значение p, но все равно иметь плохие прогнозы доли успехов. Тест Хосмера–Лемешоу полезен для определения того, являются ли плохие прогнозы (отсутствие соответствия) значимыми, что указывает на наличие проблем с моделью.
Существует множество возможных причин, по которым модель может давать плохие прогнозы. В этом примере график логистической регрессии показывает, что вероятность оценки A не меняется монотонно с дозой кофеина, как предполагает модель. Вместо этого она увеличивается (от 0 до 100 мг), а затем уменьшается. Текущая модель — P(успех) против кофеина, и, по-видимому, это неадекватная модель. Лучшей моделью может быть P(успех) против кофеина + кофеина 2 . Добавление квадратичного члена кофеина 2 к регрессионной модели позволило бы увеличить, а затем уменьшить связь оценки с дозой кофеина. Логистическая модель, включающая член кофеина 2, показывает, что квадратичный член кофеина^2 является значимым ( p = 0,003), тогда как линейный член кофеина не является значимым ( p = 0,21).
На графике ниже показана наблюдаемая доля успешных результатов в данных по сравнению с ожидаемой долей, предсказанной логистической моделью, которая включает термин «кофеин^\ 2» .
Тест Хосмера–Лемешова может определить, являются ли различия между наблюдаемыми и ожидаемыми пропорциями значимыми, что указывает на несоответствие модели.
Тест согласия Пирсона хи-квадрат предоставляет метод проверки того, насколько существенно различаются наблюдаемые и ожидаемые пропорции. Этот метод полезен, если для каждого значения переменной(ых) x имеется много наблюдений.
Для примера с кофеином известно наблюдаемое количество оценок A и не-A. Ожидаемое количество (из логистической модели) можно рассчитать с помощью уравнения из логистической регрессии. Они показаны в таблице ниже.
Нулевая гипотеза заключается в том, что наблюдаемые и ожидаемые пропорции одинаковы для всех доз. Альтернативная гипотеза заключается в том, что наблюдаемые и ожидаемые пропорции не одинаковы.
Статистика хи-квадрат Пирсона представляет собой сумму (наблюдаемое – ожидаемое)^2/ожидаемое. Для данных по кофеину статистика хи-квадрат Пирсона составляет 17,46. Число степеней свободы равно числу доз (11) минус число параметров из логистической регрессии (2), что дает 11 - 2 = 9 степеней свободы. Вероятность того, что статистика хи-квадрат с df=9 будет 17,46 или больше, составляет p = 0,042. Этот результат показывает, что для примера с кофеином наблюдаемые и ожидаемые пропорции оценок A значительно различаются. Модель неточно предсказывает вероятность оценки A, учитывая дозу кофеина. Этот результат согласуется с графиками выше.
В этом примере с кофеином для каждой дозы имеется 30 наблюдений, что делает возможным вычисление статистики хи-квадрат Пирсона. К сожалению, часто бывает так, что для каждой возможной комбинации значений переменных x недостаточно наблюдений, поэтому статистика хи-квадрат Пирсона не может быть легко рассчитана. Решением этой проблемы является статистика Хосмера–Лемешоу. Ключевая концепция статистики Хосмера–Лемешоу заключается в том, что вместо того, чтобы группировать наблюдения по значениям переменной(ых) x, наблюдения группируются по ожидаемой вероятности. То есть наблюдения с похожей ожидаемой вероятностью помещаются в одну группу, обычно для создания приблизительно 10 групп.
Статистика теста Хосмера–Лемешоу определяется по формуле:
Здесь O 1 g , E 1 g , O 0 g , E 0 g , N g и π g обозначают наблюдаемые события Y = 1, ожидаемые события Y = 1, наблюдаемые события Y = 0, ожидаемые события Y = 0, общее количество наблюдений, прогнозируемый риск для g -й группы дециля риска, а G — количество групп. Тестовая статистика асимптотически следует распределению с G − 2 степенями свободы. Количество групп риска может быть скорректировано в зависимости от того, сколько подобранных рисков определяется моделью. Это помогает избежать отдельных децильных групп.
Тест согласия Пирсона хи-квадрат не может быть легко применен, если есть только одно или несколько наблюдений для каждого возможного значения переменной x или для каждой возможной комбинации значений переменных x. Статистика Хосмера–Лемешоу была разработана для решения этой проблемы.
Предположим, что в исследовании кофеина исследователь не смог назначить 30 добровольцев для каждой дозы. Вместо этого 170 добровольцев сообщили предполагаемое количество кофеина, которое они потребили за предыдущие 24 часа. Данные показаны в таблице ниже.
Таблица показывает, что для многих уровней доз есть только одно или несколько наблюдений. Статистика Пирсона хи-квадрат не даст надежных оценок в этой ситуации.
Логистическая регрессионная модель для данных по кофеину для 170 добровольцев показывает, что доза кофеина значительно связана с оценкой A, p < 0,001. График показывает, что есть нисходящий наклон. Однако вероятность оценки A, предсказанная логистической моделью (красная линия), неточно предсказывает вероятность, оцененную по данным для каждой дозы (черные круги). Несмотря на значимое p-значение для дозы кофеина, наблюдается отсутствие соответствия логистической кривой наблюдаемым данным.
Эта версия графика может быть несколько обманчивой, поскольку разное количество добровольцев принимает каждую дозу. В альтернативном графике, пузырьковой диаграмме, размер круга пропорционален количеству добровольцев. [4]
График зависимости наблюдаемой вероятности от ожидаемой также указывает на неадекватность модели, со значительным разбросом вокруг идеальной диагонали.
Расчет статистики Хосмера–Лемешоу выполняется в 6 этапов [5] с использованием в качестве примера данных по кофеину для 170 добровольцев.
1. Вычислить p(успех) для всех n субъектов
Вычислите p(успех) для каждого субъекта, используя коэффициенты из логистической регрессии. Субъекты с одинаковыми значениями объясняющих переменных будут иметь одинаковую предполагаемую вероятность успеха. В таблице ниже показан p(успех), ожидаемая доля добровольцев с оценкой A, как предсказано логистической моделью.
2. Упорядочить p(успех) от наибольшего значения к наименьшему
Таблица из Шага 1 отсортирована по p(успех), ожидаемой пропорции. Если бы каждый доброволец принял разную дозу, в таблице было бы 170 разных значений. Поскольку существует только 21 уникальное значение дозы, существует только 21 уникальное значение p(успех).
3. Разделите упорядоченные значения на группы Q-процентилей.
Упорядоченные значения p(успех) делятся на Q групп. Количество групп, Q, обычно равно 10. Из-за связанных значений p(успех) количество субъектов в каждой группе может быть разным. Различные программные реализации теста Хосмера–Лемешова используют разные методы обработки субъектов с одинаковым p(успех), поэтому точки отсечения для создания групп Q могут различаться. Кроме того, использование другого значения для Q приведет к получению разных точек отсечения. Таблица на шаге 4 показывает интервалы Q = 10 для данных по кофеину.
4. Составьте таблицу наблюдаемых и ожидаемых значений.
Наблюдаемое число успехов и неудач в каждом интервале получается путем подсчета субъектов в этом интервале. Ожидаемое число успехов в интервале является суммой вероятности успеха для субъектов в этом интервале.
В таблице ниже показаны точки отсечения для интервалов p(успех), выбранных функцией R HLTest() из Bilder и Loughin, с числом наблюдаемых и ожидаемых A и не A.
5. Рассчитайте статистику Хосмера–Лемешова из таблицы
Статистика Хосмера–Лемешоу рассчитывается с использованием формулы, приведенной во введении, которая для примера с кофеином составляет 17,103.
6. Рассчитайте p-значение
Сравните вычисленную статистику Хосмера–Лемешоу с распределением хи-квадрат с Q − 2 степенями свободы, чтобы вычислить p-значение.
В примере с кофеином Q = 10 групп , что дает 10 – 2 = 8 степеней свободы. Значение p для статистики хи-квадрат 17,103 с df = 8 равно p = 0,029. Значение p ниже альфа = 0,05, поэтому нулевая гипотеза о том, что наблюдаемые и ожидаемые пропорции одинаковы для всех доз, отвергается. Способ вычисления этого заключается в получении кумулятивной функции распределения для правого хвоста хи-квадрат с 8 степенями свободы, т. е. cdf_chisq_rt(x,8) или 1 − cdf_chisq_lt(x, 8).
Тест Хосмера-Лемешоу имеет ограничения. Харрелл описывает несколько: [6]
«Тест Хосмера–Лемешоу предназначен для общей ошибки калибровки, а не для какого-либо конкретного недостатка соответствия, такого как квадратичные эффекты. Он не учитывает должным образом переобучение, произволен в выборе бинов и метода вычисления квантилей и часто имеет слишком низкую мощность».
«По этим причинам тест Хосмера–Лемешоу больше не рекомендуется. Хосмер и др. предлагают лучший одномерный тест соответствия, реализованный в функции residuals.lrm пакета R rms».
«Но я рекомендую указать модель, чтобы повысить вероятность ее подгонки заранее (особенно в отношении ослабления предположений о линейности с использованием регрессионных сплайнов) и использовать бутстрап для оценки переподгонки и получения сглаженной калибровочной кривой высокого разрешения с поправкой на переподгонку для проверки абсолютной точности. Это делается с помощью пакета R rms».
Для устранения ограничений теста Хосмера–Лемешоу были разработаны другие альтернативы. К ним относятся тест Осиуса–Ройека и тест Штукеля. [7] [8]