stringtranslate.com

Модель пропорциональных рисков

Модели пропорциональных рисков представляют собой класс моделей выживания в статистике . Модели выживания связывают время, прошедшее до того, как произойдет какое-либо событие, с одной или несколькими ковариатами , которые могут быть связаны с этим количеством времени. В модели пропорциональных рисков уникальный эффект увеличения ковариаты на единицу мультипликативен по отношению к уровню риска . Например, прием лекарств может вдвое снизить риск возникновения инсульта, а изменение материала, из которого изготовлен компонент, может удвоить риск отказа. Другие типы моделей выживания, такие как модели ускоренного времени отказа, не демонстрируют пропорциональных рисков. Модель ускоренного времени отказа описывает ситуацию, когда биологическая или механическая история жизни события ускоряется (или замедляется).

Фон

Модели выживания можно рассматривать как состоящие из двух частей: лежащая в основе базовая функция риска , которую часто обозначают как описывающая, как риск события в единицу времени изменяется с течением времени на базовых уровнях ковариат; и параметры эффекта, описывающие, как опасность меняется в зависимости от поясняющих ковариат. Типичный медицинский пример может включать такие ковариаты, как назначение лечения, а также характеристики пациента, такие как возраст на момент начала исследования, пол и наличие других заболеваний на момент начала исследования, чтобы уменьшить вариабельность и/или контролировать возникновение искажающих факторов.

Условие пропорциональных рисков [1] гласит, что ковариаты мультипликативно связаны с опасностью. Например, в простейшем случае стационарных коэффициентов лечение лекарством может, скажем, вдвое снизить опасность для субъекта в любой момент времени , в то время как исходный уровень опасности может варьироваться. Однако обратите внимание, что это не удваивает продолжительность жизни субъекта; точное влияние ковариат на время жизни зависит от типа . Ковариата не ограничивается бинарными предикторами ; в случае непрерывной ковариаты обычно предполагается, что опасность реагирует экспоненциально; увеличение каждой единицы приводит к пропорциональному масштабированию опасности.

Модель Кокса

Введение

Сэр Дэвид Кокс заметил, что если предположение о пропорциональных рисках справедливо (или предполагается, что оно справедливо), то можно оценить параметр(ы) эффекта, обозначенные ниже, без какого-либо рассмотрения полной функции риска. Такой подход к данным о выживании называется применением модели пропорциональных рисков Кокса , [2] иногда сокращенно называемой моделью Кокса или моделью пропорциональных рисков . [3] Однако Кокс также отметил, что биологическая интерпретация предположения о пропорциональных рисках может быть довольно сложной. [4] [5]

Пусть X i = ( X i 1 , … , X ip ) будут реализованными значениями p ковариат для субъекта i . Функция риска для модели пропорциональных рисков Кокса имеет форму. Это выражение дает функцию риска в момент времени t для субъекта i с вектором ковариат (объясняющие переменные) X i . Обратите внимание, что базовый риск для всех субъектов одинаков (не зависит от i ). Единственная разница между опасностями субъектов связана с базовым масштабным коэффициентом .

Почему его называют «пропорциональным»

Для начала предположим, что у нас есть только одна ковариата и, следовательно, один коэффициент . Рассмотрим эффект увеличения на 1:

Мы видим, что увеличение ковариаты на 1 масштабирует исходную опасность на константу . Немного переставив ситуацию, мы видим, что:

Правая часть постоянна во времени (ни в одном члене нет a). Эта зависимость называется пропорциональной зависимостью .

В более общем плане рассмотрим два предмета, i и j , с ковариатами и соответственно. Рассмотрим соотношение их опасностей:

Правая часть не зависит от времени, поскольку единственный зависящий от времени фактор был исключен. Таким образом, соотношение опасностей двух субъектов является постоянным, т.е. опасности пропорциональны.

Отсутствие термина перехвата

Часто в моделях регрессии используется термин-перехват (также называемый постоянным термином или термином смещения). В модели Кокса его нет, поскольку его место занимает базовая опасность . Давайте посмотрим, что произойдет, если мы все равно добавим термин перехвата, обозначенный : где мы переопределили новую базовую опасность, . Таким образом, базовая опасность включает в себя все части опасности, которые не зависят от ковариат субъектов, включая любые пересекающиеся термины (которые по определению постоянны для всех субъектов).

Вероятность уникальных времен

Частичная вероятность Кокса , показанная ниже, получается путем использования оценки Бреслоу базовой функции риска, подстановки ее к полной вероятности и последующего наблюдения, что результат является произведением двух факторов. Первым фактором является показанная ниже частичная вероятность, при которой базовый риск «отменился». Второй фактор свободен от коэффициентов регрессии и зависит от данных только посредством шаблона цензурирования . Таким образом, влияние ковариат, оцененных с помощью любой модели пропорциональных рисков, можно представить как коэффициенты рисков .

Вероятность того, что событие, которое будет наблюдаться, произойдет для субъекта i в момент времени Y i, можно записать как: где θ j = exp( X jβ ), а суммирование ведется по множеству субъектов j , где событие не произошло до этого момента. Y i (включая самого субъекта i ). Очевидно, 0 <  L i (β) ≤ 1. Это частичная вероятность : влияние ковариат можно оценить без необходимости моделирования изменения опасности с течением времени.

Если рассматривать субъектов так, как если бы они были статистически независимыми друг от друга, то общая вероятность всех реализованных событий [6] представляет собой следующую частичную вероятность, где возникновение события обозначается C i  = 1:

Соответствующее логарифмическое частичное правдоподобие равно

Эту функцию можно максимизировать по β , чтобы получить оценки максимального частичного правдоподобия параметров модели.

Частичная функция оценки :

а матрица Гессе частичного логарифмического правдоподобия равна

Используя эту оценочную функцию и матрицу Гессе, частичную вероятность можно максимизировать с помощью алгоритма Ньютона-Рафсона . Обратная матрица Гессиана, оцененная по оценке β , может использоваться в качестве приблизительной дисперсионно-ковариационной матрицы для оценки и использоваться для получения приблизительных стандартных ошибок для коэффициентов регрессии.

Вероятность, когда существуют равные времена

Было предложено несколько подходов для решения ситуаций, в которых имеются связи во временных данных. Метод Бреслоу описывает подход, при котором описанная выше процедура используется без изменений, даже при наличии связей. Альтернативным подходом, который, как считается, дает лучшие результаты, является метод Эфрона . [7] Пусть t j обозначает уникальные моменты времени, пусть H j обозначает набор индексов i таких, что Y i  =  t j ​​и C i  = 1, и пусть m j  = | Ч Дж |. Подход Эфрона максимизирует следующую частичную вероятность.

Соответствующее логарифмическое частичное правдоподобие — это функция оценки, а матрица Гессе — где

Обратите внимание, что когда H j пусто (все наблюдения за время t j подвергаются цензуре), слагаемые в этих выражениях рассматриваются как ноль.

Примеры

Ниже приведены некоторые примеры применения модели Кокса на практике.

Одна бинарная ковариата

Предположим, что нас интересует конечная точка — выживаемость пациентов в течение 5-летнего периода наблюдения после операции. Пациенты могут умереть в течение 5 лет, и мы записываем, когда они умерли, или пациенты могут прожить более 5 лет, и мы записываем только то, что они прожили более 5 лет. Операция была проведена в одной из двух больниц, A или B , и мы хотели бы знать, связано ли расположение больницы с 5-летней выживаемостью. В частности, мы хотели бы знать относительное увеличение (или уменьшение) риска от операции, проведенной в больнице А, по сравнению с больницей Б. Предоставляются некоторые (поддельные) данные, где каждая строка представляет пациента: T — как долго пациент находился в больнице. наблюдался до смерти или в течение 5 лет (измеряется в месяцах), а C обозначает, если пациент умер в течение 5-летнего периода. Мы закодировали больницу как двоичную переменную, обозначенную X : 1, если из больницы A , 0, если из больницы B.

Наша одноковариатная пропорциональная модель Кокса выглядит следующим образом: она представляет эффект больницы и индексирует каждого пациента:

Используя статистическое программное обеспечение, мы можем оценить значение 2,12. Коэффициент риска представляет собой экспоненту этой величины, . Чтобы понять почему, рассмотрим соотношение опасностей, а именно:

Таким образом, отношение рисков больницы А к больнице Б составляет . Отложив на мгновение статистическую значимость, мы можем заявить, что у пациентов в больнице А риск смерти в любой короткий период времени в 8,3 раза выше, чем в больнице Б.

При интерпретации следует сделать несколько важных замечаний:

  1. более высокий риск смерти в 8,3 раза не означает, что в больнице А умрет в 8,3 раза больше пациентов: анализ выживаемости изучает, насколько быстро происходят события, а не просто происходят ли они.
  2. Более конкретно, «риск смерти» является мерой уровня. Скорость имеет единицы измерения, например, метры в секунду. Однако относительная скорость не имеет значения: велосипед может двигаться в два раза быстрее, чем другой велосипед (эталонный велосипед), без указания каких-либо единиц измерения. Аналогично, риск смерти (скорость смертности) в больнице А в 8,3 раза выше (быстрее), чем риск смерти в больнице Б (контрольная группа).
  3. обратная величина — это коэффициент риска больницы B по отношению к больнице A.
  4. Мы не сделали никаких выводов о вероятности выживания между больницами. Это связано с тем, что нам понадобится оценка базового уровня опасности , а также наша оценка. Однако стандартная оценка модели пропорционального риска Кокса не позволяет напрямую оценить базовый уровень риска.
  5. Поскольку мы проигнорировали единственный изменяющийся во времени компонент модели — базовый уровень опасности, наша оценка не зависит от масштаба времени. Например, если бы мы измеряли время в годах, а не в месяцах, мы получили бы ту же оценку.
  6. Заманчиво сказать, что именно больница стала причиной разницы в рисках между двумя группами, но поскольку наше исследование не является причинно-следственным (то есть мы не знаем, как были получены данные), мы придерживаемся такой терминологии, как «связанный».

Одна непрерывная ковариата

Чтобы продемонстрировать менее традиционный вариант использования анализа выживания, следующим примером будет экономический вопрос: какова связь между соотношением цены и прибыли (P/E) компании в первую годовщину IPO и ее будущим выживанием? Более конкретно, если мы рассматриваем «событие рождения» компании как ее первую годовщину IPO, а любое банкротство, продажу, переход в частное состояние и т. д. как событие «смерти» компании, мы хотели бы знать влияние компаний ' Соотношение цена/прибыль на момент их «рождения» (первая годовщина IPO) зависит от их выживания.

Предоставляется (поддельный) набор данных с данными о выживании 12 компаний: T представляет собой количество дней между первой годовщиной IPO и смертью (или датой окончания 01 января 2022 г., если компания не умерла). C означает, умерла ли компания до 1 января 2022 г. или нет. P/E представляет собой соотношение цены и прибыли компании на момент ее первой годовщины IPO.

В отличие от предыдущего примера, где использовалась двоичная переменная, в этом наборе данных есть непрерывная переменная P/E; однако модель выглядит аналогично: где представляет собой коэффициент P/E компании. Пропуск этого набора данных через модель Кокса дает оценку значения неизвестного , которая равна -0,34. Таким образом, оценка всей опасности равна:

Поскольку базовая опасность не была оценена, невозможно рассчитать всю опасность. Однако рассмотрим соотношение рисков компаний i и j :

Все условия справа известны, поэтому можно рассчитать соотношение опасностей между компаниями. Поскольку справа нет члена, зависящего от времени (все члены постоянны), опасности пропорциональны друг другу. Например, отношение риска компании 5 к компании 2 составляет . Это означает, что в интервале исследования риск «смерти» компании 5 составляет 0,33 ≈ 1/3 от риска смерти компании 2.

При интерпретации следует сделать несколько важных замечаний:

  1. Коэффициент риска — это величина , которая указана в приведенном выше примере. Судя по последнему расчету, приведенному выше, это интерпретируется как отношение опасностей между двумя «субъектами», переменные которых отличаются на одну единицу: если , то . Выбор «отличаться на одну единицу» удобен, поскольку он точно передает значение .
  2. Базовую опасность можно представить, если масштабный коэффициент равен 1, т.е. Можем ли мы интерпретировать базовый риск как риск «базовой» компании, P/E которой равен 0? Такая интерпретация базовой опасности как «опасности для исходного субъекта» несовершенна, поскольку возможно, что ковариата, равная 0, невозможна. В этом приложении коэффициент P/E, равный 0, не имеет смысла (это означает, что цена акций компании равна 0, т. е. они «мертвы»). Более подходящей интерпретацией была бы «опасность, когда все переменные равны нулю».
  1. Соблазнительно захотеть понять и интерпретировать ценность, отражающую опасность компании. Однако подумайте, что это на самом деле представляет собой: . Здесь неявно существует соотношение рисков, сравнивающее риск компании i с воображаемой базовой компанией с 0 P/E. Однако, как объяснялось выше, коэффициент P/E, равный 0, в этом приложении невозможен, поэтому в этом примере он не имеет смысла. Однако соотношения между вероятными опасностями имеют важное значение.

Изменяющиеся во времени предикторы и коэффициенты

Расширение переменных, зависящих от времени, слоев, зависящих от времени, и нескольких событий на каждого субъекта может быть включено в формулировку процесса подсчета Андерсена и Гилла. [8] Одним из примеров использования моделей риска с изменяющимися во времени регрессорами является оценка влияния страхования по безработице на периоды безработицы. [9] [10]

В дополнение к разрешению изменяющихся во времени ковариатов (т.е. предикторов), модель Кокса также может быть обобщена на изменяющиеся во времени коэффициенты. То есть пропорциональный эффект лечения может меняться со временем; например, лекарство может быть очень эффективным, если его ввести в течение одного месяца после заболевания , и со временем стать менее эффективным. Затем можно проверить гипотезу об отсутствии изменения со временем (стационарности) коэффициента. Подробности и программное обеспечение ( пакет R ) доступны у Мартинуссена и Шайке (2006). [11] [12]

В этом контексте можно также упомянуть, что теоретически возможно определить влияние ковариат с помощью аддитивных опасностей, [13] т.е. указать , используются ли такие модели аддитивных опасностей в ситуациях, когда целью является максимизация (логарифмического) правдоподобия: необходимо позаботиться о том, чтобы ограничиться неотрицательными значениями. Возможно, из-за этой сложности такие модели встречаются редко. Если вместо этого целью является метод наименьших квадратов, ограничение неотрицательности строго не требуется.

Определение базовой функции риска

Модель Кокса может быть специализированной, если существует причина предполагать, что базовая опасность имеет определенную форму. В этом случае базовый риск заменяется заданной функцией. Например, если предположить, что функция риска является функцией риска Вейбулла, получается модель пропорциональных рисков Вейбулла .

Между прочим, использование базовой опасности Вейбулла является единственным обстоятельством, при котором модель удовлетворяет как моделям пропорциональных рисков, так и моделям ускоренного времени отказа .

Общий термин «параметрические модели пропорциональных рисков» можно использовать для описания моделей пропорциональных рисков, в которых указана функция риска. Модель пропорциональных рисков Кокса, напротив, иногда называют полупараметрической моделью .

Некоторые авторы используют термин « модель пропорциональных рисков Кокса» даже при указании базовой функции риска [14] , чтобы признать, что вся эта область исследований в долгу перед Дэвидом Коксом.

Термин «модель регрессии Кокса» (без учета пропорциональных рисков ) иногда используется для описания расширения модели Кокса за счет включения факторов, зависящих от времени. Однако такое использование потенциально неоднозначно, поскольку модель пропорциональных рисков Кокса сама по себе может быть описана как регрессионная модель.

Связь с моделями Пуассона

Существует связь между моделями пропорциональных рисков и моделями регрессии Пуассона , которая иногда используется для соответствия приблизительным моделям пропорциональных рисков в программном обеспечении для регрессии Пуассона. Обычной причиной этого является то, что расчет происходит намного быстрее. Это было более важно во времена более медленных компьютеров, но все еще может быть полезно для особенно больших наборов данных или сложных проблем. Лэрд и Оливье (1981) [15] приводят математические подробности. Они отмечают: «Мы не предполагаем, что [модель Пуассона] верна, а просто используем ее как инструмент для определения вероятности». В книге МакКаллаха и Нелдера [16] об обобщенных линейных моделях есть глава, посвященная преобразованию моделей пропорциональных рисков в обобщенные линейные модели .

Под высокоразмерной установкой

В многомерном случае, когда количество ковариат p велико по сравнению с размером выборки n, метод LASSO является одной из классических стратегий выбора модели. Тибширани (1997) предложил процедуру Лассо для параметра регрессии пропорционального риска. [17] Оценка Лассо параметра регрессии β определяется как минимизатор противоположности частичного логарифмического правдоподобия Кокса при ограничении типа L 1 -нормы .

В последнее время наблюдается теоретический прогресс по этой теме. [18] [19] [20] [21]

Реализации программного обеспечения

Смотрите также

Примечания

  1. ^ Бреслоу, Нью-Йорк (1975). «Анализ данных о выживании в рамках модели пропорциональных рисков». Международное статистическое обозрение/Revue Internationale de Statistique . 43 (1): 45–57. дои : 10.2307/1402659. JSTOR  1402659.
  2. ^ Кокс, Дэвид Р. (1972). «Регрессионные модели и таблицы смертности». Журнал Королевского статистического общества, серия B. 34 (2): 187–220. JSTOR  2985181. МР  0341758.
  3. ^ Калбфляйш, Джон Д.; Шаубель, Дуглас Э. (10 марта 2023 г.). «Пятьдесят лет модели Кокса». Ежегодный обзор статистики и ее применения . 10 (1): 1–23. Бибкод : 2023AnRSA..10....1K. doi : 10.1146/annurev-statistics-033021-014043 . ISSN  2326-8298.
  4. ^ Рид, Н. (1994). «Разговор с сэром Дэвидом Коксом». Статистическая наука . 9 (3): 439–455. дои : 10.1214/сс/1177010394 .
  5. ^ Кокс, ДР (1997). Некоторые замечания по анализу данных о выживаемости . Первый Сиэтлский симпозиум по биостатистике: анализ выживания.
  6. ^ «Каждая неудача вносит свой вклад в функцию правдоподобия», Кокс (1972), стр. 191.
  7. ^ Эфрон, Брэдли (1974). «Эффективность функции правдоподобия Кокса для цензурированных данных». Журнал Американской статистической ассоциации . 72 (359): 557–565. дои : 10.1080/01621459.1977.10480613. JSTOR  2286217.
  8. ^ Андерсен, П.; Гилл, Р. (1982). «Регрессионная модель Кокса для процессов подсчета, большое выборочное исследование». Анналы статистики . 10 (4): 11:00–11:20. дои : 10.1214/aos/1176345976 . JSTOR  2240714.
  9. ^ Мейер, Б.Д. (1990). «Страхование по безработице и периоды безработицы» (PDF) . Эконометрика . 58 (4): 757–782. дои : 10.2307/2938349. JSTOR  2938349.
  10. ^ Бовер, О.; Арельяно, М .; Бентолила, С. (2002). «Продолжительность безработицы, продолжительность пособия и деловой цикл» (PDF) . Экономический журнал . 112 (479): 223–265. дои : 10.1111/1468-0297.00034. S2CID  15575103.
  11. ^ Мартинуссен; Шайке (2006). Модели динамической регрессии для данных о выживании . Спрингер. дои : 10.1007/0-387-33960-4. ISBN 978-0-387-20274-7.
  12. ^ «timereg: Гибкие модели регрессии для данных о выживании» . КРАН .
  13. ^ Кокс, ДР (1997). Некоторые замечания по анализу данных о выживаемости . Первый Сиэтлский симпозиум по биостатистике: анализ выживания.
  14. ^ Бендер, Р.; Огюстен, Т.; Блеттнер, М. (2006). «Создание времени выживания для моделирования моделей пропорциональных рисков Кокса». Статистика в медицине . 24 (11): 1713–1723. дои : 10.1002/сим.2369 . PMID  16680804. S2CID  43875995.
  15. ^ Нэн Лэрд и Дональд Оливье (1981). «Ковариационный анализ подвергнутых цензуре данных о выживании с использованием методов лог-линейного анализа». Журнал Американской статистической ассоциации . 76 (374): 231–240. дои : 10.2307/2287816. JSTOR  2287816.
  16. ^ П. МакКаллах и Дж. А. Нелдер (2000). «Глава 13: Модели данных о выживании». Обобщенные линейные модели (второе изд.). Бока-Ратон, Флорида: Chapman & Hall/CRC. ISBN 978-0-412-31760-6.(Второе издание 1989 г.; первое переиздание CRC 1999 г.)
  17. ^ Тибширани, Р. (1997). «Метод Лассо для выбора переменных в модели Кокса». Статистика в медицине . 16 (4): 385–395. CiteSeerX 10.1.1.411.8024 . doi :10.1002/(SICI)1097-0258(19970228)16:4<385::AID-SIM380>3.0.CO;2-3. ПМИД  9044528. 
  18. ^ Брадич, Дж.; Фан, Дж.; Цзян, Дж. (2011). «Регуляризация модели пропорциональных рисков Кокса с NP-мерностью». Анналы статистики . 39 (6): 3092–3120. arXiv : 1010.5233 . дои : 10.1214/11-AOS911. ПМЦ 3468162 . ПМИД  23066171. 
  19. ^ Брадич, Дж.; Сонг, Р. (2015). «Структурированная оценка в непараметрической модели Кокса». Электронный статистический журнал . 9 (1): 492–534. arXiv : 1207.4510 . дои : 10.1214/15-EJS1004. S2CID  88519017.
  20. ^ Конг, С.; Нан, Б. (2014). «Неасимптотические неравенства оракула для многомерной регрессии Кокса через Лассо». Статистика Синица . 24 (1): 25–42. arXiv : 1204.1992 . дои : 10.5705/сс.2012.240. ПМЦ 3916829 . ПМИД  24516328. 
  21. ^ Хуанг, Дж.; Сан, Т.; Ин, З.; Ю, Ю.; Чжан, Швейцария (2011). «Неравенства Oracle для аркана в модели Кокса». Анналы статистики . 41 (3): 1142–1165. arXiv : 1306.4847 . дои : 10.1214/13-AOS1098. ПМЦ 3786146 . ПМИД  24086091. 
  22. ^ "КоксМодельФит". Центр документации по языкам и системам Wolfram .

Рекомендации