Анализ выживаемости — это раздел статистики , посвященный анализу ожидаемой продолжительности времени до наступления одного события, например, смерти в биологических организмах и отказа в механических системах. Эта тема называется теорией надежности , анализом надежности или инженерией надежности в инженерии , анализом продолжительности или моделированием продолжительности в экономике и анализом истории событий в социологии . Анализ выживаемости пытается ответить на определенные вопросы, например, какова доля популяции, которая выживет после определенного времени? Из тех, кто выживет, с какой скоростью они умрут или выйдут из строя? Можно ли учитывать несколько причин смерти или отказа? Как определенные обстоятельства или характеристики увеличивают или уменьшают вероятность выживания ?
Чтобы ответить на такие вопросы, необходимо определить «продолжительность жизни». В случае биологического выживания смерть однозначна, но для механической надежности отказ может быть нечетко определен, поскольку вполне могут быть механические системы, в которых отказ является частичным, вопросом степени или иным образом не локализован во времени . Даже в биологических проблемах некоторые события (например, сердечный приступ или отказ другого органа) могут иметь ту же самую неоднозначность. Теория , изложенная ниже, предполагает четко определенные события в определенное время; другие случаи могут лучше рассматриваться с помощью моделей, которые явно учитывают неоднозначные события.
В более общем смысле анализ выживания включает моделирование данных времени до события; в этом контексте смерть или отказ считаются «событием» в литературе по анализу выживания — традиционно для каждого субъекта происходит только одно событие, после которого организм или механизм умирает или ломается. Модели повторяющихся событий или повторяющихся событий ослабляют это предположение. Изучение повторяющихся событий актуально для надежности систем , а также во многих областях социальных наук и медицинских исследований.
Анализ выживаемости используется несколькими способами:
В анализах выживаемости обычно используются следующие термины:
В этом примере используется набор данных по выживаемости при остром миелоидном лейкозе «aml» из пакета «survival» в R. Набор данных взят из Miller (1997) [1] , и вопрос заключается в том, следует ли продлевать («поддерживать») стандартный курс химиотерапии для дополнительных циклов.
Набор данных AML, отсортированный по времени выживания, показан в поле.
Последнее наблюдение (11) на 161 неделе цензурировано. Цензурирование указывает на то, что у пациента не было события (отсутствие рецидива рака aml). Другой субъект, наблюдение 3, был цензурирован на 13 неделе (обозначено статусом = 0). Этот субъект находился в исследовании всего 13 недель, и рак aml не рецидивировал в течение этих 13 недель. Возможно, что этот пациент был включен в исследование ближе к концу, поэтому его можно было наблюдать только 13 недель. Также возможно, что пациент был включен в исследование на ранней стадии, но был потерян для последующего наблюдения или выбыл из исследования. Таблица показывает, что другие субъекты были цензурированы на 16, 28 и 45 неделе (наблюдения 17, 6 и 9 со статусом = 0). У всех остальных субъектов произошли события (рецидив рака aml) во время участия в исследовании. Интерес представляет вопрос о том, наступает ли рецидив у пациентов, находящихся на поддерживающей терапии, позже, чем у пациентов, не находящихся на поддерживающей терапии.
Функция выживания S ( t ) — это вероятность того, что субъект проживет дольше времени t . S ( t ) теоретически является гладкой кривой, но обычно ее оценивают с помощью кривой Каплана–Майера (КМ). На графике показан график КМ для данных aml, и его можно интерпретировать следующим образом:
Таблица жизни суммирует данные о выживании с точки зрения количества событий и доли выживших в каждой точке времени события. Показана таблица жизни для данных aml, созданная с помощью программного обеспечения R.
Таблица жизни суммирует события и долю выживших в каждой точке времени события. Столбцы в таблице жизни имеют следующую интерпретацию:
Тест лог-ранга сравнивает время выживания двух или более групп. В этом примере используется тест лог-ранга для разницы в выживании в группах с поддерживаемым и неподдерживаемым лечением в данных AML. На графике показаны графики KM для данных AML, разбитых по группам лечения, что обозначено переменной «x» в данных.
Нулевая гипотеза для логрангового теста заключается в том, что группы имеют одинаковую выживаемость. Ожидаемое число субъектов, выживающих в каждой точке времени в каждой из них, корректируется с учетом числа субъектов, находящихся в группе риска, в группах в каждое время события. Логранговый тест определяет, значительно ли отличается наблюдаемое число событий в каждой группе от ожидаемого числа. Формальный тест основан на статистике хи-квадрат. Когда логранговая статистика велика, это свидетельствует о разнице во времени выживания между группами. Логранговая статистика приблизительно имеет распределение хи-квадрат с одной степенью свободы, а p-значение рассчитывается с использованием критерия хи-квадрат .
Для данных примера логранговый тест на разницу в выживаемости дает p-значение p=0,0653, что указывает на то, что группы лечения не имеют существенных различий в выживаемости, предполагая уровень альфа 0,05. Размер выборки из 23 субъектов скромен, поэтому мало возможностей для обнаружения различий между группами лечения. Тест хи-квадрат основан на асимптотическом приближении, поэтому к p-значению следует относиться с осторожностью для небольших размеров выборки .
Кривые Каплана–Майера и логранговые тесты наиболее полезны, когда предикторная переменная является категориальной (например, препарат против плацебо) или принимает небольшое количество значений (например, дозы препарата 0, 20, 50 и 100 мг/день), которые можно рассматривать как категориальные. Логранговый тест и кривые КМ не работают легко с количественными предикторами, такими как экспрессия генов, количество лейкоцитов или возраст. Для количественных предикторных переменных альтернативным методом является регрессионный анализ пропорциональных рисков Кокса . Модели Кокса PH также работают с категориальными предикторными переменными, которые кодируются как индикаторные или фиктивные переменные {0,1}. Логранговый тест является особым случаем анализа Кокса PH и может быть выполнен с помощью программного обеспечения Кокса PH.
В этом примере используется набор данных по меланоме из главы 14 Далгаарда. [2]
Данные находятся в пакете R ISwR. Регрессия пропорциональных рисков Кокса с использованием R дает результаты, показанные в рамке.
Результаты регрессии Кокса интерпретируются следующим образом.
В сводном выводе также приводятся верхний и нижний 95% доверительные интервалы для коэффициента риска: нижняя 95% граница = 1,15; верхняя 95% граница = 3,26.
Наконец, вывод дает p-значения для трех альтернативных тестов общей значимости модели:
Эти три теста асимптотически эквивалентны. Для достаточно больших N они дадут схожие результаты. Для малых N они могут несколько отличаться. Последняя строка, «Score (logrank) test» — это результат для логрангового теста с p=0,011, тот же результат, что и логранговый тест, поскольку логранговый тест является особым случаем регрессии Кокса PH. Тест отношения правдоподобия имеет лучшее поведение для небольших размеров выборки, поэтому он, как правило, предпочтителен.
Модель Кокса расширяет логранговый тест, позволяя включать дополнительные ковариаты. [3] В этом примере используется набор данных меланомы, где предикторные переменные включают непрерывный ковариат, толщину опухоли (имя переменной = «толстая»).
В гистограммах значения толщины положительно скошены и не имеют гауссово -подобного, симметричного распределения вероятностей . Регрессионные модели, включая модель Кокса, обычно дают более надежные результаты с нормально распределенными переменными. [ необходима цитата ] Для этого примера мы можем использовать логарифмическое преобразование. Логарифм толщины опухоли выглядит более нормально распределенным, поэтому модели Кокса будут использовать логарифм толщины. Анализ PH Кокса дает результаты в поле.
Значение p для всех трех общих тестов (вероятность, Вальд и оценка) является значимым, что указывает на значимость модели. Значение p для log(thick) составляет 6,9e-07, с отношением рисков HR = exp(coef) = 2,18, что указывает на сильную связь между толщиной опухоли и повышенным риском смерти.
Напротив, p-значение для пола теперь p=0,088. Коэффициент риска HR = exp(coef) = 1,58 с 95% доверительным интервалом от 0,934 до 2,68. Поскольку доверительный интервал для HR включает 1, эти результаты указывают на то, что пол вносит меньший вклад в разницу в HR после учета толщины опухоли и только тенденцию к значимости. Изучение графиков log(толщины) по полу и t-теста log(толщины) по полу указывают на то, что существует значительная разница между мужчинами и женщинами в толщине опухоли, когда они впервые обращаются к врачу.
Модель Кокса предполагает, что опасности пропорциональны. Предположение о пропорциональности опасности можно проверить с помощью функции R cox.zph(). Значение p, меньшее 0,05, указывает на то, что опасности не пропорциональны. Для данных по меланоме мы получаем p=0,222. Следовательно, мы не можем отвергнуть нулевую гипотезу о пропорциональности опасностей. Дополнительные тесты и графики для проверки модели Кокса описаны в цитируемых учебниках.
Модели Кокса можно расширить для учета вариаций простого анализа.
Модель регрессии Кокса PH является линейной моделью. Она похожа на линейную регрессию и логистическую регрессию. В частности, эти методы предполагают, что для разделения групп (живые, мертвые) или для оценки количественного ответа (время выживания) достаточно одной линии, кривой, плоскости или поверхности.
В некоторых случаях альтернативные разбиения дают более точную классификацию или количественные оценки. Один из наборов альтернативных методов — это древовидные модели выживания, [4] [5] [6], включая случайные леса выживания. [7] Древовидные модели выживания могут давать более точные прогнозы, чем модели Кокса. Изучение обоих типов моделей для заданного набора данных — разумная стратегия.
В этом примере анализа дерева выживаемости используется пакет R "rpart". [8] Пример основан на 146 пациентах с раком простаты стадии C в наборе данных stagec в rpart. Rpart и пример stagec описаны в Atkinson and Therneau (1997), [9] , который также распространяется как виньетка пакета rpart. [8]
Переменные на этапах:
Полученное в результате анализа дерево выживания показано на рисунке.
Каждая ветвь в дереве указывает на разделение по значению переменной. Например, корень дерева разделяет субъектов с оценкой < 2,5 против субъектов с оценкой 2,5 или выше. Конечные узлы указывают количество субъектов в узле, количество субъектов, у которых есть события, и относительную частоту событий по сравнению с корнем. В узле слева значения 1/33 указывают, что у одного из 33 субъектов в узле было событие, и что относительная частота событий составляет 0,122. В узле справа внизу значения 11/15 указывают, что у 11 из 15 субъектов в узле было событие, и относительная частота событий составляет 2,7.
Альтернативой построению одного дерева выживания является построение множества деревьев выживания, где каждое дерево строится с использованием выборки данных, и усреднение деревьев для прогнозирования выживания. [7] Это метод, лежащий в основе моделей случайного леса выживания. Анализ случайного леса выживания доступен в пакете R "randomForestSRC". [10]
Пакет randomForestSRC включает в себя пример анализа случайного леса выживаемости с использованием набора данных pbc. Эти данные взяты из исследования первичного билиарного цирроза печени (PBC) клиники Майо, проведенного между 1974 и 1984 годами. В этом примере модель выживания случайного леса дает более точные прогнозы выживаемости, чем модель Cox PH. Ошибки прогнозирования оцениваются с помощью повторной выборки bootstrap .
Недавние достижения в глубоком репрезентативном обучении были распространены на оценку выживаемости. Модель DeepSurv [11] предлагает заменить логарифмически линейную параметризацию модели CoxPH на многослойный персептрон. Дальнейшие расширения, такие как Deep Survival Machines [12] и Deep Cox Mixtures [13], включают использование моделей смесей скрытых переменных для моделирования распределения времени до события как смеси параметрических или полупараметрических распределений при совместном обучении представлений входных ковариатов. Подходы глубокого обучения показали превосходную производительность, особенно на сложных модальностях входных данных, таких как изображения и клинические временные ряды.
Объектом первостепенного интереса является функция выживания , условно обозначаемая S , которая определяется как
где t — некоторое время, T — случайная величина, обозначающая время смерти, а «Pr» означает вероятность . То есть функция выживания — это вероятность того, что время смерти наступит позже некоторого указанного времени t . Функция выживания также называется функцией выживания или функцией выживаемости в задачах биологического выживания и функцией надежности в задачах механического выживания. В последнем случае функция надежности обозначается R ( t ).
Обычно предполагается, что S (0) = 1, хотя оно может быть меньше 1, если существует вероятность немедленной смерти или отказа.
Функция выживания должна быть невозрастающей: S ( u ) ≤ S ( t ), если u ≥ t . Это свойство следует непосредственно, поскольку T > u подразумевает T > t . Это отражает представление о том, что выживание до более позднего возраста возможно только в том случае, если достигнуты все более молодые возрасты. Учитывая это свойство, функция распределения продолжительности жизни и плотность событий ( F и f ниже) хорошо определены.
Обычно предполагается, что функция выживания стремится к нулю по мере увеличения возраста без ограничений (т. е. S ( t ) → 0 при t → ∞), хотя предел может быть больше нуля, если вечная жизнь возможна. Например, мы могли бы применить анализ выживания к смеси стабильных и нестабильных изотопов углерода ; нестабильные изотопы рано или поздно распадутся, но стабильные изотопы будут существовать бесконечно.
Соответствующие величины определяются в терминах функции выживания.
Функция распределения продолжительности жизни , условно обозначаемая F , определяется как дополнение функции выживания,
Если F дифференцируема , то производная, которая является функцией плотности распределения времени жизни, условно обозначается f ,
Функцию f иногда называют плотностью событий ; это частота случаев смерти или отказа за единицу времени.
Функцию выживания можно выразить через функции распределения вероятностей и плотности вероятности.
Аналогично, функцию плотности событий выживания можно определить как
В других областях, таких как статистическая физика, функция плотности событий выживания известна как плотность времени первого прохождения .
Функция опасности , условно обозначаемая или , определяется как частота событий в момент времени, обусловленная выживанием до момента времени или позже (то есть ). Предположим, что элемент выжил в течение некоторого времени , и мы хотим получить вероятность того, что он не выживет в течение дополнительного времени :
Сила смертности является синонимом функции риска , которая используется, в частности, в демографии и актуарной науке , где она обозначается как . Термин «уровень риска» является еще одним синонимом.
Сила смертности функции выживания определяется как
Сила смертности также называется силой отказа. Это функция плотности вероятности распределения смертности.
В актуарной науке уровень риска — это уровень смертности для жизней в возрасте . Для жизни в возрасте , сила смертности лет спустя — это сила смертности для -летнего. Уровень риска также называется уровнем отказов. Уровень риска и уровень отказов — это названия, используемые в теории надежности.
Любая функция является функцией опасности тогда и только тогда, когда она удовлетворяет следующим свойствам:
Фактически, коэффициент риска обычно более информативен относительно основного механизма отказа, чем другие представления распределения срока службы.
Функция опасности должна быть неотрицательной, , а ее интеграл по должен быть бесконечным, но не ограниченным иным образом; она может быть возрастающей или убывающей, немонотонной или прерывистой. Примером является функция опасности кривой ванны , которая велика для малых значений , уменьшается до некоторого минимума, а затем снова увеличивается; это может моделировать свойство некоторых механических систем либо выходить из строя вскоре после эксплуатации, либо гораздо позже, по мере старения системы.
Функцию опасности можно альтернативно представить в терминах кумулятивной функции опасности , условно обозначаемой или :
поэтому перестановка знаков и возведение в степень
или дифференцируя (с цепным правилом)
Название «кумулятивная функция риска» происходит от того факта, что
что представляет собой «накопление» опасности с течением времени.
Из определения мы видим, что она неограниченно возрастает, когда t стремится к бесконечности (предполагая, что стремится к нулю). Это подразумевает, что не должно уменьшаться слишком быстро, поскольку по определению кумулятивный риск должен расходиться. Например, не является функцией риска любого распределения выживания, поскольку его интеграл сходится к 1.
Функция выживания , кумулятивная функция риска , плотность , функция риска и функция распределения времени жизни связаны соотношением
Будущая продолжительность жизни в данный момент времени — это время, оставшееся до смерти, учитывая выживаемость до возраста . Таким образом, это в настоящей нотации. Ожидаемая будущая продолжительность жизни — это ожидаемое значение будущей продолжительности жизни. Вероятность смерти в возрасте или до него , учитывая выживаемость до возраста , равна просто
Следовательно, плотность вероятности будущей жизни равна
и ожидаемая будущая продолжительность жизни составляет
где второе выражение получено с помощью интегрирования по частям .
Для , то есть при рождении, это сводится к ожидаемой продолжительности жизни.
В задачах надежности ожидаемый срок службы называется средним временем до отказа , а ожидаемый будущий срок службы называется средним остаточным сроком службы .
Поскольку вероятность дожития особи до возраста t или дольше равна S ( t ), по определению, ожидаемое число выживших в возрасте t из исходной популяции из n новорожденных равно n × S ( t ), предполагая одинаковую функцию выживания для всех особей. Таким образом, ожидаемая доля выживших равна S ( t ). Если выживание разных особей независимо, число выживших в возрасте t имеет биномиальное распределение с параметрами n и S ( t ), а дисперсия доли выживших равна S ( t ) × (1- S ( t ))/ n .
Возраст, в котором остается определенная доля выживших, можно найти, решив уравнение S ( t ) = q для t , где q — рассматриваемый квантиль . Обычно интерес представляет медианная продолжительность жизни , для которой q = 1/2, или другие квантили, такие как q = 0,90 или q = 0,99.
Цензурирование — это форма проблемы с отсутствующими данными, при которой время до события не наблюдается по таким причинам, как прекращение исследования до того, как все набранные субъекты продемонстрировали интересующее событие, или субъект покинул исследование до того, как произошло событие. Цензурирование распространено в анализе выживаемости.
Если известен только нижний предел l для истинного времени события T , такой что T > l , это называется правым цензурированием . Правое цензурирование будет иметь место, например, для тех субъектов, чья дата рождения известна, но которые все еще живы, когда они потеряны для последующего наблюдения или когда исследование заканчивается. Мы обычно сталкиваемся с данными, цензурированными справа.
Если интересующее событие уже произошло до того, как субъект был включен в исследование, но неизвестно, когда оно произошло, то говорят, что данные подвергнуты левой цензуре . [14] Когда можно сказать только, что событие произошло между двумя наблюдениями или обследованиями, это интервальная цензура .
Левое цензурирование происходит, например, когда постоянный зуб уже появился до начала стоматологического исследования, направленного на оценку распределения его появления. В том же исследовании время появления цензурируется по интервалу, когда постоянный зуб присутствует во рту при текущем обследовании, но еще не присутствует при предыдущем обследовании. Интервальное цензурирование часто происходит в исследованиях ВИЧ/СПИДа. Действительно, время до сероконверсии ВИЧ можно определить только с помощью лабораторной оценки, которая обычно начинается после визита к врачу. Тогда можно сделать вывод, что сероконверсия ВИЧ произошла только между двумя обследованиями. То же самое относится к диагностике СПИДа, которая основана на клинических симптомах и должна быть подтверждена медицинским обследованием.
Также может случиться, что субъекты с продолжительностью жизни меньше некоторого порога могут вообще не наблюдаться: это называется усечением . Обратите внимание, что усечение отличается от левого цензурирования, поскольку для левого цензурированного данных мы знаем, что субъект существует, но для усеченного данных мы можем вообще не знать о субъекте. Усечение также распространено. В так называемом исследовании с отложенным входом субъекты вообще не наблюдаются, пока они не достигнут определенного возраста. Например, люди могут не наблюдаться, пока они не достигнут возраста поступления в школу. Любые умершие субъекты в дошкольной возрастной группе будут неизвестны. Данные, усеченные слева, распространены в актуарной работе для страхования жизни и пенсий . [15]
Данные с левой цензурой могут возникнуть, когда время выживания человека становится неполным на левой стороне периода наблюдения за человеком. Например, в эпидемиологическом примере мы можем контролировать пациента на предмет инфекционного заболевания, начиная с того времени, когда он или она получает положительный результат теста на инфекцию. Хотя мы можем знать правую сторону интересующей нас продолжительности, мы никогда не узнаем точное время воздействия инфекционного агента. [16]
Модели выживания можно рассматривать как обычные регрессионные модели, в которых переменной отклика является время. Однако вычисление функции правдоподобия (необходимой для подгонки параметров или выполнения других видов выводов) осложняется цензурированием. Функция правдоподобия для модели выживания при наличии цензурированных данных формулируется следующим образом. По определению функция правдоподобия — это условная вероятность данных при заданных параметрах модели. Принято считать, что данные независимы при заданных параметрах. Тогда функция правдоподобия — это произведение правдоподобия каждого элемента данных. Удобно разделить данные на четыре категории: нецензурированные, левоцензурированные, правоцензурированные и интервально цензурированные. Они обозначены как «unc.», «lc», «rc» и «ic» в уравнении ниже.
Для нецензурированных данных, равных возрасту смерти, имеем
Для данных, цензурированных слева, таких, что известно, что возраст на момент смерти меньше , мы имеем
Для данных, цензурированных справа, таких, что известно, что возраст на момент смерти больше , мы имеем
Для интервала цензурированных данных, такого, что известно, что возраст на момент смерти меньше и больше , мы имеем
Важным приложением, в котором возникают данные, цензурированные по интервалу, являются данные о текущем состоянии, когда известно, что событие не произошло до времени наблюдения и произошло до времени следующего наблюдения.
Оценщик Каплана –Майера может использоваться для оценки функции выживания. Оценщик Нельсона–Аалена может использоваться для предоставления непараметрической оценки кумулятивной функции уровня риска. Эти оценщики требуют данных о продолжительности жизни. Периодические подсчеты случаев (когорты) и смертей (и выздоровлений) статистически достаточны для непараметрических оценок максимального правдоподобия и наименьших квадратов функций выживания без данных о продолжительности жизни.
В то время как многие параметрические модели предполагают непрерывное время, дискретные модели выживания могут быть сопоставлены с проблемой бинарной классификации. В дискретной модели выживания период выживания искусственно перевыбирается в интервалах, где для каждого интервала регистрируется бинарный целевой индикатор, если событие происходит в определенном временном горизонте. [17] Если бинарный классификатор (потенциально улучшенный с другой вероятностью, чтобы учитывать больше структуры проблемы) калибруется , то оценка классификатора является функцией опасности (т. е. условной вероятностью отказа). [17]
Модели выживания в дискретном времени связаны с эмпирической вероятностью . [18] [19]
Степень соответствия моделей выживания можно оценить с помощью правил подсчета баллов . [20]
В учебнике Кляйнбаума есть примеры анализа выживаемости с использованием SAS, R и других пакетов. [21] В учебниках Брострома [22] , Далгаарда [2] и Тейблмана и Кима [23] приведены примеры анализа выживаемости с использованием R (или с использованием S, и которые выполняются в R).