stringtranslate.com

Оценщик Каплана – Мейера

Пример графика Каплана-Мейера для двух состояний, связанных с выживаемостью пациентов.

Оценка Каплана -Мейера , [1] [2] , также известная как оценка предела продукта , представляет собой непараметрическую статистику , используемую для оценки функции выживания на основе данных о сроке службы. В медицинских исследованиях его часто используют для измерения доли пациентов, живущих определенное время после лечения. В других областях оценщики Каплана-Мейера могут использоваться для измерения продолжительности времени, в течение которого люди остаются безработными после потери работы, [3] времени до выхода из строя деталей машин или того, как долго мясистые плоды остаются на растениях до того, как их удалят. плодоядными . _ Оценщик назван в честь Эдварда Л. Каплана и Пола Мейера , каждый из которых представил аналогичные рукописи в Журнал Американской статистической ассоциации . [4] Редактор журнала Джон Тьюки убедил их объединить свою работу в одну статью, которая с момента ее публикации в 1958 году цитировалась более 61 800 раз. [5] [6]

Оценка функции выживания (вероятность того , что продолжительность жизни превышает ) определяется выражением:

со временем, когда произошло хотя бы одно событие, d i количество событий (например, смертей), произошедших в данный момент , и людей , о которых известно, что они выжили (еще не пережили событие или не подверглись цензуре) к моменту времени .

Базовые концепты

График оценщика Каплана-Мейера представляет собой серию нисходящих горизонтальных шагов, которые при достаточно большом размере выборки приближаются к истинной функции выживания для этой популяции. Значение функции выживания между последовательными отдельными выборочными наблюдениями («щелчками») предполагается постоянным.

Важным преимуществом кривой Каплана-Мейера является то, что метод может учитывать некоторые типы цензурированных данных , в частности правоцензурирование , которое происходит, если пациент выходит из исследования, теряется для последующего наблюдения или жив без каких-либо событий. возникновение при последнем наблюдении. На графике маленькими вертикальными делениями отмечены отдельные пациенты, время выживания которых было цензурировано справа. Когда не происходит усечения или цензурирования, кривая Каплана-Мейера является дополнением эмпирической функции распределения .

В медицинской статистике типичное приложение может включать группировку пациентов по категориям, например, пациентов с профилем гена А и пациентов с профилем гена B. На графике пациенты с геном B умирают гораздо быстрее, чем пациенты с геном A. Через два года выживают около 80% пациентов с геном A, но менее половины пациентов с геном B.

Чтобы создать оценщик Каплана-Мейера, для каждого пациента (или каждого субъекта) требуются как минимум две части данных: статус при последнем наблюдении (проявление события или цензура справа) и время до события (или время до цензурирования). . Если необходимо сравнить функции выживания между двумя или более группами, то требуется третья часть данных: групповое назначение каждого субъекта. [7]

Определение проблемы

Пусть будет случайной величиной, под которой мы понимаем время, прошедшее между началом возможного периода воздействия , и временем, когда происходит интересующее событие . Как указано выше, цель состоит в том, чтобы оценить функцию выживания, лежащую в основе . Напомним, что эта функция определяется как

, где время.

Пусть — независимые, одинаково распределенные случайные величины, общее распределение которых таково : — случайное время, когда произошло какое-то событие. Доступными для оценки данными являются не , а список пар, где для , является фиксированным детерминированным целым числом, временем цензурирования события и . В частности, доступна информация о времени события : произошло ли событие до установленного времени , и если да, то также доступно фактическое время события. Задача состоит в том, чтобы оценить, учитывая эти данные.

Вывод оценки Каплана – Мейера.

Здесь мы показываем два вывода оценки Каплана – Мейера. Оба основаны на переписывании функции выживания с точки зрения того, что иногда называют риском или уровнем смертности . Однако прежде чем сделать это, стоит рассмотреть наивную оценку.

Наивный оценщик

Чтобы понять возможности оценки Каплана – Мейера, стоит сначала описать наивную оценку функции выживания.

Исправь и дай . Основной аргумент показывает, что справедливо следующее предложение:

Предложение 1: Если время цензурирования события превышает ( ), то тогда и только тогда, когда .

Пусть будет так, что . Из приведенного выше предложения следует, что

Пусть и рассматриваются только те , т.е. события, исход которых не был подвергнут цензуре раньше времени . Пусть будет количество элементов в . Обратите внимание, что набор не является случайным, а значит, и . Кроме того, представляет собой последовательность независимых, одинаково распределенных случайных величин Бернулли с общим параметром . Полагая , что это предполагает оценку с помощью

где следует второе равенство, поскольку подразумевает , а последнее равенство — это просто изменение обозначения.

Качество этой оценки определяется размером . Это может быть проблематично, когда оно небольшое, что происходит по определению, когда многие события подвергаются цензуре. Особенно неприятное свойство этой оценки, которое позволяет предположить, что она, возможно, не «лучшая» оценка, состоит в том, что она игнорирует все наблюдения, время цензурирования которых предшествует . Интуитивно эти наблюдения все еще содержат информацию о : Например, когда для многих событий с также выполняется , мы можем сделать вывод, что события часто происходят раньше, что подразумевает, что они большие, что, следовательно , должно быть маленьким. Однако эта информация игнорируется этим наивным оценщиком. Тогда возникает вопрос, существует ли оценщик, который лучше использует все данные. Это то, что выполняет оценщик Каплана – Мейера. Обратите внимание, что наивную оценку невозможно улучшить, если не проводится цензура; поэтому возможность улучшения во многом зависит от наличия цензуры.

Плагиновый подход

По элементарным расчетам,

где использовано предпоследнее равенство, имеющее целочисленное значение, и для последней строки мы ввели

Рекурсивным разложением равенства получаем

Обратите внимание, что здесь .

Оценщик Каплана-Мейера можно рассматривать как «подключаемый модуль оценки», где каждая оценка оценивается на основе данных, а оценка получается как произведение этих оценок.

Осталось уточнить, как именно рассчитывать. По предложению 1 для любого такого , что и оба имеют место. Следовательно, для любого такого, что ,

По аналогичным рассуждениям, которые привели к построению наивной оценки выше, мы приходим к оценке

(подумайте об оценке числителя и знаменателя отдельно в определении «уровня риска» ). Тогда оценка Каплана – Мейера определяется выражением

Форма оценки, изложенная в начале статьи, может быть получена с помощью дополнительной алгебры. Для этого напишите где, используя терминологию актуарной науки, — количество известных смертей в данный момент , а — число тех лиц, которые живы (и не подвергаются цензуре) в данный момент .

Обратите внимание, что если , . Это означает, что мы можем исключить из определения продукта все те термины, где . Тогда, учитывая времена, когда , и , мы приходим к виду оценки Каплана–Мейера, приведенному в начале статьи:

В отличие от наивной оценки, эта оценка, как видно, использует доступную информацию более эффективно: в специальном случае, упомянутом ранее, когда записано много ранних событий, оценка умножит множество членов со значением ниже единицы и, таким образом, примет Примите во внимание, что вероятность выживания не может быть большой.

Вывод как оценка максимального правдоподобия

Оценщик Каплана-Мейера может быть получен из оценки максимального правдоподобия дискретной функции риска . [8] [ собственный источник? ] Более конкретно , учитывая количество событий и общее количество людей , подвергающихся риску в данный момент  , уровень дискретной опасности можно определить как вероятность того , что индивидуум столкнется с событием в данный момент  . Тогда выживаемость можно определить как:

а функция правдоподобия для функции опасности с точностью до времени равна:

поэтому вероятность журнала будет:

нахождение максимального логарифмического правдоподобия относительно доходности:

где шляпа используется для обозначения оценки максимального правдоподобия. Учитывая этот результат, мы можем написать:

В более общем смысле (как для непрерывных, так и для дискретных распределений выживаемости) оценку Каплана-Мейера можно интерпретировать как непараметрическую оценку максимального правдоподобия. [9]

Преимущества и ограничения

Оценка Каплана-Мейера является одним из наиболее часто используемых методов анализа выживаемости. Оценка может быть полезна для изучения показателей выздоровления, вероятности смерти и эффективности лечения. Его способность оценивать выживаемость с поправкой на ковариаты ограничена ; параметрические модели выживания и модель пропорциональных рисков Кокса могут быть полезны для оценки выживаемости с поправкой на ковариаты.

Оценка Каплана-Мейера напрямую связана с оценкой Нельсона-Аалена , и обе они максимизируют эмпирическую вероятность . [10]

Статистические соображения

Оценка Каплана-Мейера представляет собой статистику , и для аппроксимации ее дисперсии используются несколько оценок . Одной из наиболее распространенных оценок является формула Гринвуда: [11]

где – количество случаев, а – общее количество наблюдений, для .

Чтобы получить «набросок» математического вывода приведенного выше уравнения, нажмите «показать», чтобы увидеть

Выведена формула Гринвуда [12] [ самостоятельный источник? ] отметив, что вероятность возникновения сбоев в случаях подчиняется биномиальному распределению с вероятностью сбоя . В результате для максимального правдоподобия степени риска мы имеем и . Чтобы избежать работы с мультипликативными вероятностями, мы вычисляем дисперсию логарифма и будем использовать метод дельта , чтобы преобразовать ее обратно в исходную дисперсию:

используя центральную предельную теорему мартингала , можно показать, что дисперсия суммы в следующем уравнении равна сумме дисперсий: [12]

в результате мы можем написать:

используя метод дельты еще раз:

по желанию.


В некоторых случаях может возникнуть желание сравнить разные кривые Каплана–Мейера. Это можно сделать с помощью логарифмического теста и теста пропорциональных рисков Кокса .

Другими статистическими данными, которые могут быть полезны для этой оценки, являются точечные доверительные интервалы, [13] полоса Холла-Веллнера [14] и полоса равной точности. [15]

Программное обеспечение

Смотрите также

Рекомендации

  1. ^ Каплан, Эл.; Мейер, П. (1958). «Непараметрическая оценка по неполным наблюдениям». Дж. Амер. Статист. доц. 53 (282): 457–481. дои : 10.2307/2281868. JSTOR  2281868.
  2. ^ Каплан, Э.Л., в ретроспективе основополагающей статьи в «Классике цитирования на этой неделе». Текущее содержание 24 , 14 (1983). Доступно в UPenn в формате PDF.
  3. ^ Мейер, Брюс Д. (1990). «Страхование по безработице и периоды безработицы» (PDF) . Эконометрика . 58 (4): 757–782. дои : 10.2307/2938349. JSTOR  2938349. S2CID  154632727.
  4. ^ Сталперс, Лукас Дж.А.; Каплан, Эдвард Л. (4 мая 2018 г.). «Эдвард Л. Каплан и кривая выживания Каплана-Мейера». Бюллетень BSHM: Журнал Британского общества истории математики . 33 (2): 109–135. дои : 10.1080/17498430.2018.1450055 . S2CID  125941631.
  5. ^ Каплан, Эл.; Мейер, Пол (1958). «Непараметрическая оценка на основе неполных наблюдений». Журнал Американской статистической ассоциации . 53 (282): 457–481. дои : 10.1080/01621459.1958.10501452 . Проверено 27 февраля 2023 г.
  6. ^ «Пол Мейер, 1924–2011». Чикаго Трибьюн . 18 августа 2011 г.
  7. ^ Рич, Джейсон Т.; Нили, Дж. Гейл; Паниелло, Рэндал С.; Фолкер, Кортни Си Джей; Нуссенбаум, Брайан; Ван, Эрик В. (сентябрь 2010 г.). «Практическое руководство по пониманию кривых Каплана-Мейера». Отоларингология – хирургия головы и шеи . 143 (3): 331–336. doi :10.1016/j.otohns.2010.05.007. ПМЦ 3932959 . ПМИД  20723767. 
  8. ^ «STAT331 Блок 3» (PDF) . Проверено 12 мая 2023 г.
  9. ^ Андерсен, Пер Краг; Борган, Орнульф; Гилл, Ричард Д.; Кейдинг, Нильс (1993). Статистические модели, основанные на процессах подсчета . Нью-Йорк: Springer-Verlag. ISBN 0-387-97872-0.
  10. ^ Чжоу, М. (2015). Эмпирический метод правдоподобия в анализе выживания (1-е изд.). Чепмен и Холл/CRC. https://doi.org/10.1201/b18598, https://books.google.com/books?id=9-b5CQAAQBAJ&dq=Does+the+Nelson%E2%80%93Aalen+estimator+construct+an+empiric+ вероятность%3F&pg=PA7
  11. ^ Гринвуд, майор (1926). Отчет о естественной продолжительности рака . Выпуск 33 Отчетов по общественному здравоохранению и медицинской тематике. ХМСО . ОСЛК  14713088.
  12. ^ ab «Гринвуд и экспоненциальные доверительные интервалы Гринвуда в анализе выживания» (PDF) . Проверено 12 мая 2023 г.
  13. ^ Фэй, Майкл П.; Бриттен, Эрика Х.; Прощан, Майкл А. (1 сентября 2013 г.). «Поточечные доверительные интервалы для распределения выживаемости с небольшими выборками или жесткой цензурой». Биостатистика . 14 (4): 723–736. doi : 10.1093/biostatistics/kxt016. ПМЦ 3769999 . ПМИД  23632624. 
  14. ^ Холл, WJ; Веллнер, Джон А. (1980). «Доверительные интервалы для кривой выживания на основе подвергнутых цензуре данных». Биометрика . 67 (1): 133–143. дои : 10.1093/biomet/67.1.133.
  15. ^ Наир, Виджаян Н. (август 1984 г.). «Доверительные интервалы для функций выживания с цензурированными данными: сравнительное исследование». Технометрика . 26 (3): 265–275. дои : 10.1080/00401706.1984.10487964.
  16. ^ «Анализ выживания - Mathematica SurvivalModelFit» . www.wolfram.com . Проверено 14 августа 2017 г.
  17. ^ «Руководство пользователя SAS/STAT(R) 14.1» . support.sas.com . Проверено 12 мая 2023 г.
  18. Терно, Терри М. (9 августа 2022 г.). «Выживание: Анализ выживания». Комплексная сеть архивов R. Проверено 30 ноября 2022 г.
  19. ^ Виллекенс, Франс (2014). «Статистические пакеты для анализа истории жизни с несколькими состояниями». Анализ жизненных историй с несколькими состояниями с помощью R . Пользователь!. Спрингер. стр. 135–153. дои : 10.1007/978-3-319-08383-4_6. ISBN 978-3-319-08383-4.
  20. ^ Чен, Дин-Гэн; Мир, Карл Э. (2014). Анализ данных клинических испытаний с использованием R. CRC Press. стр. 99–108. ISBN 9781439840214.
  21. ^ «sts — Создайте, нарисуйте график, составьте список и протестируйте функции выживания и совокупной опасности» (PDF) . Руководство по Стате .
  22. ^ Клевес, Марио (2008). Введение в анализ выживания с использованием Stata (второе изд.). Колледж-Стейшн: Stata Press. стр. 93–107. ISBN 978-1-59718-041-2.
  23. ^ «Линии жизни — документация по линиям жизни 0.27.7» . lifelines.readthedocs.io . Проверено 12 мая 2023 г.
  24. ^ "sksurv.nonparametric.kaplan_meier_estimator — scikit-survival 0.20.0" . scikit-survival.readthedocs.io . Проверено 12 мая 2023 г.
  25. ^ «Эмпирическая кумулятивная функция распределения - MATLAB ecdf» . mathworks.com . Проверено 16 июня 2016 г.
  26. ^ "Оценки выживания Каплана-Мейера" . statsdirect.co.uk . Проверено 12 мая 2023 г.
  27. ^ «Метод Каплана-Мейера в статистике SPSS | Статистика Лаэрда» .
  28. ^ "Каплан-Мейер · Survival.jl" .
  29. ^ «Руководство пользователя Epi Info™ — Справочник команд — Команды анализа: KMSURVIVAL» . Проверено 30 октября 2023 г.

дальнейшее чтение

Внешние ссылки