stringtranslate.com

Цензурирование (статистика)

В статистике цензурирование — это состояние, при котором значение измерения или наблюдения известно лишь частично.

Например, предположим, что проводится исследование для измерения влияния препарата на уровень смертности . В таком исследовании может быть известно, что возраст человека на момент смерти составляет не менее 75 лет (но может быть и больше). Такая ситуация может возникнуть, если человек выбыл из исследования в возрасте 75 лет или если человек в настоящее время жив в возрасте 75 лет.

Цензурирование также происходит, когда значение выходит за пределы диапазона измерительного прибора . Например, напольные весы могут измерять только до 140 кг. Если человек весом 160 кг взвешивается с помощью весов, наблюдатель будет знать только, что вес человека составляет не менее 140 кг.

Проблема цензурированных данных, в которых наблюдаемое значение некоторой переменной известно частично, связана с проблемой пропущенных данных , когда наблюдаемое значение некоторой переменной неизвестно.

Цензурирование не следует путать с родственной идеей усечения . При цензурировании результаты наблюдений либо дают знание точного значения, которое применяется, либо знание того, что значение лежит в интервале . При усечении результаты наблюдений никогда не приводят к значениям, выходящим за пределы заданного диапазона: значения в генеральной совокупности за пределами диапазона никогда не наблюдаются или никогда не регистрируются, если они наблюдаются. Обратите внимание, что в статистике усечение — это не то же самое, что округление .

Типы

Интервальное цензурирование может иметь место, когда наблюдение значения требует последующих действий или проверок. Левое и правое цензурирование являются особыми случаями интервального цензурирования, с началом интервала на нуле или концом на бесконечности соответственно.

Методы оценки для использования данных с левой цензурой различаются, и не все методы оценки могут быть применимы или наиболее надежны для всех наборов данных. [1]

Распространенное заблуждение относительно данных временных интервалов — классифицировать как левоцензурированные интервалы, где время начала неизвестно. В этих случаях у нас есть нижняя граница временного интервала , поэтому данные являются правоцензурированными (несмотря на то, что отсутствующая начальная точка находится слева от известного интервала, если рассматривать их как временную шкалу!).

Анализ

Для обработки цензурированных данных могут использоваться специальные методы. Тесты с определенным временем отказа кодируются как фактические отказы; цензурированные данные кодируются для типа цензурирования и известного интервала или предела. Специальные программы (часто ориентированные на надежность ) могут проводить оценку максимального правдоподобия для сводных статистик, доверительных интервалов и т. д.

Эпидемиология

Одной из самых ранних попыток анализа статистической проблемы, связанной с цензурированными данными, был анализ Даниэля Бернулли 1766 года данных о заболеваемости и смертности от оспы , чтобы продемонстрировать эффективность вакцинации . [2] Ранняя статья об использовании оценщика Каплана-Майера для оценки цензурированных затрат была написана Квезенберри и др. (1989), [3] однако Лин и др. сочли этот подход недействительным [4] если только все пациенты не накапливали затраты с общей детерминированной функцией скорости с течением времени, они предложили альтернативный метод оценки, известный как оценщик Лина. [5]

Испытание срока службы

Пример пяти повторных тестов, приведших к четырем неудачам и одной приостановке, повлекшей за собой цензурирование.

Тестирование надежности часто заключается в проведении испытания элемента (в определенных условиях) для определения времени, необходимого для возникновения отказа.

Анализ данных повторных испытаний включает как время до отказа для элементов, которые не прошли испытания, так и время прекращения испытаний для тех, которые не прошли испытания.

Цензурированная регрессия

Более ранняя модель цензурированной регрессии , модель Тобита , была предложена Джеймсом Тобином в 1958 году. [6]

Вероятность

Правдоподобие — это вероятность или плотность вероятности того, что наблюдалось, рассматриваемая как функция параметров в предполагаемой модели. Чтобы включить цензурированные точки данных в правдоподобие, цензурированные точки данных представляются вероятностью цензурированных точек данных как функции параметров модели, заданной моделью, т. е. функцией CDF(s) вместо плотности или массы вероятности.

Наиболее общим случаем цензурирования является интервальное цензурирование: , где — функция распределения вероятностей, а двумя особыми случаями являются:

Для непрерывных распределений вероятностей:

Пример

Предположим, что нас интересуют времена выживания, , но мы не наблюдаем за всеми . Вместо этого мы наблюдаем

, с и если на самом деле наблюдается, и
, с и если все, что мы знаем, это то, что длиннее, чем .

Когда это называется временем цензурирования . [7]

Если времена цензурирования являются известными константами, то вероятность составляет

где = функция плотности вероятности, оцененная при ,

и = вероятность того, что больше , называемая функцией выживания .

Это можно упростить, определив функцию опасности , мгновенную силу смертности, как

так

.

Затем

.

Для экспоненциального распределения это становится еще проще, поскольку уровень опасности, , постоянен, и . Тогда:

,

где .

Отсюда мы легко вычисляем оценку максимального правдоподобия (ОМП) следующим образом:

.

Затем

.

Приравниваем это к 0 и решаем, чтобы получить:

.

Эквивалентно, среднее время до отказа составляет:

.

Это отличается от стандартного MLE для экспоненциального распределения тем, что любые цензурированные наблюдения учитываются только в числителе.

Смотрите также

Ссылки

  1. ^ Хельсель, Д. (2010). «Много шума из ничего: включение необнаруживаемых вещей в науку». Анналы гигиены труда . 54 (3): 257–262. doi : 10.1093/annhyg/mep092 . PMID  20032004.
  2. ^ Бернулли, Д. (1766). «Эссе нового анализа смертности, вызванной маленькой веролью». Память Математика. Фи. акад. Рой. наук. Париж ,перепечатано в Брэдли (1971) 21 и Блоуэр (2004)
  3. ^ Quesenberry, CP Jr.; et al. (1989). «Анализ выживаемости при госпитализации среди пациентов с синдромом приобретенного иммунодефицита». American Journal of Public Health . 79 (12): 1643–1647. doi :10.2105/AJPH.79.12.1643. PMC 1349769. PMID  2817192 . 
  4. ^ Лин, Д.Й. и др. (1997). «Оценка медицинских расходов на основе неполных данных последующего наблюдения». Биометрия . 53 (2): 419–434. doi :10.2307/2533947. JSTOR  2533947. PMID  9192444.
  5. ^ Виджейсундера, ХК; и др. (2012). «Методы оценки расходов на здравоохранение с цензурированными данными: обзор для исследователя служб здравоохранения». ClinicoEconomics and Outcomes Research . 4 : 145–155. doi : 10.2147/CEOR.S31552 . PMC 3377439. PMID  22719214 . 
  6. ^ Тобин, Джеймс (1958). «Оценка связей для ограниченных зависимых переменных» (PDF) . Econometrica . 26 (1): 24–36. doi :10.2307/1907382. JSTOR  1907382.
  7. ^ Лу Тянь, Построение правдоподобия, вывод для параметрических распределений выживаемости (PDF) , Wikidata  Q98961801.

Дальнейшее чтение

Внешние ссылки