stringtranslate.com

Цензура (статистика)

В статистике цензура — это состояние, при котором ценность измерения или наблюдения известна лишь частично.

Например, предположим, что проводится исследование для измерения влияния препарата на уровень смертности . В таком исследовании может быть известно, что возраст человека на момент смерти составляет не менее 75 лет (но может быть и больше). Такая ситуация может возникнуть, если человек вышел из исследования в возрасте 75 лет или если человек в настоящее время жив в возрасте 75 лет.

Цензурирование также происходит, когда значение выходит за пределы диапазона измерительного прибора . Например, напольные весы могут весить не более 140 кг. Если на весах взвесить человека массой 160 кг, наблюдатель будет знать только, что вес человека составляет не менее 140 кг.

Проблема цензурированных данных, в которых наблюдаемое значение некоторой переменной частично известно, связана с проблемой отсутствия данных , когда наблюдаемое значение некоторой переменной неизвестно.

Цензуру не следует путать с сокращением соответствующей идеи . При цензурировании наблюдения приводят либо к знанию точного применимого значения, либо к знанию того, что это значение находится в пределах интервала . При усечении наблюдения никогда не приводят к значениям, выходящим за пределы заданного диапазона: значения в совокупности за пределами этого диапазона никогда не наблюдаются и никогда не регистрируются, если они наблюдаются. Обратите внимание, что в статистике усечение — это не то же самое, что округление .

Типы

Интервальная цензура может применяться, когда наблюдение за значением требует последующих действий или проверок. Левая и правая цензура — это особые случаи интервальной цензуры, где начало интервала равно нулю, а конец — бесконечности соответственно.

Методы оценки для использования данных с левой цензурой различаются, и не все методы оценки могут быть применимы или наиболее надежны для всех наборов данных. [1]

Распространенное заблуждение в отношении данных временных интервалов состоит в том, что их классифицируют как интервалы с цензурой слева , время начала которых неизвестно. В этих случаях у нас есть нижняя граница временного интервала , поэтому данные подвергаются цензуре справа (несмотря на то, что отсутствующая начальная точка находится слева от известного интервала, если рассматривать их как временную шкалу!).

Анализ

Для обработки подвергнутых цензуре данных могут использоваться специальные методы. Тесты с определенным временем сбоя кодируются как фактические сбои; цензурированные данные кодируются в соответствии с типом цензуры и известным интервалом или пределом. Специальные программы (часто ориентированные на надежность ) могут выполнять оценку максимального правдоподобия для сводной статистики, доверительных интервалов и т. д.

Эпидемиология

Одной из первых попыток проанализировать статистическую проблему, включающую цензурированные данные, был анализ Даниэлем Бернулли в 1766 году данных о заболеваемости и смертности от оспы , чтобы продемонстрировать эффективность вакцинации . [2] Первой статьей, в которой использовалась оценка Каплана-Мейера для оценки цензурированных затрат, была Quesenberry et al. (1989), [3] , однако Lin et al. признали этот подход недействительным. [4] если все пациенты не накапливали затраты с общей детерминированной функцией скорости с течением времени, они предложили альтернативный метод оценки, известный как оценщик Лина. [5]

Испытание срока службы

Пример пяти повторных тестов, которые привели к четырем сбоям и одному приостановке, что привело к цензуре.

Тестирование надежности часто состоит из проведения испытаний объекта (при определенных условиях) для определения времени, необходимого для возникновения отказа.

Анализ данных повторных тестов включает в себя как время до сбоя для элементов, которые не сработали, так и время завершения тестирования для тех элементов, которые не дали сбоя.

Цензурированная регрессия

Более ранняя модель цензурированной регрессии , модель тобита , была предложена Джеймсом Тобином в 1958 году . [6]

Вероятность

Вероятность — это вероятность или плотность вероятности того, что наблюдалось, рассматриваемая как функция параметров предполагаемой модели. Чтобы включить цензурированные точки данных в вероятность, цензурированные точки данных представлены вероятностью подвергнутых цензуре точек данных как функции параметров модели, заданной моделью, т.е. функцией CDF(ов) вместо плотности или массы вероятности.

Наиболее общим случаем цензурирования является интервальная цензура: , где CDF распределения вероятностей, а также два особых случая:

Для непрерывных распределений вероятностей:

Пример

Предположим, нас интересует время выживания, но мы не наблюдаем для всех . Вместо этого мы наблюдаем

, с и если действительно наблюдается, и
, и если все, что мы знаем, это то, что это длиннее, чем .

Когда называется цензурным временем . [7]

Если время цензурирования является всем известными константами, то вероятность равна

где = функция плотности вероятности, оцененная при ,

и = вероятность, превышающая , называется функцией выживания .

Это можно упростить, определив функцию риска , мгновенную силу смертности, как

так

.

Затем

.

Для экспоненциального распределения это становится еще проще, поскольку уровень риска постоянен и . Затем:

,

где .

Отсюда мы легко вычислим оценку максимального правдоподобия (MLE) следующим образом:

.

Затем

.

Мы устанавливаем это значение на 0 и решаем для, чтобы получить:

.

Аналогично, среднее время до отказа равно:

.

Это отличается от стандартного MLE для экспоненциального распределения тем, что любые цензурированные наблюдения учитываются только в числителе.

Смотрите также

Рекомендации

  1. ^ Хелсель, Д. (2010). «Много шума из почти ничего: включение необнаруженных данных в науку». Анналы гигиены труда . 54 (3): 257–262. дои : 10.1093/annhyg/mep092 . ПМИД  20032004.
  2. ^ Бернулли, Д. (1766). «Эссе нового анализа смертности, вызванной маленькой веролью». Память Математика. Фи. акад. Рой. наук. Париж ,переиздано в Брэдли (1971) 21 и Блоуэре (2004).
  3. ^ Кезенберри, CP младший; и другие. (1989). «Анализ выживаемости госпитализаций пациентов с синдромом приобретенного иммунодефицита». Американский журнал общественного здравоохранения . 79 (12): 1643–1647. дои : 10.2105/AJPH.79.12.1643. ПМЦ 1349769 . ПМИД  2817192. 
  4. ^ Лин, ДЮ; и другие. (1997). «Оценка медицинских затрат на основе неполных данных последующего наблюдения». Биометрия . 53 (2): 419–434. дои : 10.2307/2533947. JSTOR  2533947. PMID  9192444.
  5. ^ Виджейсундера, ХК; и другие. (2012). «Методы оценки затрат на здравоохранение с использованием цензурированных данных: обзор для исследователя здравоохранения». Клинико-экономические исследования и результаты исследований . 4 : 145–155. дои : 10.2147/CEOR.S31552 . ПМЦ 3377439 . ПМИД  22719214. 
  6. ^ Тобин, Джеймс (1958). «Оценка взаимосвязей для ограниченных зависимых переменных» (PDF) . Эконометрика . 26 (1): 24–36. дои : 10.2307/1907382. JSTOR  1907382.
  7. ^ Лу Тиан, Построение правдоподобия, Вывод для параметрических распределений выживания (PDF) , Викиданные  Q98961801.

дальнейшее чтение

Внешние ссылки