Состояние, при котором значение измерения или наблюдения известно лишь частично
В статистике цензурирование — это состояние, при котором значение измерения или наблюдения известно лишь частично.
Например, предположим, что проводится исследование для измерения влияния препарата на уровень смертности . В таком исследовании может быть известно, что возраст человека на момент смерти составляет не менее 75 лет (но может быть и больше). Такая ситуация может возникнуть, если человек выбыл из исследования в возрасте 75 лет или если человек в настоящее время жив в возрасте 75 лет.
Цензурирование также происходит, когда значение выходит за пределы диапазона измерительного прибора . Например, напольные весы могут измерять только до 140 кг. Если человек весом 160 кг взвешивается с помощью весов, наблюдатель будет знать только, что вес человека составляет не менее 140 кг.
Проблема цензурированных данных, в которых наблюдаемое значение некоторой переменной известно частично, связана с проблемой пропущенных данных , когда наблюдаемое значение некоторой переменной неизвестно.
Цензурирование не следует путать с родственной идеей усечения . При цензурировании результаты наблюдений либо дают знание точного значения, которое применяется, либо знание того, что значение лежит в интервале . При усечении результаты наблюдений никогда не приводят к значениям, выходящим за пределы заданного диапазона: значения в генеральной совокупности за пределами диапазона никогда не наблюдаются или никогда не регистрируются, если они наблюдаются. Обратите внимание, что в статистике усечение — это не то же самое, что округление .
Типы
Левое цензурирование — точка данных ниже определенного значения, но неизвестно, насколько.
Интервальное цензурирование — точка данных находится где-то в интервале между двумя значениями.
Правое цензурирование — точка данных превышает определенное значение, но неизвестно, насколько.
Цензурирование типа I происходит, если в эксперименте участвует определенное количество субъектов или предметов, и эксперимент останавливается в заранее определенное время, после чего все оставшиеся субъекты подвергаются цензурированию справа.
Цензурирование типа II происходит, если в эксперименте задействовано определенное количество субъектов или элементов, и эксперимент останавливается, когда обнаруживается, что определенное количество субъектов не прошли испытание; оставшиеся субъекты затем подвергаются правой цензуре.
Случайное (или неинформативное ) цензурирование — это когда у каждого субъекта есть время цензурирования, которое статистически независимо от времени его неудачи. Наблюдаемое значение — это минимум времени цензурирования и неудачи; субъекты, время неудачи которых больше времени цензурирования, подвергаются правой цензуре.
Интервальное цензурирование может иметь место, когда наблюдение значения требует последующих действий или проверок. Левое и правое цензурирование являются особыми случаями интервального цензурирования, с началом интервала на нуле или концом на бесконечности соответственно.
Методы оценки для использования данных с левой цензурой различаются, и не все методы оценки могут быть применимы или наиболее надежны для всех наборов данных. [1]
Распространенное заблуждение относительно данных временных интервалов — классифицировать как левоцензурированные интервалы, где время начала неизвестно. В этих случаях у нас есть нижняя граница временного интервала , поэтому данные являются правоцензурированными (несмотря на то, что отсутствующая начальная точка находится слева от известного интервала, если рассматривать их как временную шкалу!).
Анализ
Для обработки цензурированных данных могут использоваться специальные методы. Тесты с определенным временем отказа кодируются как фактические отказы; цензурированные данные кодируются для типа цензурирования и известного интервала или предела. Специальные программы (часто ориентированные на надежность ) могут проводить оценку максимального правдоподобия для сводных статистик, доверительных интервалов и т. д.
Эпидемиология
Одной из самых ранних попыток анализа статистической проблемы, связанной с цензурированными данными, был анализ Даниэля Бернулли 1766 года данных о заболеваемости и смертности от оспы , чтобы продемонстрировать эффективность вакцинации . [2] Ранняя статья об использовании оценщика Каплана-Майера для оценки цензурированных затрат была написана Квезенберри и др. (1989), [3] однако Лин и др. сочли этот подход недействительным [4] если только все пациенты не накапливали затраты с общей детерминированной функцией скорости с течением времени, они предложили альтернативный метод оценки, известный как оценщик Лина. [5]
Испытание срока службы
Тестирование надежности часто заключается в проведении испытания элемента (в определенных условиях) для определения времени, необходимого для возникновения отказа.
Иногда отказ запланирован и ожидается, но не происходит: ошибка оператора, неисправность оборудования, аномалия теста и т. д. Результат теста не был желаемым временем до отказа, но может (и должен) использоваться как время до прекращения. Использование цензурированных данных непреднамеренно, но необходимо.
Иногда инженеры планируют программу испытаний таким образом, что после определенного срока или количества неудач все остальные испытания будут прекращены. Эти приостановленные времена рассматриваются как данные с цензурой справа. Использование цензурированных данных является преднамеренным.
Анализ данных повторных испытаний включает как время до отказа для элементов, которые не прошли испытания, так и время прекращения испытаний для тех, которые не прошли испытания.
Правдоподобие — это вероятность или плотность вероятности того, что наблюдалось, рассматриваемая как функция параметров в предполагаемой модели. Чтобы включить цензурированные точки данных в правдоподобие, цензурированные точки данных представляются вероятностью цензурированных точек данных как функции параметров модели, заданной моделью, т. е. функцией CDF(s) вместо плотности или массы вероятности.
Наиболее общим случаем цензурирования является интервальное цензурирование: , где — функция распределения вероятностей, а двумя особыми случаями являются:
оставил цензуру:
правая цензура:
Для непрерывных распределений вероятностей:
Пример
Предположим, что нас интересуют времена выживания, , но мы не наблюдаем за всеми . Вместо этого мы наблюдаем
, с и если на самом деле наблюдается, и
, с и если все, что мы знаем, это то, что длиннее, чем .
Когда это называется временем цензурирования . [7]
Если времена цензурирования являются известными константами, то вероятность составляет
где = функция плотности вероятности, оцененная при ,
^ Хельсель, Д. (2010). «Много шума из ничего: включение необнаруживаемых вещей в науку». Анналы гигиены труда . 54 (3): 257–262. doi : 10.1093/annhyg/mep092 . PMID 20032004.
^ Бернулли, Д. (1766). «Эссе нового анализа смертности, вызванной маленькой веролью». Память Математика. Фи. акад. Рой. наук. Париж ,перепечатано в Брэдли (1971) 21 и Блоуэр (2004)
^ Quesenberry, CP Jr.; et al. (1989). «Анализ выживаемости при госпитализации среди пациентов с синдромом приобретенного иммунодефицита». American Journal of Public Health . 79 (12): 1643–1647. doi :10.2105/AJPH.79.12.1643. PMC 1349769. PMID 2817192 .
^ Лин, Д.Й. и др. (1997). «Оценка медицинских расходов на основе неполных данных последующего наблюдения». Биометрия . 53 (2): 419–434. doi :10.2307/2533947. JSTOR 2533947. PMID 9192444.
^ Виджейсундера, ХК; и др. (2012). «Методы оценки расходов на здравоохранение с цензурированными данными: обзор для исследователя служб здравоохранения». ClinicoEconomics and Outcomes Research . 4 : 145–155. doi : 10.2147/CEOR.S31552 . PMC 3377439. PMID 22719214 .
^ Тобин, Джеймс (1958). «Оценка связей для ограниченных зависимых переменных» (PDF) . Econometrica . 26 (1): 24–36. doi :10.2307/1907382. JSTOR 1907382.
Блоуэр, С. (2004), Д., «Попытка нового анализа смертности от оспы и преимуществ прививки для ее предотвращения» (PDF) Бернулли . Архивировано из оригинала (PDF) 2017-08-08 . Получено 2019-06-25 .(146 KiB ) ", Обзоры медицинской вирусологии , 14 : 275–288
Брэдли, Л. (1971). Прививка от оспы: математический спор восемнадцатого века . Ноттингем. ISBN 0-902031-23-6.{{cite book}}: CS1 maint: location missing publisher (link)
Манн, Н. Р. и др. (1975). Методы статистического анализа надежности и данных о сроках службы . Нью-Йорк: Wiley. ISBN 047156737X.
Багдонавичус, В., Круопис, Дж., Никулин, М.С. (2011), «Непараметрические тесты для цензурированных данных», Лондон, ISTE/WILEY, ISBN 9781848212893 .
Внешние ссылки
«Справочник по инженерной статистике», NIST/SEMATEK, [1]