Цензура (статистика)

В статистике цензура — это состояние, при котором ценность измерения или наблюдения известна лишь частично.

Например, предположим, что проводится исследование для измерения влияния препарата на уровень смертности . В таком исследовании может быть известно, что возраст человека на момент смерти составляет не менее 75 лет (но может быть и больше). Такая ситуация может возникнуть, если человек вышел из исследования в возрасте 75 лет или если человек в настоящее время жив в возрасте 75 лет.

Цензурирование также происходит, когда значение выходит за пределы диапазона измерительного прибора . Например, напольные весы могут весить не более 140 кг. Если на весах взвесить человека массой 160 кг, наблюдатель будет знать только, что вес человека составляет не менее 140 кг.

Проблема цензурированных данных, в которых наблюдаемое значение некоторой переменной частично известно, связана с проблемой отсутствия данных , когда наблюдаемое значение некоторой переменной неизвестно.

Цензуру не следует путать с сокращением соответствующей идеи . При цензурировании наблюдения приводят либо к знанию точного применимого значения, либо к знанию того, что это значение находится в пределах интервала . При усечении наблюдения никогда не приводят к значениям, выходящим за пределы заданного диапазона: значения в совокупности за пределами этого диапазона никогда не наблюдаются и никогда не регистрируются, если они наблюдаются. Обратите внимание, что в статистике усечение — это не то же самое, что округление .

Типы

Левая цензура – точка данных ниже определенного значения, но неизвестно, насколько.
Интервальная цензура – точка данных находится где-то в интервале между двумя значениями.
Правая цензура – точка данных превышает определенное значение, но неизвестно, насколько.
Цензура типа I происходит, если в эксперименте используется определенное количество субъектов или предметов, и эксперимент останавливается в заранее определенное время, после чего все оставшиеся субъекты подвергаются цензуре справа.
Цензура типа II происходит, если в эксперименте участвует определенное количество субъектов или предметов, и эксперимент останавливается, когда заранее определенное количество оказывается неудачным; остальные предметы затем подвергаются правой цензуре.
Случайная (или неинформативная ) цензура — это когда у каждого субъекта есть время цензурирования, которое статистически не зависит от времени его неудачи. Наблюдаемое значение представляет собой минимум времени цензурирования и сбоя; субъекты, время неудачи которых превышает время цензуры, подвергаются цензуре справа.

Интервальная цензура может применяться, когда наблюдение за значением требует последующих действий или проверок. Левая и правая цензура — это особые случаи интервальной цензуры, где начало интервала равно нулю, а конец — бесконечности соответственно.

Методы оценки для использования данных с левой цензурой различаются, и не все методы оценки могут быть применимы или наиболее надежны для всех наборов данных. ^[1]

Распространенное заблуждение в отношении данных временных интервалов состоит в том, что их классифицируют как интервалы с цензурой слева , время начала которых неизвестно. В этих случаях у нас есть нижняя граница временного интервала , поэтому данные подвергаются цензуре справа (несмотря на то, что отсутствующая начальная точка находится слева от известного интервала, если рассматривать их как временную шкалу!).

Анализ

Для обработки подвергнутых цензуре данных могут использоваться специальные методы. Тесты с определенным временем сбоя кодируются как фактические сбои; цензурированные данные кодируются в соответствии с типом цензуры и известным интервалом или пределом. Специальные программы (часто ориентированные на надежность ) могут выполнять оценку максимального правдоподобия для сводной статистики, доверительных интервалов и т. д.

Эпидемиология

Одной из первых попыток проанализировать статистическую проблему, включающую цензурированные данные, был анализ Даниэлем Бернулли в 1766 году данных о заболеваемости и смертности от оспы , чтобы продемонстрировать эффективность вакцинации . ^[2] Первой статьей, в которой использовалась оценка Каплана-Мейера для оценки цензурированных затрат, была Quesenberry et al. (1989), ^[3] , однако Lin et al. признали этот подход недействительным. ^[4] если все пациенты не накапливали затраты с общей детерминированной функцией скорости с течением времени, они предложили альтернативный метод оценки, известный как оценщик Лина. ^[5]

Испытание срока службы

Тестирование надежности часто состоит из проведения испытаний объекта (при определенных условиях) для определения времени, необходимого для возникновения отказа.

Иногда отказ запланирован и ожидаем, но не происходит: ошибка оператора, неисправность оборудования, аномалия теста и т. д. Результат теста не соответствует желаемому времени до отказа, но его можно (и нужно) использовать в качестве времени до отказа. прекращение. Использование подвергнутых цензуре данных непреднамеренно, но необходимо.
Иногда инженеры планируют программу испытаний так, что после определенного срока или количества отказов все остальные тесты будут прекращены. Это время приостановки рассматривается как данные, подвергнутые цензуре справа. Использование цензурированных данных является преднамеренным.

Анализ данных повторных тестов включает в себя как время до сбоя для элементов, которые не сработали, так и время завершения тестирования для тех элементов, которые не дали сбоя.

Цензурированная регрессия

Более ранняя модель цензурированной регрессии , модель тобита , была предложена Джеймсом Тобином в 1958 году ^{. [6]}

Вероятность

Вероятность — это вероятность или плотность вероятности того, что наблюдалось, рассматриваемая как функция параметров предполагаемой модели. Чтобы включить цензурированные точки данных в вероятность, цензурированные точки данных представлены вероятностью подвергнутых цензуре точек данных как функции параметров модели, заданной моделью, т.е. функцией CDF(ов) вместо плотности или массы вероятности.

Наиболее общим случаем цензурирования является интервальная цензура: , где CDF распределения вероятностей, а также два особых случая: $Pr(a<x\leqslant b)=F(b)-F(a)$ ${\ displaystyle F (х)}$

левая цензура: $Pr(-\infty <x\leqslant b)=F(b)-F(-\infty)=F(b)-0=F(b)=Pr(x\leqslant b)$

правильная цензура: $Pr(a<x\leqslant \infty)=F(\infty)-F(a)=1-F(a)=1-Pr(x\leqslant a)=Pr(x>a)$

Для непрерывных распределений вероятностей: $Pr(a<x\leqslant b)=Pr(a<x<b)$

Пример

Предположим, нас интересует время выживания, но мы не наблюдаем для всех . Вместо этого мы наблюдаем $T_{1},T_{2},...,T_{n}$ $T_{i}$ $i$

(U_{i},\delta _{i})

, с и если действительно наблюдается, и

U_{i}=T_{i}

\delta _{i}=1

T_{i}

(U_{i},\delta _{i})

, и если все, что мы знаем, это то, что это длиннее, чем .

U_{i}<T_{i}

\delta _{i}=0

T_{i}

U_{i}

Когда называется цензурным временем . ^[7] $T_{i}>U_{i},U_{i}$

Если время цензурирования является всем известными константами, то вероятность равна

L=\prod _{i,\delta _{i}=1}f(u_{i})\prod _{i,\delta _{i}=0}S(u_{i})

где = функция плотности вероятности, оцененная при , $f(u_{i})$ $u_{i}$

и = вероятность, превышающая , называется функцией выживания . $S(u_{i})$ $T_{i}$ $u_{i}$

Это можно упростить, определив функцию риска , мгновенную силу смертности, как

\lambda (u)=f(u)/S(u)

так

f(u)=\lambda (u)S(u)

Затем

L=\prod _{i}\lambda (u_{i})^{\delta _{i}}S(u_{i})

Для экспоненциального распределения это становится еще проще, поскольку уровень риска постоянен и . Затем: $\lambda$ $S(u)=\exp(-\lambda u)$

L(\lambda )=\lambda ^{k}\exp(-\lambda \sum {u_{i}})

где . $k=\sum {\delta _{i}}$

Отсюда мы легко вычислим оценку максимального правдоподобия (MLE) следующим образом: ${\hat {\lambda }}$ $\lambda$

l(\lambda )=\log(L(\lambda ))=k\log(\lambda )-\lambda \sum {u_{i}}

Затем

dl/d\lambda =k/\lambda -\sum {u_{i}}

Мы устанавливаем это значение на 0 и решаем для, чтобы получить: $\lambda$

{\hat {\lambda }}=k/\sum u_{i}

Аналогично, среднее время до отказа равно:

1/{\hat {\lambda }}=\sum u_{i}/k

Это отличается от стандартного MLE для экспоненциального распределения тем, что любые цензурированные наблюдения учитываются только в числителе.

Смотрите также

дальнейшее чтение

Блоуэр, С. (2004), Д. Бернулли « Попытка нового анализа смертности, вызванной оспой, и преимуществ прививки для ее предотвращения» (PDF) . Архивировано из оригинала (PDF) 2017-08 гг. -08 Проверено 25 июня 2019 г. (146 КиБ ) », «Обзоры медицинской вирусологии» , 14 : 275–288.
Брэдли, Л. (1971). Прививка от оспы: математическая полемика восемнадцатого века . Ноттингем. ISBN 0-902031-23-6.{{cite book}}: CS1 maint: location missing publisher (link)
Манн, Северная Каролина ; и другие. (1975). Методы статистического анализа данных о надежности и сроке службы . Нью-Йорк: Уайли. ISBN 047156737X.
Багдонавичус В., Круопис Дж., Никулин М.С. (2011), «Непараметрические тесты для цензурированных данных», Лондон, ISTE/WILEY, ISBN 9781848212893 .

Внешние ссылки

«Справочник по инженерной статистике», NIST/SEMATEK, [1]