Интервал толерантности ( TI ) — это статистический интервал , в который с некоторым уровнем достоверности попадает определенная выборочная доля популяции . «Более конкретно, интервал допуска 100× p %/100×(1-α) обеспечивает пределы, в пределах которых по крайней мере определенная доля ( p ) популяции попадает с заданным уровнем достоверности (1-α)». [1] «Интервал толерантности (TI) ( p , 1-α) на основе выборки строится так, чтобы он включал по крайней мере часть p выборочной совокупности с достоверностью 1-α; такой ТИ обычно называют как p-контент − (1−α) покрытие TI». [2] «Верхний предел допуска (TL) (p, 1-α) — это просто верхний доверительный предел 1-α для 100 p- процентиля популяции». [2]
Односторонние нормальные интервалы допуска имеют точное решение с точки зрения выборочного среднего и выборочной дисперсии на основе нецентрального t -распределения . [3] Двусторонние нормальные интервалы допуска могут быть получены на основе нецентрального распределения хи-квадрат . [3]
«В случае с известными параметрами интервал допуска 95% и интервал прогнозирования 95% одинаковы». [4] Если бы мы знали точные параметры популяции, мы смогли бы вычислить диапазон, в который попадает определенная часть популяции. Например, если мы знаем, что популяция обычно распределяется со средним и стандартным отклонением , тогда интервал включает 95% популяции (1,96 — это z-показатель для 95% охвата нормально распределенной популяции).
Однако если у нас есть только выборка из совокупности, мы знаем только выборочное среднее и выборочное стандартное отклонение , которые являются лишь оценками истинных параметров. В этом случае не обязательно будет включаться 95% населения из-за расхождения в этих оценках. Интервал допуска ограничивает эту дисперсию, вводя уровень достоверности , который представляет собой уверенность, с которой этот интервал фактически включает указанную долю генеральной совокупности. Для нормально распределенной популяции z-показатель может быть преобразован в « коэффициент k » или коэффициент толерантности [5] для заданного значения с помощью справочных таблиц или нескольких аппроксимирующих формул. [6] «Поскольку степени свободы приближаются к бесконечности, интервалы прогнозирования и допуска становятся равными». [7]
Интервал допуска менее широко известен, чем доверительный интервал и интервал прогнозирования , на эту ситуацию жалуются некоторые преподаватели, поскольку это может привести к неправильному использованию других интервалов, где интервал допуска более уместен. [8] [9]
Интервал допуска отличается от доверительного интервала тем, что доверительный интервал ограничивает однозначный параметр совокупности ( например, среднее значение или дисперсию ) с некоторой уверенностью, в то время как интервал допуска ограничивает диапазон значений данных, который включает определенную долю население. В то время как размер доверительного интервала полностью обусловлен ошибкой выборки и будет приближаться к интервалу нулевой ширины при истинном параметре совокупности по мере увеличения размера выборки, размер интервала допуска частично обусловлен ошибкой выборки, а частично фактической дисперсией генеральной совокупности, и будет приближаться к интервалу вероятности генеральной совокупности по мере увеличения размера выборки. [8] [9]
Интервал допуска связан с интервалом прогнозирования , поскольку оба ограничивают вариации в будущих выборках. Однако интервал прогнозирования ограничивает только одну будущую выборку, тогда как интервал допуска ограничивает всю совокупность (т. е. произвольную последовательность будущих выборок). Другими словами, интервал прогнозирования в среднем охватывает определенную долю популяции , тогда как интервал допуска охватывает ее с определенным уровнем достоверности , что делает интервал допуска более подходящим, если один интервал предназначен для связывания нескольких будущих выборок. [9] [10]
[8] приводит следующий пример:
Итак, рассмотрим еще раз пресловутый сценарий проверки пробега EPA , в котором несколько номинально идентичных автомобилей конкретной модели тестируются для получения данных о пробеге . Если такие данные обработаны для получения 95% доверительного интервала для среднего пробега модели, их можно, например, использовать для прогнозирования среднего или общего потребления бензина парком таких автомобилей на протяжении первых 5000 миль. использования. Однако такой интервал не принесет особой пользы человеку, арендующему одну из этих машин и задающемуся вопросом, хватит ли (полного) 10-галлонного бака бензина, чтобы проехать 350 миль до места назначения. Для этой работы интервал прогнозирования был бы гораздо полезнее. (Рассмотрите различные последствия «уверенности на 95%» в том, что в отличие от «уверенности на 95%» в том, что .) Но ни доверительный интервал, ни интервал прогнозирования для одного дополнительного пробега — это именно то, что нужно инженеру-конструктору, которому поручено определение того, насколько большой бензобак действительно необходим модели, гарантирует, что 99% произведенных автомобилей будут иметь запас хода в 400 миль. Что действительно нужно инженеру, так это допустимый интервал для доли пробега таких автомобилей.
Другой пример: [10]
Уровни свинца в воздухе были собраны из разных зон объекта. Было отмечено, что уровни свинца, преобразованные логарифмически, хорошо соответствуют нормальному распределению (то есть данные имеют логарифмически нормальное распределение ). Пусть и соответственно обозначают генеральное среднее значение и дисперсию для данных, преобразованных логарифмически. If обозначает соответствующее случайное Таким образом, мы имеем . Отметим, что это медианный уровень свинца в воздухе. Доверительный интервал для можно построить обычным способом на основе t -распределения ; это, в свою очередь, обеспечит доверительный интервал для медианного уровня свинца в воздухе. Если и обозначают выборочное среднее и стандартное отклонение логарифмически преобразованных данных для выборки размером n, 95% доверительный интервал для определяется как , где обозначает квантиль t -распределения со степенями свободы. интересно получить 95%-ную верхнюю доверительную границу для медианного уровня содержания свинца в воздухе. Такая граница для определяется выражением . Следовательно, 95%-ная верхняя доверительная граница для медианного уровня содержания свинца в воздухе определяется выражением . Теперь предположим, что мы хотим спрогнозировать содержание свинца в воздухе. уровне в конкретной зоне лаборатории. Верхний предел предсказания 95 % для логарифмически преобразованного уровня отведений определяется выражением . Аналогичным образом можно вычислить интервал двустороннего прогнозирования. Смысл и интерпретация этих интервалов хорошо известны. Например, если доверительный интервал вычисляется повторно на основе независимых выборок, в долгосрочной перспективе 95% вычисленных таким образом интервалов будут включать истинное значение . Другими словами, интервал предназначен для предоставления информации только о параметре. Интервал прогнозирования имеет аналогичную интерпретацию и предназначен для предоставления информации только об одном уровне отведения. Теперь предположим, что мы хотим использовать выборку, чтобы сделать вывод о том, находятся ли по крайней мере 95% уровней свинца среди населения ниже порогового значения. Доверительный интервал и интервал прогнозирования не могут ответить на этот вопрос, поскольку доверительный интервал предназначен только для медианного уровня отведения, а интервал прогнозирования — только для одного уровня отведения. Что требуется, так это интервал допуска; более конкретно, верхний предел допуска. Верхний предел допуска должен рассчитываться при условии, что по крайней мере 95% уровней свинца в популяции находятся ниже предела, с определенным уровнем достоверности, скажем, 99%.