В статистике интервальная оценка — это использование выборочных данных для оценки интервала возможных значений интересующего параметра . Это отличается от точечной оценки , которая дает единственное значение. [1 ]
Наиболее распространенными формами интервальной оценки являются доверительные интервалы ( частотный метод) и правдоподобные интервалы ( байесовский метод ). [2] Менее распространенные формы включают в себя интервалы правдоподобия , фидуциальные интервалы , интервалы толерантности и интервалы прогнозирования . Для нестатистического метода интервальные оценки могут быть выведены из нечеткой логики .
Доверительные интервалы используются для оценки интересующего параметра из выборочного набора данных, обычно среднего значения или стандартного отклонения . Доверительный интервал утверждает, что существует 100γ% уверенность в том, что интересующий параметр находится в пределах нижней и верхней границы. Распространенное заблуждение относительно доверительных интервалов заключается в том, что 100γ% набора данных укладывается в пределы или выше/ниже границ, это называется интервалом допуска, который обсуждается ниже.
Существует несколько методов построения доверительного интервала, правильный выбор зависит от анализируемых данных. Для нормального распределения с известной дисперсией используется z-таблица для создания интервала, где уровень достоверности 100γ% может быть получен вокруг выборочного среднего из набора данных из n измерений, . Для биномиального распределения доверительные интервалы могут быть аппроксимированы с помощью метода аппроксимации Вальда , интервала Джеффри и интервала Клоппера-Пирсона . Метод Джеффри также может быть использован для аппроксимации интервалов для распределения Пуассона . [3] Если базовое распределение неизвестно, можно использовать бутстреппинг для создания границ вокруг медианы набора данных.
В отличие от доверительного интервала, достоверный интервал требует предварительного предположения, изменения предположения с использованием фактора Байеса и определения апостериорного распределения . Используя апостериорное распределение, можно определить 100γ% вероятность того, что интересующий параметр включен, в отличие от доверительного интервала, где можно быть на 100γ% уверенным , что оценка включена в интервал. [4]
Хотя априорное предположение полезно для предоставления большего количества данных для построения интервала, оно устраняет объективность доверительного интервала. Априорное предположение будет использоваться для информирования апостериорного, если его не оспаривать, это априорное предположение может привести к неверным прогнозам. [5]
Границы доверительного интервала изменчивы, в отличие от доверительного интервала. Существует несколько методов определения того, где должны располагаться правильные верхние и нижние пределы. Распространенные методы корректировки границ интервала включают в себя наивысший апостериорный интервал плотности (HPDI), равнохвостый интервал или выбор центра интервала вокруг среднего значения.
Использует принципы функции правдоподобия для оценки интересующего параметра. Используя метод, основанный на правдоподобии, можно найти доверительные интервалы для экспоненциальных, Вейбулла и логнормальных средних. Кроме того, подходы, основанные на правдоподобии, могут дать доверительные интервалы для стандартного отклонения. Также возможно создать интервал прогнозирования, объединив функцию правдоподобия и будущую случайную величину. [3]
Фидуциальный вывод использует набор данных, тщательно удаляет шум и восстанавливает оценщик распределения, обобщенное фидуциальное распределение (GFD). Без использования теоремы Байеса нет предположения о предшествующем, во многом подобно доверительным интервалам. Фидуциальный вывод является менее распространенной формой статистического вывода . Основатель, RA Fisher , который разрабатывал методы обратной вероятности, имел свои собственные вопросы о валидности процесса. Хотя фидуциальный вывод был разработан в начале двадцатого века, в конце двадцатого века считали, что метод уступает частотному и байесовскому подходам, но занимает важное место в историческом контексте для статистического вывода. Однако современные подходы обобщили фидуциальный интервал в обобщенный фидуциальный вывод (GFI), который можно использовать для оценки дискретных и непрерывных наборов данных. [6]
Интервалы допуска используют совокупность собранных данных для получения интервала в пределах допуска, содержащего 100γ% значений. Примеры, обычно используемые для описания интервалов допуска, включают производство. В этом контексте процент существующего набора продуктов оценивается, чтобы гарантировать, что процент популяции включен в пределы допуска. При создании интервалов допуска границы могут быть записаны в терминах верхнего и нижнего предела допуска, используя выборочное среднее значение , и выборочное стандартное отклонение , s.
для двусторонних интервалов
А в случае односторонних интервалов, где допуск требуется только выше или ниже критического значения,
варьируется в зависимости от распределения и числа сторон, i, в интервальной оценке. В нормальном распределении может быть выражено как [7]
Где,
— критические значения, полученные из нормального распределения.
Интервал прогнозирования оценивает интервал, содержащий будущие образцы с некоторой уверенностью, γ. Интервалы прогнозирования могут использоваться как для байесовского , так и для частотного контекста. Эти интервалы обычно используются в наборах данных регрессии, но интервалы прогнозирования не используются для экстраполяции за пределы экспериментально контролируемых параметров предыдущих данных. [8]
Нечеткая логика используется для обработки принятия решений небинарным способом для искусственного интеллекта, медицинских решений и других областей. В общем, она берет входные данные, сопоставляет их с системами нечеткого вывода и выдает выходное решение. Этот процесс включает в себя фаззификацию, оценку правил нечеткой логики и дефаззификацию. При рассмотрении оценки правил нечеткой логики функции принадлежности преобразуют нашу небинарную входную информацию в осязаемые переменные. Эти функции принадлежности необходимы для прогнозирования неопределенности системы.
Двусторонние интервалы оценивают интересующий параметр Θ с уровнем достоверности γ, используя нижнюю ( ) и верхнюю границу ( ). Примерами могут служить оценка среднего роста мужчин в географическом регионе или длины конкретного стола, изготовленного производителем. В этих случаях, как правило, оценивается центральное значение параметра. Обычно это представляется в форме, аналогичной уравнению ниже.
В отличие от двустороннего интервала, односторонний интервал использует уровень уверенности γ для построения минимальной или максимальной границы, которая предсказывает интересующий параметр с вероятностью γ*100%. Обычно односторонний интервал требуется, когда минимальная или максимальная граница оценки не представляет интереса. Когда речь идет о минимальном прогнозируемом значении Θ, больше не требуется находить верхнюю границу оценки, что приводит к редуцированной форме двустороннего.
В результате удаления верхней границы и сохранения уверенности нижняя граница ( ) увеличится. Аналогично, когда речь идет о поиске только верхней границы оценки параметра, верхняя граница уменьшится. Односторонний интервал часто встречается в обеспечении качества производства материалов , где ожидаемое значение прочности материала, Θ, должно быть выше определенного минимального значения ( ) с некоторой уверенностью (100γ%). В этом случае производитель не озабочен выпуском слишком прочного продукта, верхней границы ( ) нет .
При определении статистической значимости параметра лучше всего понимать данные и методы их сбора. Перед сбором данных эксперимент должен быть спланирован таким образом, чтобы ошибка выборки была статистической изменчивостью ( случайной ошибкой ), а не статистическим смещением ( систематической ошибкой ). [9] После эксперимента типичным первым шагом в создании интервальных оценок является построение исследовательского анализа с использованием различных графических методов . Из этого можно определить распределение выборок из набора данных. Создание границ интервала с неверными предположениями на основе распределения делает прогноз неверным. [10]
Когда сообщаются интервальные оценки, они должны иметь общепринятую интерпретацию внутри и за пределами научного сообщества. Интервальные оценки, полученные из нечеткой логики, имеют гораздо больше прикладных значений.
В часто встречающихся ситуациях должны быть наборы стандартных процедур, которые могут быть использованы при условии проверки и обоснованности любых требуемых предположений. Это применимо как к доверительным интервалам, так и к вероятным интервалам. Однако в более новых ситуациях должны быть указания о том, как можно формулировать оценки интервалов. В этом отношении доверительные интервалы и вероятные интервалы имеют схожее положение, но есть два различия. Во-первых, вероятные интервалы могут легко иметь дело с предшествующей информацией, в то время как доверительные интервалы не могут. Во-вторых, доверительные интервалы более гибкие и могут использоваться на практике в большем количестве ситуаций, чем вероятные интервалы: одна область, где вероятные интервалы страдают в сравнении, — это работа с непараметрическими моделями .
Должны быть способы проверки производительности процедур интервальной оценки. Это возникает, поскольку многие такие процедуры включают приближения различных видов, и необходимо проверить, что фактическая производительность процедуры близка к заявленной. Использование стохастического моделирования делает это простым в случае доверительных интервалов, но это несколько более проблематично для достоверных интервалов, где априорная информация должна быть должным образом учтена. Проверка достоверных интервалов может быть выполнена для ситуаций, представляющих отсутствие априорной информации, но проверка включает проверку долгосрочных частотных свойств процедур.
Северини (1993) обсуждает условия, при которых достоверные интервалы и доверительные интервалы будут давать схожие результаты, а также обсуждает как вероятности покрытия достоверных интервалов, так и апостериорные вероятности, связанные с доверительными интервалами. [11]
В теории принятия решений , которая является общим подходом и обоснованием байесовской статистики, интервальная оценка не представляет прямого интереса. Результатом является решение, а не интервальная оценка, и поэтому сторонники байесовской теории принятия решений используют байесовское действие : они минимизируют ожидаемые потери функции потерь относительно всего апостериорного распределения, а не конкретного интервала.
Применение доверительных интервалов используется для решения различных проблем, связанных с неопределенностью. Katz (1975) предлагает различные проблемы и преимущества использования интервальных оценок в судебных разбирательствах. [12] Для использования в медицинских исследованиях Altmen (1990) обсуждает использование доверительных интервалов и руководящие принципы по их использованию. [13] В производстве также часто встречаются интервальные оценки, оценивающие срок службы продукта или допуски продукта. Meeker и Escobar (1998) представляют методы анализа данных о надежности при параметрической и непараметрической оценке, включая прогнозирование будущих случайных величин (прогнозные интервалы). [14]