В статистике интервальная оценка — это использование выборочных данных для оценки интервала возможных значений интересующего параметра . В этом отличие от точечной оценки , которая дает одно значение. [1]
Наиболее распространенными формами интервальной оценки являются доверительные интервалы ( частотный метод) и достоверные интервалы ( байесовский метод ). [2] Менее распространенные формы включают интервалы правдоподобия , доверительные интервалы , интервалы допуска и интервалы прогнозирования . Для нестатистического метода интервальные оценки можно вывести с помощью нечеткой логики .
Доверительные интервалы используются для оценки интересующего параметра на основе выборочного набора данных, обычно это среднее значение или стандартное отклонение . Доверительный интервал означает, что существует 100γ% уверенность в том, что интересующий параметр находится в пределах нижней и верхней границы. Распространенное заблуждение относительно доверительных интервалов состоит в том, что 100γ% набора данных соответствует границам или выше/ниже границ. Это называется интервалом допуска, который обсуждается ниже.
Существует несколько методов построения доверительного интервала, правильный выбор зависит от анализируемых данных. Для нормального распределения с известной дисперсией используется z-таблица для создания интервала, в котором уровень достоверности 100γ% может быть получен вокруг выборочного среднего значения из набора данных из n измерений. Для биномиального распределения доверительные интервалы можно аппроксимировать с помощью приближенного метода Уолда , интервала Джеффриса и интервала Клоппера-Пирсона . Метод Джеффри также можно использовать для аппроксимации интервалов распределения Пуассона . [3] Если базовое распределение неизвестно, можно использовать начальную загрузку , чтобы создать границы медианы набора данных.
В отличие от доверительного интервала, достоверный интервал требует предварительного предположения, изменения предположения с использованием фактора Байеса и определения апостериорного распределения . Используя апостериорное распределение, можно определить 100γ% вероятность того, что интересующий параметр включен, в отличие от доверительного интервала, где можно быть на 100γ% уверенным , что оценка включена в интервал. [4]
Хотя предварительное предположение полезно для предоставления большего количества данных для построения интервала, оно лишает доверительный интервал объективности. Априорный результат будет использоваться для информирования апостериорного прогноза, если его не оспаривать, этот априор может привести к неверным прогнозам. [5]
Границы доверительного интервала являются переменными, в отличие от доверительного интервала. Существует несколько методов определения того, где должны быть расположены правильные верхний и нижний пределы. Общие методы настройки границ интервала включают интервал наибольшей апостериорной плотности (HPDI), интервал с равными хвостами или выбор центра интервала вокруг среднего значения.
Использует принципы функции правдоподобия для оценки интересующего параметра. Используя метод, основанный на правдоподобии, можно найти доверительные интервалы для экспоненциальных, Вейбулловских и логнормальных средних. Кроме того, подходы, основанные на правдоподобии, могут дать доверительные интервалы для стандартного отклонения. Также возможно создать интервал прогнозирования, объединив функцию правдоподобия и будущую случайную величину. [3]
Фидуциальный вывод использует набор данных, тщательно удаляет шум и восстанавливает оценку распределения, обобщенное доверительное распределение (GFD). Без использования теоремы Байеса не может быть никаких предположений об априорном значении, как и в случае с доверительными интервалами.
Фидуциальный вывод является менее распространенной формой статистического вывода . У основателя Р. А. Фишера , который занимался разработкой методов обратной вероятности, были свои вопросы по поводу обоснованности процесса. Хотя фидуциальный вывод был разработан в начале двадцатого века, в конце двадцатого века считалось, что этот метод уступает частотному и байесовскому подходам, но занимает важное место в историческом контексте для статистического вывода. Однако современные подходы обобщили доверительный интервал в обобщенный доверительный вывод (GFI), который можно использовать для оценки дискретных и непрерывных наборов данных. [6]
Интервалы допуска используют совокупность собранных наборов данных для получения интервала в пределах допуска, содержащего значения 100γ%. Примеры, обычно используемые для описания интервалов допуска, включают производство. В этом контексте оценивается процент существующего набора продуктов, чтобы гарантировать, что процент населения включен в пределы допуска. При создании интервалов допуска границы можно записать в виде верхнего и нижнего предела допуска, используя выборочное среднее , и выборочное стандартное отклонение , s.
для двусторонних интервалов
для двусторонних интервалов
А в случае односторонних интервалов, где допуск требуется только выше или ниже критического значения,
зависит от распределения и количества сторон i в интервальной оценке. В нормальном распределении это можно выразить как [7]
Где,
критическое значение распределения хи-квадрат с использованием степеней свободы, которое превышается с вероятностью .
– критические значения, полученные из нормального распределения.
Интервал прогнозирования оценивает интервал, содержащий будущие выборки с некоторой уверенностью, γ. Интервалы прогнозирования можно использовать как для байесовского , так и для частотного контекста. Эти интервалы обычно используются в наборах данных регрессии, но интервалы прогнозирования не используются для экстраполяции за пределы экспериментально контролируемых параметров предыдущих данных. [8]
Нечеткая логика используется для обработки принятия решений недвоичным способом для искусственного интеллекта, медицинских решений и других областей. В общем, он принимает входные данные, отображает их через системы нечеткого вывода и выдает выходное решение. Этот процесс включает в себя фаззификацию, оценку правил нечеткой логики и дефаззификацию. При оценке правил нечеткой логики функции принадлежности преобразуют нашу недвоичную входную информацию в материальные переменные. Эти функции принадлежности необходимы для прогнозирования неопределенности системы.
Двусторонние интервалы оценивают интересующий параметр Θ с уровнем достоверности γ, используя нижнюю ( ) и верхнюю границы ( ). Примеры могут включать оценку среднего роста мужчин в географическом регионе или длины конкретного стола, изготовленного производителем. В этих случаях обычно оценивают центральное значение параметра. Обычно это представляется в форме, аналогичной приведенному ниже уравнению.
В отличие от двустороннего интервала, односторонний интервал использует уровень достоверности γ для построения минимальной или максимальной границы, которая прогнозирует интересующий параметр с вероятностью γ*100%. Обычно односторонний интервал требуется, когда минимальная или максимальная граница оценки не представляет интереса. Когда речь идет о минимальном прогнозируемом значении Θ, больше не требуется находить верхние границы оценки, что приводит к уменьшенной форме двусторонней оценки.
В результате удаления верхней границы и сохранения уверенности нижняя граница ( ) увеличится. Аналогично, если речь идет о поиске только верхней границы оценки параметра, верхняя граница будет уменьшаться. Односторонний интервал обычно встречается при обеспечении качества производства материалов , где ожидаемое значение прочности материала Θ должно с некоторой уверенностью (100γ%) превышать определенное минимальное значение ( ). В этом случае производитель не заботится о выпуске слишком прочного продукта, верхняя граница ( ) отсутствует .
При определении значимости параметра лучше всего понимать данные и методы их сбора. Прежде чем собирать данные, эксперимент следует спланировать таким образом, чтобы неопределенность данных заключалась в изменчивости выборки, а не в статистической погрешности . [9] После экспериментов типичным первым шагом в создании интервальных оценок является построение графика с использованием различных графических методов. Исходя из этого, можно определить распределение выборок из набора данных. Создание границ интервала с неверными предположениями на основе распределения делает прогноз ошибочным. [10]
Когда сообщаются интервальные оценки, они должны иметь общепринятую интерпретацию как внутри научного сообщества, так и за его пределами. Интервальные оценки, полученные с помощью нечеткой логики, имеют гораздо большее значение для конкретного приложения.
В часто встречающихся ситуациях следует использовать наборы стандартных процедур, которые можно использовать при условии проверки и обоснованности любых необходимых допущений. Это применимо как к доверительным интервалам, так и к доверительным интервалам. Однако в более новых ситуациях необходимо иметь указания о том, как можно формулировать интервальные оценки. В этом отношении доверительные интервалы и доверительные интервалы имеют схожее положение, но есть два различия. Во-первых, доверительные интервалы могут легко обрабатывать априорную информацию, а доверительные интервалы — нет. Во-вторых, доверительные интервалы более гибки и могут использоваться практически в большем количестве ситуаций, чем доверительные интервалы: одна из областей, где достоверные интервалы страдают по сравнению с ними, — это работа с непараметрическими моделями .
Должны быть способы проверки эффективности процедур интервальной оценки. Это возникает потому, что многие такие процедуры включают различного рода аппроксимации и существует необходимость проверить, что фактическое выполнение процедуры близко к заявленному. Использование стохастического моделирования делает это простым в случае доверительных интервалов, но это несколько более проблематично для достоверных интервалов, когда необходимо должным образом учитывать предварительную информацию. Проверка достоверных интервалов может выполняться для ситуаций, не представляющих априорной информации, но проверка включает в себя проверку долгосрочных частотных свойств процедур.
Северини обсуждает условия, при которых правдоподобные интервалы и доверительные интервалы будут давать аналогичные результаты, а также обсуждает как вероятности покрытия вероятных интервалов, так и апостериорные вероятности, связанные с доверительными интервалами. [11]
В теории принятия решений , которая является распространенным подходом и обоснованием байесовской статистики, интервальная оценка не представляет прямого интереса. Результатом является решение, а не интервальная оценка, и поэтому сторонники байесовской теории принятия решений используют действие Байеса : они минимизируют ожидаемую потерю функции потерь по отношению ко всему апостериорному распределению, а не к конкретному интервалу.
Применение доверительных интервалов используется для решения множества проблем, связанных с неопределенностью. Кац (1975) предлагает различные проблемы и преимущества использования интервальных оценок в судебных разбирательствах. [12] Для использования в медицинских исследованиях Альтмен (1990) обсуждает использование доверительных интервалов и рекомендации по их использованию. [13] В производстве также часто встречаются интервальные оценки срока службы продукта или оценки допусков продукта. Микер и Эскобар (1998) представляют методы анализа данных о надежности при параметрической и непараметрической оценке, включая прогнозирование будущих случайных величин (интервалы прогнозирования). [14]