stringtranslate.com

Интервал прогнозирования

В статистическом выводе , в частности в прогнозирующем выводе , интервал прогнозирования — это оценка интервала , в который будущее наблюдение попадет с определенной вероятностью, учитывая то, что уже наблюдалось. Интервалы прогнозирования часто используются в регрессионном анализе .

Простой пример — шестигранная игральная кость с номиналами от 1 до 6. Доверительный интервал для предполагаемого ожидаемого значения номинала составит около 3,5 и станет уже с увеличением размера выборки. Однако интервал прогнозирования для следующего броска будет примерно находиться в диапазоне от 1 до 6, даже при любом количестве просмотренных на данный момент образцов.

Интервалы прогнозирования используются как в частотной статистике , так и в байесовской статистике : интервал прогнозирования имеет такое же отношение к будущему наблюдению, как частотный доверительный интервал или байесовский доверительный интервал имеет отношение к ненаблюдаемому параметру совокупности: интервалы прогнозирования предсказывают распределение отдельных будущих точек, тогда как доверительные интервалы и вероятные интервалы параметров предсказывают распределение оценок истинного среднего значения генеральной совокупности или другой представляющей интерес величины, которую невозможно наблюдать.

Введение

Если сделать параметрическое предположение , что основное распределение является нормальным распределением и имеет набор выборок { X 1 , ...,  X n }, то доверительные интервалы и вероятные интервалы могут использоваться для оценки среднего значения популяции µ и стандарта совокупности. отклонение σ базовой совокупности, в то время как интервалы прогнозирования могут использоваться для оценки значения следующей выборочной переменной X n +1 .

Альтернативно, в терминах Байеса, интервал прогнозирования можно описать как вероятный интервал для самой переменной, а не как параметр ее распределения.

Концепция интервалов прогнозирования не должна ограничиваться выводами об одном будущем значении выборки, но может быть распространена на более сложные случаи. Например, в контексте наводнений рек, где анализ часто основан на годовых значениях крупнейшего стока в течение года, может быть интересно сделать выводы о крупнейшем наводнении, которое может произойти в течение следующих 50 лет.

Поскольку интервалы прогнозирования касаются только прошлых и будущих наблюдений, а не ненаблюдаемых параметров популяции, некоторые статистики, такие как Сеймур Гейссер , пропагандируют их как лучший метод, чем доверительные интервалы, после того , как Бруно де Финетти сосредоточил внимание на наблюдаемых величинах. . [ нужна цитата ]

Нормальное распределение

Учитывая выборку из нормального распределения , параметры которой неизвестны, можно задать интервалы прогнозирования в частотном смысле, т. е. интервал [ ab ] на основе статистики выборки, такой, что при повторных экспериментах X n +1 попадает в интервал нужный процент времени; их можно назвать «прогнозирующими доверительными интервалами ». [1]

Общий метод частотного прогнозирования интервалов состоит в том, чтобы найти и вычислить основную величину наблюдаемых X 1 , ...,  X nX n +1 – что означает функцию наблюдаемых и параметров, распределение вероятностей которых не зависит от параметров – которую можно инвертировать, чтобы получить вероятность того, что будущее наблюдение X n +1 попадет в некоторый интервал, рассчитанный на основе наблюдаемых значений. Такая основная величина, зависящая только от наблюдаемых, называется вспомогательной статистикой . [2] Обычный метод построения основных величин состоит в том, чтобы взять разницу двух переменных, которые зависят от местоположения, так что местоположение сокращается, а затем взять отношение двух переменных, которые зависят от масштаба, чтобы масштаб уравновешивался. Наиболее знакомой ключевой величиной является t-статистика Стьюдента , которую можно получить этим методом и использовать в дальнейшем.

Известное среднее, известная дисперсия

Интервал прогнозирования [ , u ] для будущего наблюдения X в нормальном распределении N ( μ , σ2 ) с известным средним значением и дисперсией может быть рассчитан из

где стандартный балл X распределяется как стандартный нормальный .

Следовательно

или

где z - квантиль стандартного нормального распределения, для которого:

или эквивалентно;

Интервал прогнозирования (по оси Y ), заданный от z (квантиль стандартной оценки , по оси X ). Ось Y логарифмически сжимается (но значения на ней не изменяются).

Интервал прогнозирования условно записывается как:

Например, чтобы вычислить 95%-й интервал прогнозирования для нормального распределения со средним значением ( μ ) 5 и стандартным отклонением ( σ ) равным 1, тогда z равно приблизительно 2. Следовательно, нижний предел интервала прогнозирования составляет приблизительно 5. - (2⋅1) = 3, а верхний предел составляет примерно 5 + (2⋅1) = 7, что дает интервал прогнозирования примерно от 3 до 7.

Диаграмма, показывающая кумулятивную функцию распределения для нормального распределения со средним значением ( μ ) 0 и дисперсией ( σ2 ) 1. В дополнение к функции квантиля интервал прогнозирования для любого стандартного показателя может быть рассчитан по формуле (1 — (1 —  Φ μ) . , σ 2 (стандартный балл))⋅2). Например, стандартная оценка x  = 1,96 дает Φ μ , σ 2 (1,96) = 0,9750, что соответствует интервалу прогнозирования (1 - (1 - 0,9750)⋅2) = 0,9500 = 95%.

Оценка параметров

Для распределения с неизвестными параметрами прямой подход к прогнозированию состоит в том, чтобы оценить параметры, а затем использовать соответствующую функцию квантиля – например, можно использовать выборочное среднее в качестве оценки для µ , а выборочную дисперсию s 2 в качестве оценки для σ 2. . Здесь есть два естественных выбора для s 2 : деление на дает несмещенную оценку, а деление на n дает оценку максимального правдоподобия , и любой из них может быть использован. Затем с этими оцененными параметрами используется функция квантиля, чтобы получить интервал прогнозирования.

Этот подход можно использовать, но полученный интервал не будет иметь интерпретации повторной выборки [4] – он не является прогнозным доверительным интервалом.

Для дальнейшего используйте выборочное среднее:

и (несмещенная) выборочная дисперсия:

Неизвестное среднее, известная дисперсия

Учитывая [5] нормальное распределение с неизвестным средним значением µ , но известной дисперсией 1, выборочное среднее значений наблюдений имеет распределение, в то время как будущее наблюдение имеет распределение. Получение разницы этих значений отменяет µ и дает нормальное распределение дисперсии, таким образом

Решение for дает прогнозируемое распределение , на основе которого можно вычислять интервалы, как и раньше. Это прогнозируемый доверительный интервал в том смысле, что если использовать квантильный диапазон 100 p %, то при повторном применении этого вычисления будущее наблюдение попадет в прогнозируемый интервал в 100 p % времени.

Обратите внимание, что это прогнозируемое распределение более консервативно, чем использование предполагаемого среднего и известной дисперсии 1, поскольку при этом используется дисперсия и , следовательно, получаются более широкие интервалы. Это необходимо для сохранения желаемого свойства доверительного интервала.

Известное среднее, неизвестная дисперсия

И наоборот, при нормальном распределении с известным средним значением 0, но неизвестной дисперсией , выборочная дисперсия наблюдений имеет, вплоть до масштаба, распределение ; точнее:

в то время как будущее наблюдение имеет распределение. Взятие отношения будущего наблюдения и стандартного отклонения выборки [ необходимы пояснения ] отменяет σ, давая t-распределение Стьюдента с n  – 1 степенями свободы :

Решение for дает прогнозируемое распределение , на основе которого можно вычислять интервалы, как и раньше.

Обратите внимание, что это прогнозируемое распределение более консервативно, чем использование нормального распределения с оцененным стандартным отклонением и известным средним значением 0, поскольку оно использует t-распределение вместо нормального распределения и, следовательно, дает более широкие интервалы. Это необходимо для сохранения желаемого свойства доверительного интервала.

Неизвестное среднее, неизвестная дисперсия

Объединение вышеизложенного для нормального распределения с неизвестными µ и σ 2 дает следующую вспомогательную статистику: [6]

Эта простая комбинация возможна, поскольку выборочное среднее и выборочная дисперсия нормального распределения являются независимыми статистическими данными; это верно только для нормального распределения и фактически характеризует нормальное распределение.

Решение для получения прогнозируемого распределения

Тогда вероятность попадания в заданный интервал равна:

где T a — 100 ((1 —  p )/2) процентиль t-распределения Стьюдента с n  1 степенями свободы. Следовательно, числа

являются конечными точками 100(1 -  p )% интервала прогнозирования для .

Непараметрические методы

Можно вычислить интервалы прогнозирования без каких-либо предположений о совокупности, то есть непараметрическим способом.

Метод остаточной загрузки можно использовать для построения непараметрических интервалов прогнозирования.

Конформное предсказание

В целом метод конформного прогнозирования является более общим. Давайте рассмотрим частный случай использования минимума и максимума в качестве границ интервала прогнозирования: если имеется выборка идентичных случайных величин { X 1 , ...,  X n }, то вероятность того, что следующее наблюдение X n +1 будет самым большим из 1/( n  + 1), поскольку все наблюдения имеют равную вероятность оказаться максимальными. Точно так же вероятность того, что X n +1 будет наименьшим, равна 1/( n  + 1). Другой ( n  - 1)/( n  + 1) времени, X n +1, попадает между максимумом выборки и минимумом выборки { X 1 , ...,  X n }. Таким образом, обозначая максимум и минимум выборки через M и m, это дает ( n  - 1)/( n  + 1) интервал прогнозирования [ mM ].

Обратите внимание: хотя это и дает вероятность того, что будущее наблюдение попадет в диапазон, оно не дает никакой оценки относительно того, в какое место в сегменте оно попадет – в частности, если оно выходит за пределы диапазона наблюдаемых значений, оно может оказаться далеко за его пределами. диапазон. Дальнейшее обсуждение см. в теории экстремальных ценностей . Формально это относится не только к выборке из совокупности, но и к любой заменяемой последовательности случайных величин, не обязательно независимых или одинаково распределенных .

Контраст с другими интервалами

Контраст с доверительными интервалами

В формуле для прогнозного доверительного интервала не упоминаются ненаблюдаемые параметры μ и σ среднего значения генеральной совокупности и стандартного отклонения - используются наблюдаемые статистические данные выборки , а также среднее значение выборки и стандартное отклонение, а то, что оценивается, является результатом будущих выборок. .

При рассмотрении интервалов прогнозирования вместо использования статистики выборки в качестве оценки параметров совокупности и применения доверительных интервалов к этим оценкам «следующая выборка» сама по себе является статистикой и вычисляет ее выборочное распределение .

В доверительных интервалах параметров оцениваются параметры популяции; если кто-то хочет интерпретировать это как прогноз следующей выборки, нужно моделировать «следующую выборку» как выборку из этой оцененной совокупности, используя (оценочное) распределение совокупности . Напротив, в прогнозных доверительных интервалах используется выборочное распределение (статистика) выборки из n или n  + 1 наблюдений из такой совокупности, а распределение совокупности не используется напрямую, хотя предположение о ее форме (хотя а не значения его параметров) используется при вычислении выборочного распределения.

В регрессионном анализе

Распространенным применением интервалов прогнозирования является регрессионный анализ .

Предположим, что данные моделируются с помощью прямой регрессии:

где – переменная отклика , – объясняющая переменная , ε i – случайная ошибка, и – параметры.

Учитывая оценки и параметры, например, полученные из простой линейной регрессии , прогнозируемое значение ответа y d для данного объясняющего значения x d равно

(точка на линии регрессии), в то время как фактический ответ будет

Точечная оценка называется средним откликом и представляет собой оценку ожидаемого значения y d ,

Вместо этого интервал прогнозирования дает интервал, в котором ожидается падение y d ; в этом нет необходимости, если известны фактические параметры α и β (вместе с ошибкой ε i ), но если оценка производится по выборке , то можно использовать стандартную ошибку оценок для точки пересечения и наклона ( и ) , а также их корреляцию для вычисления интервала прогнозирования.

В регрессии Фарауэй (2002, стр. 39) проводит различие между интервалами для прогнозирования средней реакции и для прогнозирования наблюдаемой реакции, что существенно влияет на включение или отсутствие члена единицы в квадратный корень в приведенных выше коэффициентах расширения; подробнее см. Faraway (2002).

Байесовская статистика

Сеймур Гейссер , сторонник прогнозирующего вывода, дает прогнозные применения байесовской статистики . [7]

В байесовской статистике можно вычислить (байесовские) интервалы прогнозирования на основе апостериорной вероятности случайной величины как доверительного интервала . В теоретической работе достоверные интервалы часто рассчитываются не для предсказания будущих событий, а для вывода параметров – т.е. достоверные интервалы параметра, а не для результатов самой переменной. Однако, особенно когда приложения связаны с возможными экстремальными значениями еще не наблюдавшихся случаев, достоверные интервалы для таких значений могут иметь практическое значение.

Приложения

Интервалы прогнозирования обычно используются в качестве определения референтных диапазонов , например референтных диапазонов для анализов крови, чтобы дать представление о том, является ли анализ крови нормальным или нет. Для этой цели наиболее часто используемым интервалом прогнозирования является 95%-ный интервал прогнозирования, а основанный на нем эталонный диапазон можно назвать стандартным эталонным диапазоном .

Смотрите также

Примечания

  1. ^ Гейссер (1993, стр. 6): Глава 2: Небайесовские прогнозные подходы
  2. ^ Гейссер (1993, стр. 7)
  3. ^ abcd Таблица A2 в Sterne & Kirkwood (2003, стр. 472)
  4. ^ Гейссер (1993, стр. 8–9)
  5. ^ Гейссер (1993, стр. 7–)
  6. ^ Гейссер (1993, пример 2.2, стр. 9–10)
  7. ^ Гейссер (1993)

Рекомендации

дальнейшее чтение