stringtranslate.com

Доверительный интервал

Каждая строка точек представляет собой выборку из одного и того же нормального распределения. Цветные линии представляют собой 50% доверительные интервалы для среднего значения μ . В центре каждого интервала находится выборочное среднее, отмеченное ромбом. Синие интервалы содержат среднее значение генеральной совокупности, а красные — нет.
Это распределение вероятностей выделяет некоторые различные доверительные интервалы.

Неформально, в частотной статистике доверительный интервал ( CI ) — это интервал, который, как ожидается, обычно содержит оцениваемый параметр . Более конкретно, учитывая уровень достоверности (95% и 99% являются типичными значениями), ДИ представляет собой случайный интервал, который содержит оцениваемый параметр в % случаев. [1] [2] Уровень уверенности , степень уверенности или коэффициент уверенности представляет собой долгосрочную долю ДИ (при данном уровне достоверности), которые теоретически содержат истинное значение параметра; это эквивалентно номинальной вероятности покрытия . Например, из всех интервалов, рассчитанных на уровне 95 %, 95 % должны содержать истинное значение параметра. [3]

Факторы, влияющие на ширину ДИ, включают размер выборки , изменчивость выборки и уровень достоверности. [4] При прочих равных условиях более крупная выборка дает более узкий доверительный интервал, большая вариабельность выборки дает более широкий доверительный интервал, а более высокий уровень достоверности дает более широкий доверительный интервал. [5]

Определение

Пусть это случайная выборка из распределения вероятностей со статистическим параметром , который представляет собой величину, подлежащую оценке, и , представляющий величины, которые не представляют непосредственного интереса. Доверительный интервал для параметра с уровнем достоверности или коэффициентом представляет собой интервал, определяемый случайными величинами и обладающий свойством:

Число , типичное значение которого близко, но не превышает 1, иногда дается в виде (или в процентах ), где – небольшое положительное число, часто 0,05.

Важно, чтобы границы были указаны таким образом, чтобы, пока они собираются случайным образом, каждый раз, когда мы вычисляем доверительный интервал, существовала вероятность того, что он будет содержать истинное значение оцениваемого параметра. Это должно справедливо для любого фактического и . [2]

Приблизительные доверительные интервалы

Во многих приложениях трудно построить доверительные интервалы, которые имеют точно необходимый уровень доверия, но приблизительные интервалы можно вычислить. Правило построения интервала можно принять как обеспечивающее доверительный интервал на уровне, если

до приемлемого уровня приближения. Альтернативно, некоторые авторы [6] просто требуют, чтобы

что полезно, если вероятности идентифицированы лишь частично или неточно , а также при работе с дискретными распределениями . Доверительные пределы формы

  и  

называются консервативными ; [7] (с. 210) соответственно говорят о консервативных доверительных интервалах и вообще о регионах.

Желаемые свойства

При применении стандартных статистических процедур часто используются стандартные способы построения доверительных интервалов. Они будут разработаны таким образом, чтобы обеспечить определенные желательные свойства, которые будут сохраняться при условии, что предположения, на которых основана процедура, верны. Эти желательные свойства можно описать как: достоверность, оптимальность и инвариантность.

Из этих трех наиболее важным является «действительность», за которым следует «оптимальность». «Инвариантность» можно рассматривать как свойство метода получения доверительного интервала, а не правила построения интервала. В нестандартных приложениях следует искать те же желательные свойства:

Период действия

Это означает, что номинальная вероятность покрытия (уровень доверия) доверительного интервала должна соблюдаться либо точно, либо с хорошим приближением.

Оптимальность

Это означает, что правило построения доверительного интервала должно максимально использовать информацию из набора данных.

Напомним, что можно выбросить половину набора данных и при этом получить действительный доверительный интервал. Одним из способов оценки оптимальности является длина интервала, так что правило построения доверительного интервала оценивается лучше, чем другое, если оно приводит к интервалам, длина которых обычно короче.

Инвариантность

Во многих приложениях оцениваемое количество не может быть четко определено как таковое.

Например, опрос может привести к оценке медианного дохода населения, но его в равной степени можно рассматривать и как оценку логарифма медианного дохода, учитывая, что это обычная шкала для представления графических результатов. Было бы желательно, чтобы метод, используемый для построения доверительного интервала для медианного дохода, давал эквивалентные результаты при применении к построению доверительного интервала для логарифма медианного дохода: в частности, значения на концах последнего интервала были бы логарифмами. значений на концах бывшего интервала.

Методы вывода

Для нестандартных приложений существует несколько путей, по которым можно вывести правило построения доверительных интервалов. Установленные правила для стандартных процедур могут быть оправданы или объяснены несколькими из этих путей. Обычно правило построения доверительных интервалов тесно связано с конкретным способом нахождения точечной оценки рассматриваемой величины.

Сводные статистические данные

Это тесно связано с методом моментов оценки. Возникает простой пример, когда оцениваемой величиной является среднее значение генеральной совокупности, и в этом случае естественной оценкой является выборочное среднее значение. Аналогично, выборочную дисперсию можно использовать для оценки генеральной дисперсии. Доверительный интервал для истинного среднего значения может быть построен по центру выборочного среднего значения с шириной, кратной квадратному корню выборочной дисперсии.

Теория правдоподобия

Оценки могут быть построены с использованием принципа максимального правдоподобия , теория правдоподобия для этого предусматривает два способа построения доверительных интервалов или доверительных областей для оценок.

Оценочные уравнения

Оценочный подход здесь можно рассматривать как обобщение метода моментов и обобщение подхода максимального правдоподобия. Существуют соответствующие обобщения результатов теории максимального правдоподобия, которые позволяют строить доверительные интервалы на основе оценок, полученных из оценочных уравнений . [ нужна цитата ]

Проверка гипотезы

Если для общих значений параметра доступны тесты гипотез, то доверительные интервалы/области могут быть построены путем включения в доверительную область 100 p  % всех тех точек, для которых проверка нулевой гипотезы о том, что истинное значение является заданным значением, является не отвергается на уровне значимости (1 - p ). [7] (п. 7.2 (iii))

Начальная загрузка

В ситуациях, когда предположения о распределении для вышеупомянутых методов неопределенны или нарушаются, методы повторной выборки позволяют построить доверительные интервалы или интервалы прогнозирования. Наблюдаемое распределение данных и внутренние корреляции используются в качестве замены корреляций в более широкой популяции.

Центральная предельная теорема

Центральная предельная теорема является уточнением закона больших чисел . Для большого количества независимых одинаково распределенных случайных величин с конечной дисперсией среднее значение приблизительно имеет нормальное распределение, независимо от того, каково распределение , причем приближение примерно улучшается пропорционально . [2]

Пример

На этой гистограмме верхние концы коричневых столбцов обозначают наблюдаемые средние значения, а сегменты красных линий (« столбики ошибок ») представляют доверительные интервалы вокруг них. Хотя полосы погрешностей показаны симметрично относительно средних значений, это не всегда так. На большинстве графиков полосы ошибок не представляют доверительные интервалы (например, они часто представляют стандартные ошибки или стандартные отклонения).

Предположим , это независимая выборка из нормально распределенной совокупности с неизвестными параметрами, средним значением и дисперсией . Пусть

Где – выборочное среднее , и – выборочная дисперсия . Затем

имеет распределение Стьюдента со степенями свободы . [8] Заметим, что распределение не зависит от значений ненаблюдаемых параметров и ; т. е. это ключевая величина . Предположим, мы хотим вычислить 95% доверительный интервал для Тогда, обозначив 97,5-й процентиль этого распределения:

Обратите внимание, что «97,5» и «0,95» являются правильными в предыдущих выражениях. Существует вероятность 2,5%, что оно будет меньше , и вероятность 2,5%, что оно будет больше. Таким образом, вероятность того, что будет между и, составляет 95%.

Следовательно,

и у нас есть теоретический (стохастический) 95% доверительный интервал для

После наблюдения за образцом мы находим значения для и для , из которых вычисляем доверительный интервал.

Интерпретация

Могут быть даны различные интерпретации доверительного интервала (в качестве примера ниже взят 95% доверительный интервал).

Интерпретация 95% доверительного интервала с точки зрения статистической значимости.

Распространенные недоразумения

График 50 доверительных интервалов из 50 выборок, созданных на основе нормального распределения.

Доверительные интервалы и уровни часто неправильно понимаются, а опубликованные исследования показали, что даже профессиональные ученые часто неправильно их интерпретируют. [12] [13] [14] [15] [16] [17]

Контрпримеры

С тех пор, как была предложена теория доверительных интервалов, был разработан ряд контрпримеров к этой теории, чтобы показать, насколько проблематичной может быть интерпретация доверительных интервалов, по крайней мере, если интерпретировать их наивно.

Доверительная процедура для единообразного местоположения

Уэлч [20] представил пример, который ясно показывает разницу между теорией доверительных интервалов и другими теориями интервальной оценки (включая доверительные интервалы Фишера и объективные байесовские интервалы). Робинсон [21] назвал этот пример «возможно, самым известным контрпримером для версии теории доверительных интервалов Неймана». Для Уэлча это показало превосходство теории доверительных интервалов; критикам теории она показывает недостаток. Здесь мы представляем упрощенную версию.

Предположим, что это независимые наблюдения из равномерного распределения. Тогда оптимальная процедура достоверности 50% для [ 22]

Для получения интервальной оценки можно использовать фидуциальный или объективный байесовский аргумент.

что также является процедурой доверия 50%. Уэлч показал, что первая доверительная процедура доминирует над второй, согласно требованиям теории доверительных интервалов; для каждого вероятность того, что первая процедура содержит меньше или равна вероятности того, что вторая процедура содержит . Средняя ширина интервалов у первой процедуры меньше, чем у второй. Следовательно, первая процедура предпочтительна в рамках классической теории доверительного интервала.

Однако, когда интервалы первой процедуры гарантированно содержат истинное значение : Следовательно, номинальный коэффициент достоверности 50% не связан с неопределенностью, которую мы должны иметь в отношении того, что конкретный интервал содержит истинное значение. Вторая процедура этим свойством не обладает.

Более того, когда первая процедура генерирует очень короткий интервал, это указывает на то, что они очень близки друг к другу и, следовательно, предоставляют информацию только в одной точке данных. Однако первый интервал из-за своей малой ширины исключит почти все разумные значения параметра. Вторая процедура этим свойством не обладает.

Два противоречивых свойства первой процедуры – 100%-ный охват , когда они расположены далеко друг от друга, и почти 0%-ный охват, когда они расположены близко друг к другу – уравновешиваются, обеспечивая в среднем 50%-ный охват. Однако, несмотря на то, что первая процедура является оптимальной, ее интервалы не дают ни оценки точности оценки, ни оценки неопределенности, которую следует иметь в отношении того, что интервал содержит истинное значение.

Этот контрпример используется для аргументации против наивных интерпретаций доверительных интервалов. Если утверждается, что доверительная процедура имеет свойства, выходящие за рамки номинального покрытия (например, отношение к точности или связь с байесовским выводом), эти свойства должны быть доказаны; они не следуют из того факта, что процедура является доверительной процедурой.

Доверительная процедура для ω 2

Штайгер [23] предложил ряд доверительных процедур для общих показателей величины эффекта в ANOVA . Мори и др. [18] отмечают, что некоторые из этих доверительных процедур, включая процедуру для ω 2 , обладают тем свойством, что по мере того, как F- статистика становится все более маленькой, что указывает на несоответствие всем возможным значениям ω 2 , доверительный интервал сжимается и может даже содержать только единственное значение ω 2  = 0; то есть CI бесконечно узок (это происходит при CI ).

Такое поведение согласуется с взаимосвязью между доверительной процедурой и проверкой значимости : поскольку F становится настолько малым, что групповые средние оказываются намного ближе друг к другу, чем мы могли бы случайно ожидать, проверка значимости может указывать на отклонение большинства или всех значений ω 2 . Следовательно, интервал будет очень узким или даже пустым (или, по соглашению, предложенному Штайгером, содержащим только 0). Однако это не означает, что оценка ω 2 очень точна. В каком-то смысле это указывает на обратное: достоверность самих результатов может оказаться под вопросом. Это противоречит общепринятой интерпретации доверительных интервалов, согласно которой они отражают точность оценки.

История

Методы расчета доверительных интервалов для биномиальной пропорции появились с 1920-х годов. [24] [25] Основные идеи доверительных интервалов в целом были разработаны в начале 1930-х годов, [26] [27] [28] , а первое подробное и общее описание было дано Ежи Нейманом в 1937 году. [10]

Нейман описал развитие идей следующим образом (номера ссылок изменены): [28]

[Моя работа над доверительными интервалами] возникла примерно в 1930 году из простого вопроса Вацлава Пытковского, тогда моего студента в Варшаве, который занимался эмпирическим исследованием экономики сельского хозяйства. Вопрос заключался в следующем: как недогматично охарактеризовать точность оценки коэффициента регрессии? ...

Монография Питковского... появилась в печати в 1932 году. [29] Так случилось, что несколько раньше Фишер опубликовал свою первую статью [30] , посвященную фидуциальным распределениям и фидуциальному аргументу. Совершенно неожиданно, хотя концептуальная основа фидуциального аргумента полностью отличается от концептуальной основы доверительных интервалов, конкретные решения нескольких частных проблем совпали. Так, в первой статье, в которой я изложил теорию доверительных интервалов, опубликованной в 1934 году [26], я признал приоритет Фишера за идею о том, что интервальная оценка возможна без всякой ссылки на теорему Байеса и с независимостью решения от вероятностей. априори . В то же время я мягко предположил, что подход Фишера к проблеме заключался в небольшом недоразумении.

В медицинских журналах доверительные интервалы стали пропагандироваться в 1970-х годах, но стали широко использоваться только в 1980-х. [31] К 1988 году медицинские журналы требовали сообщения о доверительных интервалах. [32]

Смотрите также

Доверительный интервал для конкретных распределений

Рекомендации

  1. ^ Зар, ​​Джеррольд Х. (199). Биостатистический анализ (4-е изд.). Река Аппер-Сэдл, Нью-Джерси: Прентис-Холл. стр. 43–45. ISBN 978-0130815422. ОСЛК  39498633.
  2. ^ abc Деккинг, Фредерик Мишель; Краайкамп, Корнелис; Лопухаа, Хендрик Пауль; Местер, Людольф Эрвин (2005). «Современное введение в вероятность и статистику». Спрингеровские тексты в статистике . дои : 10.1007/1-84628-168-7. ISBN 978-1-85233-896-1. ISSN  1431-875X.
  3. ^ Илловски, Барбара. Вводная статистика . Дин, Сьюзан Л., 1945 г.р., Илловски, Барбара, Колледж OpenStax. Хьюстон, Техас. ISBN 978-1-947172-05-0. OCLC  899241574.
  4. ^ Хазра, Авиджит (октябрь 2017 г.). «Уверенное использование доверительного интервала». Журнал торакальных заболеваний . 9 (10): 4125–4130. дои : 10.21037/jtd.2017.09.14 . ISSN  2072-1439. ПМК 5723800 . ПМИД  29268424. 
  5. ^ Харе, Викас; Нема, Савита; Баредар, Прашант (2020). Моделирование и моделирование энергии океана с использованием вычислительного интеллекта больших данных для оптимизации системы и интеграции энергосетей. Баттерворт-Хайнеманн. ISBN 978-0-12-818905-4. ОСЛК  1153294021.
  6. ^ Руссас, Джордж Г. (1997). Курс математической статистики (2-е изд.). Академическая пресса. п. 397.
  7. ^ аб Кокс, доктор медицинских наук; Хинкли, Д.В. (1974). Теоретическая статистика . Чепмен и Холл.
  8. ^ Рис, генеральный директор (2001). Основная статистика , 4-е издание, Чепмен и Холл/CRC. ISBN 1-58488-007-4 (раздел 9.5) 
  9. ^ Кокс Д.Р., Хинкли Д.В. (1974) Теоретическая статистика , Чепмен и Холл, стр. 49, стр. 209.
  10. ^ abc Нейман, Дж. (1937). «Очерк теории статистического оценивания, основанной на классической теории вероятностей». Философские труды Королевского общества А. 236 (767): 333–380. Бибкод : 1937RSPTA.236..333N. дои : 10.1098/rsta.1937.0005 . JSTOR  91337.
  11. ^ Кокс Д.Р., Хинкли Д.В. (1974) Теоретическая статистика, Chapman & Hall, стр. 214, 225, 233.
  12. ^ Калиновский, Павел (2010). «Выявление заблуждений относительно доверительных интервалов» (PDF) . Проверено 22 декабря 2021 г.
  13. ^ «Архивная копия» (PDF) . Архивировано из оригинала (PDF) 4 марта 2016 г. Проверено 16 сентября 2014 г.{{cite web}}: CS1 maint: archived copy as title (link)
  14. ^ Хоекстра, Р., Р.Д. Мори, Дж.Н. Рудер и Э.Дж. Вагенмейкерс, 2014. Устойчивая неправильная интерпретация доверительных интервалов. Психономический бюллетень и обзор, том. 21, № 5, стр. 1157-1164. [1]
  15. Понимание учёными доверительных интервалов не внушает доверия, Science News , 3 июля 2014 г.
  16. ^ аб Гренландия, Сандер; Сенн, Стивен Дж.; Ротман, Кеннет Дж.; Карлин, Джон Б.; Пул, Чарльз; Гудман, Стивен Н.; Альтман, Дуглас Г. (апрель 2016 г.). «Статистические тесты, значения P, доверительные интервалы и мощность: руководство по неправильным толкованиям». Европейский журнал эпидемиологии . 31 (4): 337–350. дои : 10.1007/s10654-016-0149-3. ISSN  0393-2990. ПМЦ 4877414 . ПМИД  27209009. 
  17. ^ Хельске, Йоуни; Хельске, Сату; Купер, Мэтью; Иннерман, Андерс; Безансон, Лонни (01 августа 2021 г.). «Может ли визуализация облегчить дихотомическое мышление? Влияние визуальных представлений на эффект скалы». Транзакции IEEE по визуализации и компьютерной графике . Институт инженеров по электротехнике и электронике (IEEE). 27 (8): 3397–3409. arXiv : 2002.07671 . дои : 10.1109/tvcg.2021.3073466. ISSN  1077-2626. PMID  33856998. S2CID  233230810.
  18. ^ аб Мори, РД; Хоекстра, Р.; Рудер, Дж. Н.; Ли, доктор медицины; Вагенмейкерс, Э.-Ж. (2016). «Ошибка уверенности в доверительных интервалах». Психономический бюллетень и обзор . 23 (1): 103–123. дои : 10.3758/s13423-015-0947-8. ПМЦ 4742505 . ПМИД  26450628. 
  19. ^ «1.3.5.2. Доверительные пределы для среднего». nist.gov . Архивировано из оригинала 5 февраля 2008 г. Проверено 16 сентября 2014 г.
  20. ^ Уэлч, Б.Л. (1939). «О доверительных пределах и достаточности с особым учетом параметров местоположения». Анналы математической статистики . 10 (1): 58–69. дои : 10.1214/aoms/1177732246 . JSTOR  2235987.
  21. ^ Робинсон, ГК (1975). «Некоторые контрпримеры к теории доверительных интервалов». Биометрика . 62 (1): 155–161. дои : 10.2307/2334498. JSTOR  2334498.
  22. ^ Пратт, JW (1961). «Рецензия на книгу: Проверка статистических гипотез. Э. Л. Лемана». Журнал Американской статистической ассоциации . 56 (293): 163–167. дои : 10.1080/01621459.1961.10482103. JSTOR  2282344.
  23. ^ Штайгер, Дж. Х. (2004). «За пределами F-теста: доверительные интервалы размера эффекта и тесты на близкое соответствие в дисперсионном и контрастном анализе». Психологические методы . 9 (2): 164–182. дои : 10.1037/1082-989x.9.2.164. ПМИД  15137887.
  24. ^ Эдвин Б. Уилсон (1927) Вероятный вывод, закон преемственности и статистический вывод, Журнал Американской статистической ассоциации, 22:158, 209-212, https://doi.org/10.1080/01621459.1927.10502953
  25. ^ К. Дж. Клоппер, Э. С. Пирсон, Использование доверительных или фидуциальных пределов, проиллюстрированное в случае бинома, Biometrika 26 (4), 1934, страницы 404–413, https://doi.org/10.1093/biomet/26.4.404
  26. ^ Аб Нейман, Дж. (1934). О двух различных аспектах репрезентативного метода: методе стратифицированной выборки и методе целенаправленного отбора. Журнал Королевского статистического общества, 97 (4), 558–625. https://doi.org/10.2307/2342192 (см. примечание I в приложении)
  27. ^ Дж. Нейман (1935), Энн. Математика. Статист. 6 (3): 111–116 (сентябрь 1935 г.). https://doi.org/10.1214/aoms/1177732585
  28. ^ Аб Нейман, Дж. (1970). Немного моего личного опыта в процессе исследования. В книге «Учёные за работой: Festschrift в честь Германа Вольда». Под редакцией Т. Далениуса, Г. Карлссона, С. Малмквиста. Альмквист и Викселл, Стокгольм. https://worldcat.org/en/title/195948
  29. ^ Питковски, В., Зависимость дохода в мелких фермах от их площади, затрат и капитала, вложенного в коров. (Польское, английское резюме) Bibliotaka Palawska, 1932.
  30. ^ Фишер, Р. (1930). Обратная вероятность. Математические труды Кембриджского философского общества, 26 (4), 528–535. https://doi.org/10.1017/S0305004100016297
  31. ^ Альтман, Дуглас Г. (1991). «Статистика в медицинских журналах: события 1980-х годов». Статистика в медицине . 10 (12): 1897–1913. дои : 10.1002/sim.4780101206. ISSN  1097-0258. ПМИД  1805317.
  32. ^ Гарднер, Мартин Дж.; Альтман, Дуглас Г. (1988). «Оценка с уверенностью». Британский медицинский журнал . 296 (6631): 1210–1211. дои : 10.1136/bmj.296.6631.1210. ПМЦ 2545695 . ПМИД  3133015. 

Библиография

  • «Доверительная оценка», Математическая энциклопедия , EMS Press , 2001 [1994]
  • Фишер, Р.А. (1956) Статистические методы и научные выводы. Оливер и Бойд, Эдинбург. (См. стр. 32.)
  • Фройнд, Дж. Э. (1962) Математическая статистика Прентис Холл, Энглвуд Клиффс, Нью-Джерси. (См. стр. 227–228.)
  • Хакинг, И. (1965) Логика статистического вывода. Издательство Кембриджского университета, Кембридж. ISBN 0-521-05165-7 
  • Хранение, ES (1962) Введение в статистический вывод. Д. Ван Ностранд, Принстон, Нью-Джерси.
  • Кифер, Дж. (1977). «Заявления об условной уверенности и оценщики уверенности (с обсуждением)». Журнал Американской статистической ассоциации . 72 (360а): 789–827. дои : 10.1080/01621459.1977.10479956. JSTOR  2286460.
  • Мэйо, Д.Г. (1981) «В защиту теории доверительных интервалов Неймана-Пирсона», Philosophy of Science , 48 (2), 269–280. JSTOR  187185.
  • Мехта, С. (2014) Темы статистики . ISBN 978-1-4992-7353-3
  • Мори, РД; Хоекстра, Р.; Рудер, Дж. Н.; Ли, доктор медицины; Вагенмейкерс, Э.-Ж. (2016). «Ошибка доверия к доверительным интервалам». Психономический бюллетень и обзор . 23 (1): 103–123. дои : 10.3758/s13423-015-0947-8. ПМЦ  4742505 . ПМИД  26450628.
  • Нейман, Дж. (1937) «Очерк теории статистической оценки, основанной на классической теории вероятностей», Философские труды Лондонского королевского общества, A, 236, 333–380. (Основательная работа)
  • Робинсон, ГК (1975). «Некоторые контрпримеры к теории доверительных интервалов». Биометрика . 62 (1): 155–161. дои : 10.1093/biomet/62.1.155. JSTOR  2334498.
  • Сэвидж, LJ (1962), Основы статистических выводов . Метуэн, Лондон.
  • Смитсон, М. (2003) Доверительные интервалы . Количественные приложения в серии социальных наук, № 140. Белмонт, Калифорния: Публикации SAGE. ISBN 978-0-7619-2499-9

Внешние ссылки