stringtranslate.com

Доверительный интервал

Каждая строка точек — это выборка из того же нормального распределения. Цветные линии — это 50% доверительные интервалы для среднего значения μ . В центре каждого интервала находится выборочное среднее значение, отмеченное ромбом. Синие интервалы содержат среднее значение популяции, а красные — нет.
Это распределение вероятностей выявляет некоторые различные доверительные интервалы.

Неформально, в частотной статистике доверительный интервал ( ДИ ) — это интервал, который, как ожидается, обычно содержит оцениваемый параметр . Более конкретно, при заданном уровне достоверности (95% и 99% являются типичными значениями), ДИ — это случайный интервал, который содержит оцениваемый параметр в % случаев. [1] [2] Уровень достоверности , степень достоверности или коэффициент достоверности представляет собой долгосрочную долю ДИ (при заданном уровне достоверности), которые теоретически содержат истинное значение параметра; это равносильно номинальной вероятности покрытия . Например, из всех интервалов, вычисленных на уровне 95%, 95% из них должны содержать истинное значение параметра. [3]

Факторы, влияющие на ширину доверительного интервала, включают размер выборки , изменчивость в выборке и уровень достоверности. [4] При прочих равных условиях, большая выборка дает более узкий доверительный интервал, большая изменчивость в выборке дает более широкий доверительный интервал, а более высокий уровень достоверности дает более широкий доверительный интервал. [5]

История

Методы расчета доверительных интервалов для биномиальной пропорции появились в 1920-х годах. [6] [7] Основные идеи доверительных интервалов в целом были разработаны в начале 1930-х годов, [8] [9] [10] а первое подробное и общее описание было дано Ежи Нейманом в 1937 году. [11]

Нейман описал развитие идей следующим образом (номера ссылок изменены): [10]

[Моя работа по доверительным интервалам] возникла около 1930 года из простого вопроса Вацлава Пытковского, тогда моего студента в Варшаве, занимавшегося эмпирическим исследованием экономики сельского хозяйства. Вопрос был: как охарактеризовать недогматически точность оценочного коэффициента регрессии? ...

Монография Пытковского... вышла в свет в 1932 году. [12] Так уж получилось, что несколько раньше Фишер опубликовал свою первую статью [13], посвященную фидуциальным распределениям и фидуциальным аргументам. Совершенно неожиданно, хотя концептуальная основа фидуциальных аргументов полностью отличается от доверительных интервалов, конкретные решения нескольких частных задач совпали. Так, в первой статье, в которой я представил теорию доверительных интервалов, опубликованной в 1934 году, [8] я признал приоритет Фишера в идее о том, что интервальная оценка возможна без какой-либо ссылки на теорему Байеса и с решением, независимым от вероятностей a priori . В то же время я мягко предположил, что подход Фишера к проблеме включал небольшое недопонимание.

В медицинских журналах доверительные интервалы были предложены в 1970-х годах, но стали широко использоваться только в 1980-х годах. [14] К 1988 году медицинские журналы стали требовать предоставления данных о доверительных интервалах. [15]

Определение

Пусть будет случайной выборкой из распределения вероятностей со статистическим параметром , который является величиной, подлежащей оценке, и , представляющей величины, которые не представляют непосредственного интереса. Доверительный интервал для параметра , с уровнем достоверности или коэффициентом , является интервалом, определяемым случайными величинами и обладающим свойством:

Число , типичное значение которого близко к 1, но не превышает его, иногда приводится в виде (или в процентах ), где — небольшое положительное число, часто 0,05.

Важно, чтобы границы и были указаны таким образом, чтобы при условии, что собирается случайным образом, каждый раз, когда мы вычисляем доверительный интервал, была вероятность того, что он будет содержать истинное значение оцениваемого параметра. Это должно быть справедливо для любых фактических и . [2]

Приблизительные доверительные интервалы

Во многих приложениях доверительные интервалы, которые имеют точно требуемый уровень доверия, трудно построить, но приблизительные интервалы могут быть вычислены. Правило построения интервала может быть принято как предоставляющее доверительный интервал на уровне, если

до приемлемого уровня приближения. В качестве альтернативы некоторые авторы [16] просто требуют, чтобы

что полезно, если вероятности определены лишь частично или неточны , а также при работе с дискретными распределениями . Пределы доверия вида

  и  

называются консервативными ; [17] (стр. 210) соответственно, говорят о консервативных доверительных интервалах и, в целом, областях.

Желаемые свойства

При применении стандартных статистических процедур часто будут стандартные способы построения доверительных интервалов. Они будут разработаны так, чтобы соответствовать определенным желаемым свойствам, которые будут сохраняться при условии, что предположения, на которых основана процедура, верны. Эти желаемые свойства можно описать как: валидность, оптимальность и инвариантность.

Из этих трех наиболее важна «валидность», за которой следует «оптимальность». «Инвариантность» можно рассматривать как свойство метода вывода доверительного интервала, а не правила построения интервала. В нестандартных приложениях будут искаться те же самые желаемые свойства:

Действительность

Это означает, что номинальная вероятность покрытия (уровень достоверности) доверительного интервала должна соблюдаться либо точно, либо с хорошим приближением.

Оптимальность

Это означает, что правило построения доверительного интервала должно максимально использовать информацию в наборе данных.

Одним из способов оценки оптимальности является оценка по ширине интервала, так что правило построения доверительного интервала оценивается лучше другого, если оно приводит к интервалам, ширина которых обычно короче.

Инвариантность

Во многих приложениях оцениваемая величина может быть не так строго определена.

Например, опрос может привести к оценке медианного дохода в популяции, но его можно в равной степени рассматривать как предоставление оценки логарифма медианного дохода, учитывая, что это общепринятая шкала для представления графических результатов. Было бы желательно, чтобы метод, используемый для построения доверительного интервала для медианного дохода, давал эквивалентные результаты при применении к построению доверительного интервала для логарифма медианного дохода: в частности, значения на концах последнего интервала были бы логарифмами значений на концах предыдущего интервала.

Методы вывода

Для нестандартных приложений существует несколько путей, которые могут быть использованы для вывода правила построения доверительных интервалов. Установленные правила для стандартных процедур могут быть обоснованы или объяснены с помощью нескольких из этих путей. Обычно правило построения доверительных интервалов тесно связано с определенным способом нахождения точечной оценки рассматриваемой величины.

Сводная статистика

Это тесно связано с методом моментов для оценки. Возникает простой пример, когда оцениваемая величина — это среднее значение совокупности, в этом случае естественная оценка — это среднее значение выборки. Аналогично, дисперсия выборки может использоваться для оценки дисперсии совокупности. Доверительный интервал для истинного среднего может быть построен с центром на среднем значении выборки с шириной, кратной квадратному корню дисперсии выборки.

Теория правдоподобия

Оценки можно построить с использованием принципа максимального правдоподобия ; теория правдоподобия для этого предусматривает два способа построения доверительных интервалов или доверительных областей для оценок.

Оценочные уравнения

Подход к оценке здесь можно рассматривать как обобщение метода моментов и обобщение подхода максимального правдоподобия. Существуют соответствующие обобщения результатов теории максимального правдоподобия, которые позволяют строить доверительные интервалы на основе оценок, полученных из уравнений оценки . [ необходима цитата ]

Проверка гипотез

Если доступны проверки гипотез для общих значений параметра, то доверительные интервалы/области могут быть построены путем включения в область 100 p  % доверительности всех тех точек, для которых проверка гипотезы нулевой гипотезы о том, что истинное значение является заданным значением, не отвергается на уровне значимости (1 − p ). [17] (§ 7.2 (iii))

Самозагрузка

В ситуациях, когда распределительные предположения для вышеуказанных методов неопределенны или нарушены, методы повторной выборки позволяют построить доверительные интервалы или интервалы прогнозирования. Наблюдаемое распределение данных и внутренние корреляции используются в качестве суррогата для корреляций в более широкой популяции.

Центральная предельная теорема

Центральная предельная теорема является уточнением закона больших чисел . Для большого числа независимых одинаково распределенных случайных величин с конечной дисперсией среднее значение приблизительно имеет нормальное распределение, независимо от того, каково распределение , причем приближение примерно улучшается пропорционально . [2]

Пример

На этой столбчатой ​​диаграмме верхние концы коричневых полос обозначают наблюдаемые средние значения, а красные сегменты линий (« полосы погрешности ») представляют доверительные интервалы вокруг них. Хотя полосы погрешности показаны симметричными относительно средних значений, это не всегда так. На большинстве графиков полосы погрешности не представляют доверительные интервалы (например, они часто представляют стандартные ошибки или стандартные отклонения).

Предположим, что есть независимая выборка из нормально распределенной популяции с неизвестными параметрами среднего значения и дисперсии. Пусть

Где — выборочное среднее , а — выборочная дисперсия . Тогда

имеет распределение Стьюдента t со степенями свободы. [18] Обратите внимание, что распределение не зависит от значений ненаблюдаемых параметров и ; т.е. это ключевая величина . Предположим, что мы хотим вычислить 95% доверительный интервал для Тогда, обозначая как 97,5-й процентиль этого распределения,

Обратите внимание, что "97.5th" и "0.95" верны в предыдущих выражениях. Существует 2.5% вероятность того, что будет меньше , и 2.5% вероятность того, что будет больше. Таким образом, вероятность того, что будет между и составляет 95%. Это вероятностная мера по распределению Стьюдента.

Следовательно,

и у нас есть теоретический (стохастический) 95% доверительный интервал для Вот мера вероятности при неизвестном распределении .

После наблюдения за образцом мы находим значения для и для , из которых вычисляем доверительный интервал

Интерпретация

Можно дать различные интерпретации доверительного интервала (в качестве примера ниже взят 95% доверительный интервал).

Интерпретация 95% доверительного интервала с точки зрения статистической значимости.

Распространенные заблуждения

График 50 доверительных интервалов из 50 выборок, полученных с помощью нормального распределения.

Доверительные интервалы и уровни часто неправильно понимаются, и опубликованные исследования показали, что даже профессиональные ученые часто неправильно их интерпретируют. [21] [22] [23] [24] [25] [26]

Примеры того, как наивная интерпретация доверительных интервалов может быть проблематичной

Процедура подтверждения единообразного расположения

Уэлч [29] представил пример, который ясно показывает разницу между теорией доверительных интервалов и другими теориями интервальной оценки (включая фидуциальные интервалы Фишера и объективные байесовские интервалы). Робинсон [30] назвал этот пример «[возм]ожно самым известным контрпримером для версии теории доверительных интервалов Неймана». Для Уэлча он показал превосходство теории доверительных интервалов; для критиков теории он показал ее недостаток. Здесь мы представляем упрощенную версию.

Предположим, что являются независимыми наблюдениями из равномерного распределения. Тогда оптимальная процедура 50%-ного доверия для [ 31]

Для получения интервальной оценки можно использовать фидуциарный или объективный байесовский аргумент.

что также является процедурой с 50%-ной уверенностью. Уэлч показал, что первая процедура доверия доминирует над второй, согласно desiderata из теории доверительных интервалов; для каждого вероятность того, что первая процедура содержит , меньше или равна вероятности того, что вторая процедура содержит . Средняя ширина интервалов из первой процедуры меньше, чем у второй. Следовательно, первая процедура предпочтительнее в рамках классической теории доверительных интервалов.

Однако, когда , интервалы из первой процедуры гарантированно содержат истинное значение : Таким образом, номинальный 50%-ный доверительный коэффициент не связан с неопределенностью, которую мы должны иметь, что определенный интервал содержит истинное значение. Вторая процедура не имеет этого свойства.

Более того, когда первая процедура генерирует очень короткий интервал, это указывает на то, что они очень близки друг к другу и, следовательно, предлагают информацию только в одной точке данных. Однако первый интервал исключит почти все разумные значения параметра из-за своей короткой ширины. Вторая процедура не обладает этим свойством.

Два контринтуитивных свойства первой процедуры — 100% покрытие , когда они далеко друг от друга, и почти 0% покрытие, когда они близко друг к другу — уравновешиваются, давая в среднем 50% покрытие. Однако, несмотря на то, что первая процедура является оптимальной, ее интервалы не дают ни оценки точности оценки, ни оценки неопределенности, которую следует иметь, чтобы интервал содержал истинное значение.

Этот пример используется для аргументации против наивных интерпретаций доверительных интервалов. Если утверждается, что доверительная процедура имеет свойства, выходящие за пределы номинального покрытия (например, отношение к точности или отношение к байесовскому выводу), эти свойства должны быть доказаны; они не следуют из того факта, что процедура является доверительной процедурой.

Процедура подтверждения подлинностиω2

Стейгер [32] предложил ряд процедур определения достоверности для общих мер размера эффекта в ANOVA . Мори и др. [27] отмечают, что некоторые из этих процедур определения достоверности, включая процедуру для ω 2 , обладают тем свойством, что по мере того, как статистика F становится все меньше — что указывает на несоответствие всем возможным значениям ω 2 — доверительный интервал сужается и может даже содержать только одно значение ω 2  = 0; то есть доверительный интервал становится бесконечно узким (это происходит, когда для доверительного интервала).

Такое поведение согласуется с отношением между процедурой достоверности и проверкой значимости : поскольку F становится настолько малым, что групповые средние оказываются гораздо ближе друг к другу, чем мы могли бы ожидать случайно, проверка значимости может указывать на отклонение для большинства или всех значений ω 2 . Следовательно, интервал будет очень узким или даже пустым (или, по соглашению, предложенному Штайгером, содержащим только 0). Однако это не означает , что оценка ω 2 очень точна. В некотором смысле это указывает на обратное: что достоверность самих результатов может быть под вопросом. Это противоречит общепринятой интерпретации доверительных интервалов, согласно которой они раскрывают точность оценки.

Смотрите также

Доверительный интервал для конкретных распределений

Ссылки

  1. ^ Зар, ​​Джерролд Х. (199). Биостатистический анализ (4-е изд.). Верхняя Сэддл-Ривер, Нью-Джерси: Prentice Hall. стр. 43–45. ISBN 978-0130815422. OCLC  39498633.
  2. ^ abc Деккинг, Фредерик Мишель; Краайкамп, Корнелис; Лопухаа, Хендрик Пауль; Мистер, Людольф Эрвин (2005). «Современное введение в вероятность и статистику». Тексты Спрингера в статистике . дои : 10.1007/1-84628-168-7. ISBN 978-1-85233-896-1. ISSN  1431-875X.
  3. ^ Илловски, Барбара. Вводная статистика . Дин, Сьюзан Л., 1945 г.р., Илловски, Барбара, Колледж OpenStax. Хьюстон, Техас. ISBN 978-1-947172-05-0. OCLC  899241574.
  4. ^ Хазра, Авиджит (октябрь 2017 г.). «Уверенное использование доверительного интервала». Журнал торакальных заболеваний . 9 (10): 4125–4130. doi : 10.21037/jtd.2017.09.14 . ISSN  2072-1439. PMC 5723800. PMID 29268424  . 
  5. ^ Кхаре, Викас; Нема, Савита; Баредар, Прашант (2020). Моделирование и имитация энергии океана с использованием вычислительного интеллекта больших данных для оптимизации системы и интеграции сетей. Баттерворт-Хайнеманн. ISBN 978-0-12-818905-4. OCLC  1153294021.
  6. ^ Эдвин Б. Уилсон (1927) Вероятный вывод, закон наследования и статистический вывод, Журнал Американской статистической ассоциации, 22:158, 209-212, https://doi.org/10.1080/01621459.1927.10502953
  7. ^ CJ Clopper, ES Pearson, Использование доверительных или фидуциарных пределов, проиллюстрированное в случае биномиального распределения, Biometrika 26(4), 1934, страницы 404–413, https://doi.org/10.1093/biomet/26.4.404
  8. ^ ab Neyman, J. (1934). О двух различных аспектах репрезентативного метода: метод стратифицированной выборки и метод целенаправленного отбора. Журнал Королевского статистического общества, 97(4), 558–625. https://doi.org/10.2307/2342192 (см. Примечание I в приложении)
  9. ^ J. Neyman (1935), Ann. Math. Statist. 6(3): 111-116 (сентябрь 1935 г.). https://doi.org/10.1214/aoms/1177732585
  10. ^ ab Neyman, J. (1970). Взгляд на некоторые из моих личных впечатлений в процессе исследования. В Scientists at Work: Festschrift in honor of Herman Wold. Под редакцией T. Dalenius, G. Karlsson, S. Malmquist. Almqvist & Wiksell, Стокгольм. https://worldcat.org/en/title/195948
  11. ^ abc Нейман, Дж. (1937). «Очерк теории статистической оценки, основанной на классической теории вероятностей». Philosophical Transactions of the Royal Society A. 236 ( 767): 333–380. Bibcode :1937RSPTA.236..333N. doi : 10.1098/rsta.1937.0005 . JSTOR  91337.
  12. ^ Пытковский, В., Зависимость дохода в мелких фермах от их площади, затрат и капитала, вложенного в коров. (Резюме на польском, английском языках) Bibliotaka Palawska, 1932.
  13. ^ Фишер, Р. (1930). Обратная вероятность. Математические труды Кембриджского философского общества, 26(4), 528-535. https://doi.org/10.1017/S0305004100016297
  14. ^ Альтман, Дуглас Г. (1991). «Статистика в медицинских журналах: Развитие в 1980-х». Статистика в медицине . 10 (12): 1897–1913. doi :10.1002/sim.4780101206. ISSN  1097-0258. PMID  1805317.
  15. ^ Гарднер, Мартин Дж.; Альтман, Дуглас Г. (1988). «Оценка с уверенностью». British Medical Journal . 296 (6631): 1210–1211. doi :10.1136/bmj.296.6631.1210. PMC 2545695. PMID  3133015 . 
  16. ^ Руссас, Джордж Г. (1997). Курс математической статистики (2-е изд.). Academic Press. стр. 397.
  17. ^ ab Cox, DR; Hinkley, DV (1974). Теоретическая статистика . Chapman & Hall.
  18. ^ Риз, Д. Г. (2001). Essential Statistics , 4-е издание, Chapman and Hall/CRC. ISBN 1-58488-007-4 (Раздел 9.5) 
  19. ^ Кокс DR, Хинкли DV (1974) Теоретическая статистика , Чапман и Холл, стр. 49, стр. 209
  20. ^ Кокс DR, Хинкли DV (1974) Теоретическая статистика, Chapman & Hall, стр. 214, 225, 233
  21. ^ Калиновский, Павел (2010). «Выявление заблуждений о доверительных интервалах» (PDF) . Получено 22.12.2021 .
  22. ^ "Архивная копия" (PDF) . Архивировано из оригинала (PDF) 2016-03-04 . Получено 2014-09-16 .{{cite web}}: CS1 maint: archived copy as title (link)
  23. ^ Hoekstra, R., RD ​​Morey, JN Rouder и EJ. Wagenmakers, 2014. Надежная неверная интерпретация доверительных интервалов. Psychonomic Bulletin & Review Vol. 21, No. 5, стр. 1157-1164. [1]
  24. ^ Понимание учеными доверительных интервалов не внушает доверия, Science News , 3 июля 2014 г.
  25. ^ ab Гринленд, Сандер; Сенн, Стивен Дж.; Ротман, Кеннет Дж.; Карлин, Джон Б.; Пул, Чарльз; Гудман, Стивен Н.; Альтман, Дуглас Г. (апрель 2016 г.). «Статистические тесты, значения P, доверительные интервалы и мощность: руководство по неверным интерпретациям». Европейский журнал эпидемиологии . 31 (4): 337–350. doi :10.1007/s10654-016-0149-3. ISSN  0393-2990. PMC 4877414. PMID  27209009 . 
  26. ^ Хельске, Йоуни; Хельске, Сату; Купер, Мэтью; Иннерман, Андерс; Безансон, Лонни (2021-08-01). «Может ли визуализация облегчить дихотомическое мышление? Влияние визуальных представлений на эффект обрыва». Труды IEEE по визуализации и компьютерной графике . 27 (8). Институт инженеров по электротехнике и электронике (IEEE): 3397–3409. arXiv : 2002.07671 . doi : 10.1109/tvcg.2021.3073466. ISSN  1077-2626. PMID  33856998. S2CID  233230810.
  27. ^ ab Morey, RD; Hoekstra, R.; Rouder, JN; Lee, MD; Wagenmakers, E.-J. (2016 ) . «Ошибка размещения уверенности в интервалах уверенности». Psychonomic Bulletin & Review . 23 (1): 103–123. doi :10.3758/s13423-015-0947-8. PMC 4742505. PMID  26450628. 
  28. ^ "1.3.5.2. Доверительные пределы для среднего". nist.gov . Архивировано из оригинала 2008-02-05 . Получено 2014-09-16 .
  29. ^ Уэлч, Б. Л. (1939). «О пределах достоверности и достаточности с особым акцентом на параметры местоположения». Анналы математической статистики . 10 (1): 58–69. doi : 10.1214/aoms/1177732246 . JSTOR  2235987.
  30. ^ Робинсон, Г. К. (1975). «Некоторые контрпримеры к теории доверительных интервалов». Biometrika . 62 (1): 155–161. doi :10.2307/2334498. JSTOR  2334498.
  31. ^ Pratt, JW (1961). «Обзор книги: Проверка статистических гипотез. by EL Lehmann». Журнал Американской статистической ассоциации . 56 (293): 163–167. doi :10.1080/01621459.1961.10482103. JSTOR  2282344.
  32. ^ Штайгер, Дж. Х. (2004). «За пределами F-теста: доверительные интервалы размера эффекта и тесты близкого соответствия в дисперсионном и контрастном анализе». Психологические методы . 9 (2): 164–182. doi :10.1037/1082-989x.9.2.164. PMID  15137887.

Библиография

  • «Оценка достоверности», Энциклопедия математики , EMS Press , 2001 [1994]
  • Фишер, РА (1956) Статистические методы и научный вывод. Оливер и Бойд, Эдинбург. (См. стр. 32.)
  • Фройнд, Дж. Э. (1962) Математическая статистика Prentice Hall, Энглвуд Клиффс, Нью-Джерси. (См. стр. 227–228.)
  • Хакинг, И. (1965) Логика статистического вывода. Cambridge University Press, Кембридж. ISBN 0-521-05165-7 
  • Keeping, ES (1962) Введение в статистический вывод. D. Van Nostrand, Принстон, Нью-Джерси.
  • Кифер, Дж. (1977). «Условные утверждения об уверенности и оценки уверенности (с обсуждением)». Журнал Американской статистической ассоциации . 72 (360a): 789–827. doi :10.1080/01621459.1977.10479956. JSTOR  2286460.
  • Майо, Д.Г. (1981) «В защиту теории доверительных интервалов Неймана–Пирсона», Философия науки , 48 (2), 269–280. JSTOR  187185.
  • Мехта, С. (2014) Статистические темы . ISBN 978-1-4992-7353-3
  • Morey, RD; Hoekstra, R.; Rouder, JN; Lee, MD; Wagenmakers, E.-J. (2016). «Ошибочность размещения уверенности в доверительных интервалах». Psychonomic Bulletin & Review . 23 (1): 103–123. doi : 10.3758/s13423-015-0947-8. PMC  4742505. PMID  26450628.
  • Нейман, Дж. (1937) «Очерк теории статистической оценки, основанной на классической теории вероятностей» Философские труды Лондонского королевского общества, A, 236 , 333–380. (Основополагающая работа)
  • Робинсон, Г. К. (1975). «Некоторые контрпримеры к теории доверительных интервалов». Biometrika . 62 (1): 155–161. doi :10.1093/biomet/62.1.155. JSTOR  2334498.
  • Сэвидж, Л. Дж. (1962), Основы статистического вывода . Метуэн, Лондон.
  • Смитсон, М. (2003) Доверительные интервалы . Количественные приложения в серии социальных наук, № 140. Белмонт, Калифорния: SAGE Publications. ISBN 978-0-7619-2499-9

Внешние ссылки