Неформально, в частотной статистике доверительный интервал ( ДИ ) — это интервал, который, как ожидается, обычно содержит оцениваемый параметр . Более конкретно, при заданном уровне достоверности (95% и 99% являются типичными значениями), ДИ — это случайный интервал, который содержит оцениваемый параметр в % случаев. [1] [2] Уровень достоверности , степень достоверности или коэффициент достоверности представляет собой долгосрочную долю ДИ (при заданном уровне достоверности), которые теоретически содержат истинное значение параметра; это равносильно номинальной вероятности покрытия . Например, из всех интервалов, вычисленных на уровне 95%, 95% из них должны содержать истинное значение параметра. [3]
Факторы, влияющие на ширину доверительного интервала, включают размер выборки , изменчивость в выборке и уровень достоверности. [4] При прочих равных условиях, большая выборка дает более узкий доверительный интервал, большая изменчивость в выборке дает более широкий доверительный интервал, а более высокий уровень достоверности дает более широкий доверительный интервал. [5]
История
Методы расчета доверительных интервалов для биномиальной пропорции появились в 1920-х годах. [6] [7] Основные идеи доверительных интервалов в целом были разработаны в начале 1930-х годов, [8] [9] [10] а первое подробное и общее описание было дано Ежи Нейманом в 1937 году. [11]
Нейман описал развитие идей следующим образом (номера ссылок изменены): [10]
[Моя работа по доверительным интервалам] возникла около 1930 года из простого вопроса Вацлава Пытковского, тогда моего студента в Варшаве, занимавшегося эмпирическим исследованием экономики сельского хозяйства. Вопрос был: как охарактеризовать недогматически точность оценочного коэффициента регрессии? ...
Монография Пытковского... вышла в свет в 1932 году. [12] Так уж получилось, что несколько раньше Фишер опубликовал свою первую статью [13], посвященную фидуциальным распределениям и фидуциальным аргументам. Совершенно неожиданно, хотя концептуальная основа фидуциальных аргументов полностью отличается от доверительных интервалов, конкретные решения нескольких частных задач совпали. Так, в первой статье, в которой я представил теорию доверительных интервалов, опубликованной в 1934 году, [8] я признал приоритет Фишера в идее о том, что интервальная оценка возможна без какой-либо ссылки на теорему Байеса и с решением, независимым от вероятностей a priori . В то же время я мягко предположил, что подход Фишера к проблеме включал небольшое недопонимание.
В медицинских журналах доверительные интервалы были предложены в 1970-х годах, но стали широко использоваться только в 1980-х годах. [14] К 1988 году медицинские журналы стали требовать предоставления данных о доверительных интервалах. [15]
Определение
Пусть будет случайной выборкой из распределения вероятностей со статистическим параметром , который является величиной, подлежащей оценке, и , представляющей величины, которые не представляют непосредственного интереса. Доверительный интервал для параметра , с уровнем достоверности или коэффициентом , является интервалом, определяемым случайными величинами и обладающим свойством:
Число , типичное значение которого близко к 1, но не превышает его, иногда приводится в виде (или в процентах ), где — небольшое положительное число, часто 0,05.
Важно, чтобы границы и были указаны таким образом, чтобы при условии, что они собираются случайным образом, каждый раз, когда мы вычисляем доверительный интервал, была вероятность того, что он будет содержать , истинное значение оцениваемого параметра. Это должно быть справедливо для любых фактических и . [2]
Приблизительные доверительные интервалы
Во многих приложениях доверительные интервалы, которые имеют точно требуемый уровень доверия, трудно построить, но приблизительные интервалы могут быть вычислены. Правило построения интервала может быть принято как предоставляющее доверительный интервал на уровне, если
до приемлемого уровня приближения. В качестве альтернативы некоторые авторы [16] просто требуют, чтобы
называются консервативными ; [17] (стр. 210) соответственно, говорят о консервативных доверительных интервалах и, в целом, областях.
Желаемые свойства
При применении стандартных статистических процедур часто будут стандартные способы построения доверительных интервалов. Они будут разработаны так, чтобы соответствовать определенным желаемым свойствам, которые будут сохраняться при условии, что предположения, на которых основана процедура, верны. Эти желаемые свойства можно описать как: валидность, оптимальность и инвариантность.
Из этих трех наиболее важна «валидность», за которой следует «оптимальность». «Инвариантность» можно рассматривать как свойство метода вывода доверительного интервала, а не правила построения интервала. В нестандартных приложениях будут искаться те же самые желаемые свойства:
Действительность
Это означает, что номинальная вероятность покрытия (уровень достоверности) доверительного интервала должна соблюдаться либо точно, либо с хорошим приближением.
Оптимальность
Это означает, что правило построения доверительного интервала должно максимально использовать информацию в наборе данных.
Одним из способов оценки оптимальности является оценка по ширине интервала, так что правило построения доверительного интервала оценивается лучше другого, если оно приводит к интервалам, ширина которых обычно короче.
Инвариантность
Во многих приложениях оцениваемая величина может быть не так строго определена.
Например, опрос может привести к оценке медианного дохода в популяции, но его можно в равной степени рассматривать как предоставление оценки логарифма медианного дохода, учитывая, что это общепринятая шкала для представления графических результатов. Было бы желательно, чтобы метод, используемый для построения доверительного интервала для медианного дохода, давал эквивалентные результаты при применении к построению доверительного интервала для логарифма медианного дохода: в частности, значения на концах последнего интервала были бы логарифмами значений на концах предыдущего интервала.
Методы вывода
Для нестандартных приложений существует несколько путей, которые могут быть использованы для вывода правила построения доверительных интервалов. Установленные правила для стандартных процедур могут быть обоснованы или объяснены с помощью нескольких из этих путей. Обычно правило построения доверительных интервалов тесно связано с определенным способом нахождения точечной оценки рассматриваемой величины.
Сводная статистика
Это тесно связано с методом моментов для оценки. Возникает простой пример, когда оцениваемая величина — это среднее значение совокупности, в этом случае естественная оценка — это среднее значение выборки. Аналогично, дисперсия выборки может использоваться для оценки дисперсии совокупности. Доверительный интервал для истинного среднего может быть построен с центром на среднем значении выборки с шириной, кратной квадратному корню дисперсии выборки.
Теория правдоподобия
Оценки можно построить с использованием принципа максимального правдоподобия ; теория правдоподобия для этого предусматривает два способа построения доверительных интервалов или доверительных областей для оценок.
Оценочные уравнения
Подход к оценке здесь можно рассматривать как обобщение метода моментов и обобщение подхода максимального правдоподобия. Существуют соответствующие обобщения результатов теории максимального правдоподобия, которые позволяют строить доверительные интервалы на основе оценок, полученных из уравнений оценки . [ необходима цитата ]
Проверка гипотез
Если доступны проверки гипотез для общих значений параметра, то доверительные интервалы/области могут быть построены путем включения в область 100 p % доверительности всех тех точек, для которых проверка гипотезы нулевой гипотезы о том, что истинное значение является заданным значением, не отвергается на уровне значимости (1 − p ). [17] (§ 7.2 (iii))
Самонастройка
В ситуациях, когда распределительные предположения для вышеуказанных методов неопределенны или нарушены, методы повторной выборки позволяют построить доверительные интервалы или интервалы прогнозирования. Наблюдаемое распределение данных и внутренние корреляции используются в качестве суррогата для корреляций в более широкой популяции.
Центральная предельная теорема
Центральная предельная теорема является уточнением закона больших чисел . Для большого числа независимых одинаково распределенных случайных величин с конечной дисперсией среднее значение приблизительно имеет нормальное распределение, независимо от того, каково распределение , причем приближение примерно улучшается пропорционально . [2]
имеет распределение Стьюдента t со степенями свободы. [18] Обратите внимание, что распределение не зависит от значений ненаблюдаемых параметров и ; т.е. это ключевая величина . Предположим, что мы хотим вычислить 95% доверительный интервал для Тогда, обозначая как 97,5-й процентиль этого распределения,
Обратите внимание, что "97.5th" и "0.95" верны в предыдущих выражениях. Существует 2.5% вероятность того, что будет меньше , и 2.5% вероятность того, что будет больше. Таким образом, вероятность того, что будет между и составляет 95%. Это вероятностная мера по распределению Стьюдента.
Следовательно,
и у нас есть теоретический (стохастический) 95% доверительный интервал для Вот мера вероятности при неизвестном распределении .
После наблюдения за образцом мы находим значения для и для , из которых вычисляем доверительный интервал
Интерпретация
Можно дать различные интерпретации доверительного интервала (в качестве примера ниже взят 95% доверительный интервал).
Доверительный интервал можно выразить в терминах долгосрочной частоты в повторных выборках (или при повторной выборке ): «Если бы эта процедура была повторена для многочисленных выборок, доля рассчитанных 95% доверительных интервалов, которые охватывают истинное значение параметра популяции, стремилась бы к 95%» [19] .
Доверительный интервал может быть выражен в терминах вероятности относительно единственной теоретической (еще не реализованной) выборки: «Существует 95%-ная вероятность того, что 95%-ный доверительный интервал, рассчитанный для данной будущей выборки, будет охватывать истинное значение параметра популяции». [11] Это по сути переосмысливает интерпретацию «повторных выборок» как вероятность, а не частоту.
Доверительный интервал может быть выражен в терминах статистической значимости, например: «95% доверительный интервал представляет значения, которые статистически не отличаются от точечной оценки на уровне .05». [20]
Распространенные заблуждения
Доверительные интервалы и уровни часто неправильно понимаются, и опубликованные исследования показали, что даже профессиональные ученые часто неправильно их интерпретируют. [21] [22] [23] [24] [25] [26]
Уровень достоверности 95% не означает, что для данного реализованного интервала существует 95% вероятность того, что параметр популяции лежит в пределах интервала (т. е. 95% вероятность того, что интервал охватывает параметр популяции). [27] Согласно частотной интерпретации, как только интервал рассчитан, этот интервал либо охватывает значение параметра, либо нет; это уже не вопрос вероятности. 95% вероятность относится к надежности процедуры оценки, а не к конкретному рассчитанному интервалу. [28] Сам Нейман (первоначальный сторонник доверительных интервалов) высказал эту точку зрения в своей оригинальной статье: [11]
Следует отметить, что в приведенном выше описании утверждения о вероятности относятся к проблемам оценки, с которыми статистик будет иметь дело в будущем. Фактически, я неоднократно заявлял, что частота правильных результатов будет стремиться к α . Рассмотрим теперь случай, когда выборка уже взята, и расчеты дали [определенные пределы]. Можем ли мы сказать, что в этом конкретном случае вероятность истинного значения [попадания в эти пределы] равна α ? Ответ, очевидно, отрицательный. Параметр является неизвестной константой, и относительно его значения нельзя сделать никаких утверждений о вероятности...
Уровень достоверности 95% не означает, что 95% данных выборки лежат в пределах доверительного интервала.
Уровень достоверности 95% не означает, что существует 95% вероятность того, что оценка параметра, полученная при повторении эксперимента, попадет в доверительный интервал, вычисленный для данного эксперимента. [25]
Примеры того, как наивная интерпретация доверительных интервалов может быть проблематичной
Уэлч [29] представил пример, который ясно показывает разницу между теорией доверительных интервалов и другими теориями оценки интервалов (включая фидуциальные интервалы Фишера и объективные байесовские интервалы). Робинсон [30] назвал этот пример «[возм]ожно самым известным контрпримером для версии теории доверительных интервалов Неймана». Для Уэлча он показал превосходство теории доверительных интервалов; для критиков теории он показал ее недостаток. Здесь мы представляем упрощенную версию.
Предположим, что являются независимыми наблюдениями из равномерного распределения. Тогда оптимальная процедура 50%-ного доверия для [ 31]
Для получения интервальной оценки можно использовать фидуциарный или объективный байесовский аргумент.
что также является процедурой с 50%-ной уверенностью. Уэлч показал, что первая процедура доверия доминирует над второй, согласно желаемым данным из теории доверительных интервалов; для каждого вероятность того, что первая процедура содержит , меньше или равна вероятности того, что вторая процедура содержит . Средняя ширина интервалов из первой процедуры меньше, чем у второй. Следовательно, первая процедура предпочтительнее в рамках классической теории доверительных интервалов.
Однако, когда , интервалы из первой процедуры гарантированно содержат истинное значение : Таким образом, номинальный 50%-ный коэффициент доверия не связан с неопределенностью, которую мы должны иметь, что определенный интервал содержит истинное значение. Вторая процедура не имеет этого свойства.
Более того, когда первая процедура генерирует очень короткий интервал, это указывает на то, что они очень близки друг к другу и, следовательно, предлагают информацию только в одной точке данных. Однако первый интервал исключит почти все разумные значения параметра из-за своей короткой ширины. Вторая процедура не обладает этим свойством.
Два контринтуитивных свойства первой процедуры — 100% покрытие , когда они далеко друг от друга, и почти 0% покрытие, когда они близко друг к другу — уравновешиваются, давая в среднем 50% покрытие. Однако, несмотря на то, что первая процедура является оптимальной, ее интервалы не дают ни оценки точности оценки, ни оценки неопределенности, которую следует иметь, чтобы интервал содержал истинное значение.
Этот пример используется для аргументации против наивных интерпретаций доверительных интервалов. Если утверждается, что доверительная процедура имеет свойства, выходящие за пределы номинального покрытия (например, отношение к точности или отношение к байесовскому выводу), эти свойства должны быть доказаны; они не следуют из того факта, что процедура является доверительной процедурой.
Процедура подтверждения подлинностиω2
Стейгер [32] предложил ряд процедур определения достоверности для общих мер размера эффекта в ANOVA . Мори и др. [27] отмечают, что некоторые из этих процедур определения достоверности, включая процедуру для ω 2 , обладают тем свойством, что по мере того, как статистика F становится все меньше — что указывает на несоответствие всем возможным значениям ω 2 — доверительный интервал сужается и может даже содержать только одно значение ω 2 = 0; то есть доверительный интервал становится бесконечно узким (это происходит, когда для доверительного интервала).
Такое поведение согласуется с отношением между процедурой достоверности и проверкой значимости : поскольку F становится настолько малым, что групповые средние оказываются гораздо ближе друг к другу, чем мы могли бы ожидать случайно, проверка значимости может указывать на отклонение для большинства или всех значений ω 2 . Следовательно, интервал будет очень узким или даже пустым (или, по соглашению, предложенному Штайгером, содержащим только 0). Однако это не означает , что оценка ω 2 очень точна. В некотором смысле это указывает на обратное: что достоверность самих результатов может быть под вопросом. Это противоречит общепринятой интерпретации доверительных интервалов, согласно которой они раскрывают точность оценки.
^ Хазра, Авиджит (октябрь 2017 г.). «Уверенное использование доверительного интервала». Журнал торакальных заболеваний . 9 (10): 4125–4130. doi : 10.21037/jtd.2017.09.14 . ISSN 2072-1439. PMC 5723800. PMID 29268424 .
^ Кхаре, Викас; Нема, Савита; Баредар, Прашант (2020). Моделирование и имитация энергии океана с использованием вычислительного интеллекта больших данных для оптимизации системы и интеграции сетей. Баттерворт-Хайнеманн. ISBN978-0-12-818905-4. OCLC 1153294021.
^ Эдвин Б. Уилсон (1927) Вероятный вывод, закон наследования и статистический вывод, Журнал Американской статистической ассоциации, 22:158, 209-212, https://doi.org/10.1080/01621459.1927.10502953
^ CJ Clopper, ES Pearson, Использование доверительных или фидуциарных пределов, проиллюстрированное в случае биномиального распределения, Biometrika 26(4), 1934, страницы 404–413, https://doi.org/10.1093/biomet/26.4.404
^ ab Neyman, J. (1934). О двух различных аспектах репрезентативного метода: метод стратифицированной выборки и метод целенаправленного отбора. Журнал Королевского статистического общества, 97(4), 558–625. https://doi.org/10.2307/2342192 (см. Примечание I в приложении)
^ J. Neyman (1935), Ann. Math. Statist. 6(3): 111-116 (сентябрь 1935 г.). https://doi.org/10.1214/aoms/1177732585
^ ab Neyman, J. (1970). Взгляд на некоторые из моих личных впечатлений в процессе исследования. В Scientists at Work: Festschrift in honor of Herman Wold. Под редакцией T. Dalenius, G. Karlsson, S. Malmquist. Almqvist & Wiksell, Стокгольм. https://worldcat.org/en/title/195948
^ Пытковский, В., Зависимость дохода в мелких фермах от их площади, затрат и капитала, вложенного в коров. (Резюме на польском, английском языках) Bibliotaka Palawska, 1932.
^ Фишер, Р. (1930). Обратная вероятность. Математические труды Кембриджского философского общества, 26(4), 528-535. https://doi.org/10.1017/S0305004100016297
^ Альтман, Дуглас Г. (1991). «Статистика в медицинских журналах: Развитие в 1980-х». Статистика в медицине . 10 (12): 1897–1913. doi :10.1002/sim.4780101206. ISSN 1097-0258. PMID 1805317.
^ Гарднер, Мартин Дж.; Альтман, Дуглас Г. (1988). «Оценка с уверенностью». British Medical Journal . 296 (6631): 1210–1211. doi :10.1136/bmj.296.6631.1210. PMC 2545695. PMID 3133015 .
^ Руссас, Джордж Г. (1997). Курс математической статистики (2-е изд.). Academic Press. стр. 397.
^ ab Cox, DR; Hinkley, DV (1974). Теоретическая статистика . Chapman & Hall.
^ Риз, Д. Г. (2001). Essential Statistics , 4-е издание, Chapman and Hall/CRC. ISBN 1-58488-007-4 (Раздел 9.5)
^ Кокс DR, Хинкли DV (1974) Теоретическая статистика , Чапман и Холл, стр. 49, стр. 209
^ Понимание учеными доверительных интервалов не внушает доверия, Science News , 3 июля 2014 г.
^ ab Гринленд, Сандер; Сенн, Стивен Дж.; Ротман, Кеннет Дж.; Карлин, Джон Б.; Пул, Чарльз; Гудман, Стивен Н.; Альтман, Дуглас Г. (апрель 2016 г.). «Статистические тесты, значения P, доверительные интервалы и мощность: руководство по неверным интерпретациям». Европейский журнал эпидемиологии . 31 (4): 337–350. doi :10.1007/s10654-016-0149-3. ISSN 0393-2990. PMC 4877414. PMID 27209009 .
^ Хельске, Йоуни; Хельске, Сату; Купер, Мэтью; Иннерман, Андерс; Безансон, Лонни (2021-08-01). «Может ли визуализация облегчить дихотомическое мышление? Влияние визуальных представлений на эффект обрыва». Труды IEEE по визуализации и компьютерной графике . 27 (8). Институт инженеров по электротехнике и электронике (IEEE): 3397–3409. arXiv : 2002.07671 . doi : 10.1109/tvcg.2021.3073466. ISSN 1077-2626. PMID 33856998. S2CID 233230810.
^ "1.3.5.2. Доверительные пределы для среднего". nist.gov . Архивировано из оригинала 2008-02-05 . Получено 2014-09-16 .
^ Уэлч, Б. Л. (1939). «О пределах достоверности и достаточности с особым акцентом на параметры местоположения». Анналы математической статистики . 10 (1): 58–69. doi : 10.1214/aoms/1177732246 . JSTOR 2235987.
^ Робинсон, Г. К. (1975). «Некоторые контрпримеры к теории доверительных интервалов». Biometrika . 62 (1): 155–161. doi :10.2307/2334498. JSTOR 2334498.
^ Pratt, JW (1961). «Обзор книги: Проверка статистических гипотез. by EL Lehmann». Журнал Американской статистической ассоциации . 56 (293): 163–167. doi :10.1080/01621459.1961.10482103. JSTOR 2282344.
^ Штайгер, Дж. Х. (2004). «За пределами F-теста: доверительные интервалы размера эффекта и тесты близкого соответствия в дисперсионном и контрастном анализе». Психологические методы . 9 (2): 164–182. doi :10.1037/1082-989x.9.2.164. PMID 15137887.
Keeping, ES (1962) Введение в статистический вывод. D. Van Nostrand, Принстон, Нью-Джерси.
Кифер, Дж. (1977). «Условные доверительные утверждения и оценки достоверности (с обсуждением)». Журнал Американской статистической ассоциации . 72 (360a): 789–827. doi :10.1080/01621459.1977.10479956. JSTOR 2286460.
Майо, Д.Г. (1981) «В защиту теории доверительных интервалов Неймана–Пирсона», Философия науки , 48 (2), 269–280. JSTOR 187185.
Нейман, Дж. (1937) «Очерк теории статистической оценки, основанной на классической теории вероятностей» Философские труды Лондонского королевского общества, A, 236 , 333–380. (Основополагающая работа)
Робинсон, Г. К. (1975). «Некоторые контрпримеры к теории доверительных интервалов». Biometrika . 62 (1): 155–161. doi :10.1093/biomet/62.1.155. JSTOR 2334498.
Сэвидж, Л. Дж. (1962), Основы статистического вывода . Метуэн, Лондон.
Смитсон, М. (2003) Доверительные интервалы . Количественные приложения в серии социальных наук, № 140. Белмонт, Калифорния: SAGE Publications. ISBN 978-0-7619-2499-9 .
Внешние ссылки
На Викискладе есть медиафайлы по теме «Доверительный интервал» .
Учебные программы Exploratory Software for Confidence Intervals, работающие в Excel
Калькуляторы доверительных интервалов для R-квадратов, коэффициентов регрессии и точек пересечения регрессии
CAUSEweb.org Множество ресурсов для обучения статистике, включая доверительные интервалы.
Интерактивное введение в доверительные интервалы
Доверительные интервалы: уровень достоверности, размер выборки и погрешность Эрика Шульца, проект Wolfram Demonstrations .
Доверительные интервалы в здравоохранении Архивировано 09.08.2016 в Wayback Machine . Простое описание с примерами и что делать с малыми размерами выборки или показателями, близкими к 0.