Бутстрэппинг — это процедура оценки распределения оценщика путем повторной выборки (часто с заменой ) собственных данных или модели, оцененной на основе данных. [1] Бутстрэппинг назначает меры точности ( смещение , дисперсию, доверительные интервалы , ошибку прогнозирования и т. д.) выборочным оценкам. [2] [3] Этот метод позволяет оценить выборочное распределение практически любой статистики с использованием методов случайной выборки. [1]
Бутстрап оценивает свойства оценочной величины (например, ее дисперсию ) путем измерения этих свойств при выборке из аппроксимирующего распределения. Одним из стандартных вариантов аппроксимирующего распределения является эмпирическая функция распределения наблюдаемых данных. В случае, когда можно предположить, что набор наблюдений относится к независимой и одинаково распределенной популяции, это может быть реализовано путем построения ряда повторных выборок с заменой наблюдаемого набора данных (и равного размеру наблюдаемого набора данных). Ключевым результатом в основополагающей статье Эфрона, которая представила бутстрап [4], является благоприятная производительность методов бутстрапа, использующих выборку с заменой, по сравнению с предыдущими методами, такими как складной нож , который делает выборку без замены. Однако с момента его появления было предложено множество вариантов бутстрапа, включая методы, которые делают выборку без замены или которые создают бутстрап-выборки большего или меньшего размера, чем исходные данные.
Бутстрап также может использоваться для построения тестов гипотез . [5] Он часто используется как альтернатива статистическому выводу , основанному на предположении параметрической модели, когда это предположение вызывает сомнения или когда параметрический вывод невозможен или требует сложных формул для расчета стандартных ошибок .
История
Бутстрап [a] был впервые описан Брэдли Эфроном в работе «Методы бутстрапа: другой взгляд на складной нож» (1979), [4] вдохновленной более ранней работой по складному ножу . [6] [7] [8] Улучшенные оценки дисперсии были разработаны позже. [9] [10] Байесовское расширение было разработано в 1981 году. [11]
Скорректированный по смещению и ускоренный ( ) бутстрап был разработан Эфроном в 1987 году, [12] а приближенная процедура доверительного интервала бутстрапа (ABC, или приблизительная ) — в 1992 году. [13]
Подход
Основная идея бутстрапа заключается в том, что вывод о популяции из выборочных данных (выборка → популяция) может быть смоделирован путем повторной выборки выборочных данных и выполнения вывода о выборке из повторно выбранных данных (повторная выборка → выборка). [14] Поскольку популяция неизвестна, истинная ошибка в статистике выборки по отношению к ее значению популяции неизвестна. В бутстрапе-повторной выборке «популяция» на самом деле является выборкой, и это известно; следовательно, качество вывода «истинной» выборки из повторно выбранных данных (повторная выборка → выборка) измеримо.
Более формально, бутстрап работает, рассматривая вывод истинного распределения вероятностей J , учитывая исходные данные, как аналог вывода эмпирического распределения Ĵ , учитывая повторно выбранные данные. Точность выводов относительно Ĵ с использованием повторно выбранных данных может быть оценена, поскольку мы знаем Ĵ . Если Ĵ является разумным приближением к J , то качество вывода по J в свою очередь может быть выведено.
В качестве примера предположим, что нас интересует средний (или среднее ) рост людей во всем мире. Мы не можем измерить всех людей в мировой популяции, поэтому вместо этого мы выбираем только крошечную ее часть и измеряем ее. Предположим, что выборка имеет размер N ; то есть мы измеряем рост N человек. Из этой единственной выборки можно получить только одну оценку среднего значения. Чтобы рассуждать о популяции, нам нужно некоторое представление об изменчивости среднего значения, которое мы вычислили. Самый простой метод бутстрапа заключается в том, чтобы взять исходный набор данных о росте и, используя компьютер, сделать из него выборку для формирования новой выборки (называемой «повторной выборкой» или бутстрап-выборкой), которая также имеет размер N . Бутстрап-выборка берется из оригинала с помощью выборки с заменой (например, мы можем «перевыбрать» 5 раз из [1,2,3,4,5] и получить [2,5,4,4,1]), поэтому, предполагая, что N достаточно велико, для всех практических целей существует практически нулевая вероятность того, что она будет идентична исходной «реальной» выборке. Этот процесс повторяется большое количество раз (обычно 1000 или 10 000 раз), и для каждой из этих бутстрап-выборок мы вычисляем ее среднее значение (каждое из них называется «бутстрап-оценкой»). Теперь мы можем создать гистограмму бутстрап-средних значений. Эта гистограмма дает оценку формы распределения выборочного среднего значения, из которой мы можем ответить на вопросы о том, насколько среднее значение варьируется между выборками. (Метод, описанный здесь для среднего значения, может быть применен практически к любой другой статистике или оценщику .)
Обсуждение
Преимущества
Большим преимуществом бутстрапа является его простота. Это простой способ получения оценок стандартных ошибок и доверительных интервалов для сложных оценок распределения, таких как процентильные точки, пропорции, отношение шансов и коэффициенты корреляции. Однако, несмотря на свою простоту, бутстрап может применяться к сложным планам выборки (например, для популяции, разделенной на s страт с n s наблюдениями на страту, бутстрап может применяться для каждой страты). [15] Бутстрап также является подходящим способом контроля и проверки стабильности результатов. Хотя для большинства задач невозможно узнать истинный доверительный интервал, бутстрап асимптотически более точен, чем стандартные интервалы, полученные с использованием дисперсии выборки и предположений о нормальности. [16] Бутстрап также является удобным методом, который позволяет избежать затрат на повторение эксперимента для получения других групп данных выборки.
Недостатки
Бутстрапирование сильно зависит от используемой оценки, и, хотя простое, наивное использование бутстрапа не всегда даст асимптотически верные результаты и может привести к несоответствию. [17] Хотя бутстрапирование (при некоторых условиях) асимптотически последовательно , оно не дает общих гарантий конечной выборки. Результат может зависеть от репрезентативной выборки. Кажущаяся простота может скрывать тот факт, что при проведении бутстрап-анализа делаются важные предположения (например, независимость выборок или достаточно большой размер выборки), тогда как в других подходах они были бы более формально заявлены. Кроме того, бутстрапирование может занять много времени, и для бутстрапирования не так много доступного программного обеспечения, поскольку его трудно автоматизировать с использованием традиционных статистических компьютерных пакетов. [15]
Рекомендации
Ученые рекомендовали больше образцов бутстрапа по мере увеличения доступной вычислительной мощности. Если результаты могут иметь существенные последствия в реальном мире, то следует использовать столько образцов, сколько разумно, учитывая доступную вычислительную мощность и время. Увеличение количества образцов не может увеличить объем информации в исходных данных; оно может только уменьшить влияние случайных ошибок выборки, которые могут возникнуть из-за самой процедуры бутстрапа. Более того, есть доказательства того, что количество образцов больше 100 приводит к незначительным улучшениям в оценке стандартных ошибок. [18] Фактически, по словам первоначального разработчика метода бутстрапа, даже установка количества образцов на уровне 50, вероятно, приведет к довольно хорошим оценкам стандартной ошибки. [19]
Адер и др. рекомендуют процедуру самонастройки в следующих ситуациях: [20]
Когда теоретическое распределение интересующей статистики сложное или неизвестно. Поскольку процедура бутстрапинга не зависит от распределения, она обеспечивает косвенный метод оценки свойств распределения, лежащего в основе выборки, и интересующих параметров, которые выводятся из этого распределения.
Когда размер выборки недостаточен для прямого статистического вывода. Если базовое распределение хорошо известно, бутстрапирование позволяет учесть искажения, вызванные конкретной выборкой, которая может не быть полностью репрезентативной для популяции.
Когда необходимо выполнить расчеты мощности и доступна небольшая пилотная выборка. Большинство расчетов мощности и размера выборки в значительной степени зависят от стандартного отклонения интересующей статистики. Если используемая оценка неверна, требуемый размер выборки также будет неверным. Один из методов получения впечатления об изменении статистики — использовать небольшую пилотную выборку и выполнить бутстреппинг на ней, чтобы получить впечатление о дисперсии.
Однако Атрея показала [21] , что если выполнить наивный бутстрап на выборочном среднем, когда базовая популяция не имеет конечной дисперсии (например, распределение степенного закона ), то распределение бутстрапа не будет сходиться к тому же пределу, что и выборочное среднее. В результате доверительные интервалы на основе моделирования бутстрапа Монте-Карло могут вводить в заблуждение. Атрея утверждает, что «если вы не уверены в том, что базовое распределение не имеет тяжелого хвоста , следует воздержаться от использования наивного бутстрапа».
Типы схем самозагрузки
В одномерных задачах обычно приемлемо повторное выделение отдельных наблюдений с заменой («повторное выделение случая» ниже) в отличие от подвыборки , в которой повторное выделение происходит без замены и допустимо при гораздо более слабых условиях по сравнению с бутстрапом. В небольших выборках может быть предпочтительнее параметрический подход бутстрапа. Для других задач, скорее всего, предпочтительнее будет плавный бутстрап .
Для задач регрессии доступны различные другие альтернативы. [2]
Повторная выборка случаев
Бутстрап обычно полезен для оценки распределения статистики (например, среднего значения, дисперсии) без использования предположений о нормальности (как требуется, например, для z-статистики или t-статистики). В частности, бутстрап полезен, когда нет аналитической формы или асимптотической теории (например, применимой центральной предельной теоремы ), чтобы помочь оценить распределение интересующей статистики. Это связано с тем, что методы бутстрапа могут применяться к большинству случайных величин, например, к отношению дисперсии и среднего значения. Существует по крайней мере два способа выполнения повторной выборки случаев.
Алгоритм Монте-Карло для повторной выборки случаев довольно прост. Сначала мы делаем повторную выборку данных с заменой, и размер повторной выборки должен быть равен размеру исходного набора данных. Затем интересующая статистика вычисляется из повторной выборки с первого шага. Мы повторяем эту процедуру много раз, чтобы получить более точную оценку распределения Bootstrap статистики. [2]
«Точная» версия для повторной выборки случая похожа, но мы исчерпывающе перечисляем каждую возможную повторную выборку набора данных. Это может быть затратным с точки зрения вычислений, поскольку существует общее количество различных повторных выборок, где n — размер набора данных. Таким образом, для n = 5, 10, 20, 30 существует 126, 92378, 6,89 × 10 10 и 5,91 × 10 16 различных повторных выборок соответственно. [22]
Оценка распределения выборочного среднего
Рассмотрим эксперимент по подбрасыванию монеты. Мы подбрасываем монету и записываем, выпадает ли орел или решка. Пусть X = x 1 , x 2 , …, x 10 будут 10 наблюдениями из эксперимента. x i = 1 , если при i-м подбрасывании выпадает орел, и 0 в противном случае. Прибегнув к предположению, что среднее значение подбрасываний монеты распределено нормально, мы можем использовать t-статистику для оценки распределения выборочного среднего,
Такое предположение о нормальности может быть обосновано либо как аппроксимация распределения каждого отдельного подбрасывания монеты, либо как аппроксимация распределения среднего значения большого количества подбрасываний монеты. Первое является плохим приближением, поскольку истинное распределение подбрасываний монеты является бернуллиевским, а не нормальным. Последнее является допустимым приближением в бесконечно больших выборках из-за центральной предельной теоремы .
Однако, если мы не готовы сделать такое обоснование, то вместо этого мы можем использовать бутстрап. Используя повторную выборку случая, мы можем вывести распределение . Сначала мы повторно выбираем данные, чтобы получить повторную выборку бутстрапа . Пример первой повторной выборки может выглядеть так X 1 * = x 2 , x 1 , x 10 , x 10 , x 3 , x 4 , x 6 , x 7 , x 1 , x 9 . Есть некоторые дубликаты, поскольку повторная выборка бутстрапа происходит из выборки с заменой из данных. Кроме того, количество точек данных в повторной выборке бутстрапа равно количеству точек данных в наших исходных наблюдениях. Затем мы вычисляем среднее значение этой повторной выборки и получаем первое среднее бутстрапа : μ 1 *. Мы повторяем этот процесс, чтобы получить вторую повторную выборку X 2 * и вычислить второе среднее бутстрапа μ 2 *. Если мы повторим это 100 раз, то получим μ 1 *, μ 2 *, ..., μ 100 *. Это представляет собой эмпирическое распределение выборочного среднего значения методом бутстрапа. Из этого эмпирического распределения можно вывести доверительный интервал метода бутстрапа для проверки гипотез.
Регрессия
В задачах регрессии повторная выборка случаев относится к простой схеме повторной выборки отдельных случаев – часто строк набора данных . Для задач регрессии, пока набор данных достаточно большой, эта простая схема часто приемлема. [ необходима цитата ] Однако метод открыт для критики [ необходима цитата ] . [15]
В задачах регрессии объясняющие переменные часто фиксированы или, по крайней мере, наблюдаются с большим контролем, чем ответная переменная. Кроме того, диапазон объясняющих переменных определяет информацию, доступную из них. Таким образом, повторная выборка случаев означает, что каждая выборка бутстрапа потеряет некоторую информацию. Таким образом, следует рассмотреть альтернативные процедуры бутстрапа.
Байесовский бутстрап
Бутстрэппинг можно интерпретировать в байесовском фреймворке с использованием схемы, которая создает новые наборы данных путем повторного взвешивания исходных данных. При наличии набора точек данных вес, назначенный точке данных в новом наборе данных , равен , где — упорядоченный от низкого к высокому список равномерно распределенных случайных чисел на , которому предшествует 0 и за которым следует 1. Распределения параметра, выведенные из рассмотрения многих таких наборов данных, затем интерпретируются как апостериорные распределения по этому параметру. [23]
Гладкая загрузка
В рамках этой схемы небольшое количество (обычно нормально распределенного) случайного шума с нулевым центром добавляется к каждому повторному наблюдению. Это эквивалентно выборке из оценки плотности ядра данных. Предположим, что K — симметричная функция плотности ядра с единичной дисперсией. Стандартная оценка ядра — это
[24]
где - параметр сглаживания. А соответствующая оценка функции распределения -
[24]
Параметрический бутстрап
Исходя из предположения, что исходный набор данных является реализацией случайной выборки из распределения определенного параметрического типа, в этом случае параметрическая модель подгоняется по параметру θ, часто по максимальному правдоподобию , и из этой подогнанной модели извлекаются образцы случайных чисел . Обычно извлекаемая выборка имеет тот же размер выборки, что и исходные данные. Тогда оценку исходной функции F можно записать как . Этот процесс выборки повторяется много раз, как и для других методов бутстрапа. Учитывая центрированное выборочное среднее в этом случае, исходная функция распределения случайной выборки заменяется случайной выборкой бутстрапа с функцией , а распределение вероятностей аппроксимируется распределением , где , что является ожиданием, соответствующим . [25] Использование параметрической модели на этапе выборки методологии бутстрапа приводит к процедурам, которые отличаются от тех, которые получены путем применения базовой статистической теории к выводу для той же модели.
Остатки повторной выборки
Другой подход к бутстрапингу в задачах регрессии заключается в повторной выборке остатков . Метод работает следующим образом.
Подгоните модель и сохраните подобранные значения и остатки .
Для каждой пары ( x i , y i ), в которой x i является (возможно, многомерной) объясняющей переменной, добавьте случайно перевыбранный остаток, , к подобранному значению . Другими словами, создайте синтетические переменные отклика , где j выбирается случайным образом из списка (1, ..., n ) для каждого i .
Перестройте модель, используя фиктивные переменные отклика , и сохраните интересующие нас величины (часто параметры, оцененные из синтетических ).
Повторите шаги 2 и 3 большое количество раз.
Эта схема имеет преимущество в том, что она сохраняет информацию в объясняющих переменных. Однако возникает вопрос, какие остатки следует повторно выбирать. Необработанные остатки — один из вариантов; другой — стьюдентизированные остатки (в линейной регрессии). Хотя есть аргументы в пользу использования стьюдентизированных остатков; на практике это часто не имеет большого значения, и легко сравнивать результаты обеих схем.
бутстрап регрессии гауссовского процесса
Когда данные коррелируют во времени, прямой бутстрап разрушает присущие корреляции. Этот метод использует регрессию гауссовского процесса (GPR) для подгонки вероятностной модели, из которой затем могут быть получены реплики. GPR — это байесовский нелинейный регрессионный метод. Гауссовский процесс (GP) — это набор случайных величин, любое конечное число которых имеет совместное гауссовское (нормальное) распределение. GP определяется функцией среднего и функцией ковариации, которые задают средние векторы и матрицы ковариации для каждого конечного набора случайных величин. [26]
Регрессионная модель:
является шумовым термином.
Гауссовский процесс априори:
Для любого конечного набора переменных x 1 , ..., x n выходные значения функции совместно распределены в соответствии с многомерным гауссовым распределением со средним значением и ковариационной матрицей
Предположим , что тогда ,
где , а — стандартная дельта-функция Кронекера. [26]
Апостериорный гауссовский процесс:
По словам лечащего врача, мы можем получить
,
где и
Пусть x 1 * ,...,x s * — еще один конечный набор переменных, очевидно, что
,
где , ,
Согласно уравнениям выше, выходы y также совместно распределены в соответствии с многомерным гауссовым распределением. Таким образом,
где , , , и — единичная матрица. [26]
Дикий бутстрап
Дикий бутстрап, первоначально предложенный Ву (1986), [27] подходит, когда модель демонстрирует гетероскедастичность . Идея заключается в том, чтобы, как и в остаточном бутстрапе, оставить регрессоры на их выборочном значении, но повторно выбрать переменную отклика на основе значений остатков. То есть для каждого повтора вычисляется новый на основе
поэтому остатки случайным образом умножаются на случайную величину со средним значением 0 и дисперсией 1. Для большинства распределений (но не Маммена) этот метод предполагает, что «истинное» распределение остатков симметрично и может иметь преимущества по сравнению с простой выборкой остатков для выборок меньшего размера. Для случайной величины используются различные формы , такие как
Блочный бутстрап используется, когда данные или ошибки в модели коррелируют. В этом случае простая повторная выборка случая или остатка не сработает, так как она не сможет воспроизвести корреляцию в данных. Блочный бутстрап пытается воспроизвести корреляцию путем повторной выборки внутри блоков данных (см. Блокировка (статистика) ). Блочный бутстрап использовался в основном с данными, коррелированными во времени (т. е. временными рядами), но может также использоваться с данными, коррелированными в пространстве или между группами (так называемые кластерные данные).
Временной ряд: Простой блочный бутстрап
В (простом) блочном бутстрапе интересующая переменная разбивается на непересекающиеся блоки.
Временной ряд: бутстрап с движущимися блоками
В бутстрапе с подвижными блоками, представленном Кюншем (1989), [29] данные разбиваются на n − b + 1 перекрывающихся блоков длины b : наблюдение от 1 до b будет блоком 1, наблюдение от 2 до b + 1 будет блоком 2 и т. д. Затем из этих n − b + 1 блоков будут случайным образом извлечены n / b блоков с заменой. Затем выравнивание этих n / b блоков в порядке их выбора даст наблюдения бутстрапа.
Этот бутстрап работает с зависимыми данными, однако, бутстрапированные наблюдения больше не будут стационарными по построению. Но было показано, что случайное изменение длины блока может избежать этой проблемы. [30] Этот метод известен как стационарный бутстрап. Другие связанные модификации бутстрапа с подвижными блоками — это марковский бутстрап и метод стационарного бутстрапа, который сопоставляет последующие блоки на основе сопоставления стандартного отклонения.
Временной ряд: бутстрап с максимальной энтропией
Винод (2006), [31] представляет метод, который загружает данные временных рядов с использованием принципов максимальной энтропии, удовлетворяющих эргодической теореме с ограничениями сохранения среднего и массы. Существует пакет R, meboot , [32] , который использует этот метод, имеющий приложения в эконометрике и информатике.
Кластерные данные: блочная загрузка
Кластерные данные описывают данные, в которых наблюдается много наблюдений на единицу. Это может быть наблюдение за многими фирмами во многих штатах или наблюдение за студентами во многих классах. В таких случаях структура корреляции упрощается, и обычно делается предположение, что данные коррелируют внутри группы/кластера, но независимы между группами/кластерами. Структуру блочного бутстрапа легко получить (где блок просто соответствует группе), и обычно только группы подвергаются повторной выборке, в то время как наблюдения внутри групп остаются неизменными. Кэмерон и др. (2008) обсуждают это для кластеризованных ошибок в линейной регрессии. [33]
Методы повышения эффективности вычислений
Bootstrap — это мощный метод, хотя он может потребовать значительных вычислительных ресурсов как по времени, так и по памяти. Были разработаны некоторые методы, чтобы уменьшить эту нагрузку. Их, как правило, можно комбинировать со многими различными типами схем Bootstrap и различными вариантами статистики.
Параллельная обработка
Большинство методов бутстрапа являются ошеломляюще параллельными алгоритмами. То есть, статистика, представляющая интерес для каждого образца бутстрапа, не зависит от других образцов бутстрапа. Поэтому такие вычисления могут выполняться на отдельных ЦП или вычислительных узлах, а результаты с отдельных узлов в конечном итоге объединяются для окончательного анализа.
Пуассоновский бутстрап
Непараметрический бутстрап-выборки выбирают элементы из списка размера n с подсчетами, взятыми из мультиномиального распределения . Если обозначает количество раз, когда элемент i включен в заданную бутстрап-выборку, то каждый распределен как биномиальное распределение с n испытаниями и средним значением 1, но не является независимым от для .
Вместо этого бутстрап Пуассона строит выборки, предполагая, что все являются независимыми и одинаково распределенными как переменные Пуассона со средним значением 1. Обоснование заключается в том, что пределом биномиального распределения является распределение Пуассона:
Пуассоновский бутстрап был предложен Хэнли и МакГиббоном как потенциально полезный для нестатистиков, использующих программное обеспечение, такое как SAS и SPSS , в котором отсутствуют пакеты бутстрапа языков программирования R и S-Plus . [34] Те же авторы сообщают, что при достаточно больших n результаты относительно схожи с оценками непараметрического бутстрапа, но продолжают отмечать, что бутстрап Пуассона нашел минимальное применение в приложениях.
Другим предлагаемым преимуществом метода бутстрапа Пуассона является независимость, что делает метод более простым в применении к большим наборам данных, которые должны обрабатываться как потоки. [35]
Способ улучшения бутстрапа Пуассона, называемый «последовательным бутстрапом», заключается в том, чтобы взять первые образцы так, чтобы доля уникальных значений была ≈0,632 от исходного размера выборки n. Это обеспечивает распределение с основными эмпирическими характеристиками, находящимися в пределах расстояния . [36] Эмпирическое исследование показало, что этот метод может давать хорошие результаты. [37] Это связано с методом сокращенного бутстрапа. [38]
Пакетик с маленькими ботфортами
Для массивных наборов данных часто вычислительно невыгодно хранить все данные выборки в памяти и повторно выбирать из данных выборки. Bag of Little Bootstraps (BLB) [39] предоставляет метод предварительной агрегации данных перед бутстрапом для уменьшения вычислительных ограничений. Это работает путем разбиения набора данных на равные по размеру блоки и агрегации данных внутри каждого блока. Этот предварительно агрегированный набор данных становится новыми данными выборки, по которым можно рисовать выборки с заменой. Этот метод похож на Block Bootstrap, но мотивы и определения блоков сильно отличаются. При определенных предположениях распределение выборки должно приближаться к сценарию полной бутстрапа. Одним из ограничений является количество блоков, где и авторы рекомендуют использовать в качестве общего решения.
Выбор статистики
Распределение бутстрепа точечной оценки параметра популяции использовалось для получения доверительного интервала бутстрепа для истинного значения параметра, если параметр можно записать как функцию распределения популяции .
Байесовская точечная оценка и оценка максимального правдоподобия имеют хорошую производительность, когда размер выборки бесконечен, согласно асимптотической теории . Для практических задач с конечными выборками другие оценки могут быть предпочтительными. Асимптотическая теория предлагает методы, которые часто улучшают производительность бутстрапированных оценок; бутстрапирование оценщика максимального правдоподобия часто может быть улучшено с помощью преобразований, связанных с основными величинами . [40]
Вывод доверительных интервалов из бутстреп-распределения
Распределение бутстрепа оценщика параметров часто используется для вычисления доверительных интервалов для его параметра совокупности. [2] Было предложено множество методов построения доверительных интервалов, хотя существуют разногласия относительно того, какой метод является лучшим.
Желаемые свойства
Обзор методов доверительных интервалов ДиЧиккио и Эфрона с последующим обсуждением перечисляет несколько желаемых свойств доверительных интервалов, которые, как правило, не все выполняются одновременно.
Инвариант преобразования — доверительные интервалы от бутстреппинга преобразованных данных (например, путем логарифмирования) в идеале будут такими же, как и доверительные интервалы от бутстреппинга непреобразованных данных.
Доверительные интервалы должны быть действительными или согласованными , т. е. вероятность того, что параметр находится в доверительном интервале с номинальным уровнем, должна быть равна или, по крайней мере, сходиться по вероятности к . Последний критерий как уточняется, так и расширяется с использованием структуры Холла. [41] Уточнения заключаются в различении методов, основанных на том, насколько быстро истинная вероятность покрытия приближается к номинальному значению, где метод (используя терминологию ДиЧиккио и Эфрона) является точным первого порядка , если член ошибки в приближении равен , и точным второго порядка, если член ошибки равен . Кроме того, методы различаются по скорости, с которой предполагаемая критическая точка бутстрапа сходится к истинной (неизвестной) точке, и метод является правильным второго порядка, когда эта скорость равна .
Глезер в обсуждении статьи утверждает, что ограничением асимптотических описаний в предыдущем пункте является то, что члены не обязательно однородны по параметрам или истинному распределению.
Смещение, асимметрия и доверительные интервалы
Смещение : распределение бутстрепа и выборка могут систематически не совпадать, в этом случае может возникнуть смещение .
Если распределение бутстрапа оценщика симметрично, то часто используются процентильные доверительные интервалы; такие интервалы особенно подходят для медианно-несмещенных оценок минимального риска (по отношению к абсолютной функции потерь ). Смещение в распределении бутстрапа приведет к смещению в доверительном интервале.
В противном случае, если бутстреп-распределение несимметрично, процентильные доверительные интервалы часто не подходят.
Методы бутстреп-доверительных интервалов
Существует несколько методов построения доверительных интервалов из бутстреп-распределения действительного параметра:
Базовый бутстрап , [40] также известный как обратный процентильный интервал . [42] Базовый бутстрап представляет собой простую схему построения доверительного интервала: просто берутся эмпирические квантили из распределения бутстрапа параметра (см. Davison and Hinkley 1997, уравнение 5.6, стр. 194):
где обозначает процентиль бутстрепированных коэффициентов .
Процентильный бутстрап . Процентильный бутстрап действует аналогично базовому бутстрапу, используя процентили бутстрап-распределения, но с другой формулой (обратите внимание на инверсию левого и правого квантилей):
где обозначает процентиль бутстрепированных коэффициентов .
См. Дэвисон и Хинкли (1997, уравнение 5.18, стр. 203) и Эфрон и Тибширани (1993, уравнение 13.5, стр. 171).
Этот метод можно применять к любой статистике. Он будет хорошо работать в случаях, когда распределение бутстрапа симметрично и центрировано на наблюдаемой статистике [43] и когда выборочная статистика медианно-несмещена и имеет максимальную концентрацию (или минимальный риск относительно функции потери абсолютного значения). При работе с небольшими размерами выборки (т. е. менее 50) базовый/обратный процентиль и процентильные доверительные интервалы для (например) дисперсионной статистики будут слишком узкими. Так что при выборке из 20 точек 90% доверительный интервал будет включать истинную дисперсию только в 78% случаев. [44] Базовые/обратные процентильные доверительные интервалы легче обосновать математически [45] [42], но они менее точны в целом, чем процентильные доверительные интервалы, и некоторые авторы не рекомендуют их использовать. [42]
Студентизированный бутстрап . Студентизированный бутстрап, также называемый bootstrap-t , вычисляется аналогично стандартному доверительному интервалу, но заменяет квантили из нормального или студенческого приближения квантилями из бутстрап-распределения t-критерия Стьюдента (см. Davison and Hinkley 1997, equ. 5.7 p. 194 и Efron and Tibshirani 1993 equ 12.22, p. 160):
где обозначает процентиль бутстрепированного t-критерия Стьюдента , а — предполагаемая стандартная ошибка коэффициента в исходной модели.
Студентизированный тест обладает оптимальными свойствами, поскольку бутстрепированная статистика является ключевой (т.е. она не зависит от мешающих параметров , поскольку t-тест асимптотически следует распределению N(0,1)), в отличие от процентильного бутстрепа.
Бутстреп с поправкой на смещение – корректирует смещение в бутстреп-распределении.
Ускоренный бутстрап – скорректированный и ускоренный (BCa) бутстрап Эфрона (1987), [12] корректирует как смещение, так и асимметрию в распределении бутстрапа. Этот подход точен в широком диапазоне настроек, имеет разумные требования к вычислениям и производит разумно узкие интервалы. [12]
Тестирование гипотезы бутстрепа
Эфрон и Тибширани [2] предлагают следующий алгоритм для сравнения средних значений двух независимых выборок: Пусть будет случайной выборкой из распределения F со средним значением и дисперсией выборки . Пусть будет другой, независимой случайной выборкой из распределения G со средним значением и дисперсией
Рассчитайте статистику теста
Создайте два новых набора данных, значения которых равны и где — среднее значение объединенной выборки.
Выбрать случайную выборку ( ) размера с заменой из и еще одну случайную выборку ( ) размера с заменой из .
Рассчитайте статистику теста
Повторите 3 и 4 раза (например, ), чтобы собрать значения тестовой статистики.
Оцените p-значение как , когда условие истинно, и 0 в противном случае.
Распределение бутстрепа для данных Ньюкомба показано ниже. Мы можем уменьшить дискретность распределения бутстрепа, добавив небольшое количество случайного шума к каждой выборке бутстрепа. Обычным выбором является добавление шума со стандартным отклонением для размера выборки n ; этот шум часто извлекается из распределения Стьюдента-t с n-1 степенями свободы. [47] Это приводит к приблизительно несмещенной оценке дисперсии выборочного среднего. [48] Это означает, что выборки, взятые из распределения бутстрепа, будут иметь дисперсию, которая в среднем равна дисперсии всей совокупности.
Гистограммы распределения бутстрапа и гладкого распределения бутстрапа показаны ниже. Распределение бутстрапа выборочной медианы имеет лишь небольшое количество значений. Сглаженное распределение бутстрапа имеет более богатую поддержку . Однако следует отметить, что благоприятность процедуры сглаженного или стандартного бутстрапа зависит от каждого конкретного случая и, как показано, зависит как от базовой функции распределения, так и от оцениваемой величины. [49]
В этом примере 95%-ный (процентильный) доверительный интервал для медианы популяции равен (26, 28,5), что близко к интервалу (25,98, 28,46) для сглаженного бутстрепа.
Связь с другими подходами к выводу
Связь с другими методами повторной выборки
Бутстрап отличается от:
процедура складного ножа , используемая для оценки смещений выборочных статистик и оценки дисперсий, и
перекрестная проверка , при которой параметры (например, веса регрессии, факторные нагрузки), оцененные в одной подвыборке, применяются к другой подвыборке.
Агрегирование методом бутстрепа (бэггинг) — это метаалгоритм, основанный на усреднении прогнозов модели, полученных с помощью моделей, обученных на нескольких выборках бутстрепа.
U-статистика
В ситуациях, когда очевидная статистика может быть разработана для измерения требуемой характеристики с использованием только небольшого числа, r , элементов данных, может быть сформулирована соответствующая статистика, основанная на всей выборке. При наличии статистики r -выборки можно создать статистику n -выборки с помощью чего-то похожего на бутстреппинг (взяв среднее значение статистики по всем подвыборкам размера r ). Известно, что эта процедура имеет определенные хорошие свойства, и результатом является U-статистика . Выборочное среднее и выборочная дисперсия имеют такую форму для r = 1 и r = 2.
Асимптотическая теория
Бутстрап имеет при определенных условиях желаемые асимптотические свойства . Наиболее часто описываемые асимптотические свойства — это слабая сходимость/согласованность выборочных путей эмпирического процесса бутстрапа и обоснованность доверительных интервалов, полученных из бутстрапа. В этом разделе описывается сходимость эмпирического бутстрапа.
Стохастическая сходимость
В этом параграфе суммируются более полные описания стохастической сходимости в работах ван дер Ваарта и Веллнера [50] и Косорока. [51] Бутстрап определяет стохастический процесс , набор случайных величин, индексированных некоторым набором , где обычно является действительной прямой ( ) или семейством функций. Интерес представляют процессы с ограниченными траекториями выборки, т. е. траекториями выборки в L-бесконечности ( ), множеством всех равномерно ограниченных функций от до . При наличии равномерного расстояния является метрическим пространством , а когда , особый интерес представляют два подпространства из , , пространство всех непрерывных функций от до единичного интервала [0,1], и , пространство всех функций cadlag от до [0,1]. Это происходит потому, что содержит функции распределения для всех непрерывных случайных величин, и содержит функции распределения для всех случайных величин. Утверждения о согласованности бутстрапа — это утверждения о сходимости выборочных путей процесса бутстрапа как случайных элементов метрического пространства или некоторого его подпространства , в частности или .
Последовательность
Горовиц в недавнем обзоре [1] определяет согласованность следующим образом: бутстраповская оценка согласована [для статистики ], если для каждого сходится по вероятности к 0 как , где — распределение интересующей статистики в исходной выборке, — истинное, но неизвестное распределение статистики, — асимптотическая функция распределения , а — индексирующая переменная в функции распределения, т. е . Иногда это более конкретно называют согласованностью относительно расстояния Колмогорова-Смирнова . [52]
Горовиц продолжает рекомендовать использовать теорему Маммена [53]
, которая обеспечивает более простую проверку необходимых и достаточных условий согласованности для статистик определенной общей формы. В частности, пусть будет случайной выборкой. Если для последовательности чисел и , то оценка методом бутстрапа кумулятивной функции распределения оценивает эмпирическую кумулятивную функцию распределения тогда и только тогда, когда сходится по распределению к стандартному нормальному распределению .
Сильная последовательность
Сходимость по (внешней) вероятности, как описано выше, также называется слабой согласованностью . Также можно показать с немного более сильными предположениями, что бутстрап является сильно согласованным , где сходимость по (внешней) вероятности заменяется сходимостью (внешней) почти наверняка. Когда описывается только один тип согласованности, это, как правило, слабая согласованность. Этого достаточно для большинства статистических приложений, поскольку это подразумевает, что доверительные интервалы, полученные из бутстрапа, являются асимптотически действительными. [51]
Демонстрация согласованности с использованием центральной предельной теоремы
В более простых случаях можно напрямую использовать центральную предельную теорему , чтобы показать согласованность процедуры бутстрапа для оценки распределения выборочного среднего.
В частности, рассмотрим независимые одинаково распределенные случайные величины с и для каждого . Пусть . Кроме того, для каждого , при условии , пусть будут независимыми случайными величинами с распределением, равным эмпирическому распределению . Это последовательность бутстрап-выборок.
Тогда можно показать, что
где представляет вероятность, обусловленную , , , и .
Чтобы увидеть это, отметим, что удовлетворяет условию Линдеберга , поэтому ЦПТ выполняется. [54]
Теоретическая основа метода бутстрапа — теорема Гливенко –Кантелли .
^ abc Horowitz JL (2019). «Методы бутстрапа в эконометрике». Annual Review of Economics . 11 : 193–224. arXiv : 1809.04016 . doi : 10.1146/annurev-economics-080218-025651 .
^ abcde Эфрон Б. , Тибширани Р. (1993). Введение в Bootstrap . Бока-Ратон, Флорида: Chapman & Hall/CRC. ISBN0-412-04231-2.программное обеспечение Архивировано 2012-07-12 в archive.today
^ Эфрон Б. (2003). «Вторые мысли о бутстрапе» (PDF) . Статистическая наука . 18 (2): 135–140. doi :10.1214/ss/1063994968.
^ abc Эфрон, Б. (1979). «Методы бутстрапа: Еще один взгляд на складной нож». Анналы статистики . 7 (1): 1–26. doi : 10.1214/aos/1176344552 .
^ Lehmann EL (1992) "Введение в работу Неймана и Пирсона (1933) "О проблеме наиболее эффективных проверок статистических гипотез". В: Breakthroughs in Statistics, Volume 1, (Eds Kotz, S., Johnson, NL), Springer-Verlag. ISBN 0-387-94037-5 (с последующей перепечаткой статьи).
^ Jaeckel L (1972) Бесконечно малый складной нож. Меморандум MM72-1215-11, Bell Lab
^ Bickel PJ , Freedman DA (1981). «Некоторая асимптотическая теория для бутстрапа». Анналы статистики . 9 (6): 1196–1217. doi : 10.1214/aos/1176345637 .
^ Сингх К (1981). «Об асимптотической точности бутстрапа Эфрона» . Анналы статистики . 9 (6): 1187–1195. doi :10.1214/aos/1176345636. JSTOR 2240409.
^ Рубин ДБ (1981). «Байесовский бутстрап». Анналы статистики . 9 : 130–134. doi : 10.1214/aos/1176345338 .
^ DiCiccio TJ, Efron B (1996). "Bootstrap trust intervals (with Discussion)". Статистическая наука . 11 (3): 189–228. doi : 10.1214/ss/1032280214 .
^ Хинкли Д. (1994). «[Bootstrap: больше, чем удар в темноте?]: Комментарий». Статистическая наука . 9 (3): 400–403. doi : 10.1214/ss/1177010387 . ISSN 0883-4237.
^ Гудхью DL, Льюис W, Томпсон W (2012). «Имеет ли метод PLS преимущества для выборки небольшого размера или ненормальных данных?». MIS Quarterly . 36 (3): 981–1001. doi :10.2307/41703490. JSTOR 41703490. Приложение.
^ Эфрон, Б., Рогоза, Д. и Тибширани, Р. (2004). Методы повторной выборки оценок. В NJ Smelser, & PB Baltes (ред.). Международная энциклопедия социальных и поведенческих наук (стр. 13216–13220). Нью-Йорк, Нью-Йорк: Elsevier.
^ Адер, HJ , Мелленберг GJ и Хэнд, DJ (2008). Консультирование по методам исследования: Спутник консультанта . Хейзен, Нидерланды: Издательство Йоханнеса ван Кесселя. ISBN 978-90-79418-01-5 .
^ Athreya KB (1987). «Бутстрап среднего в случае бесконечной дисперсии». Annals of Statistics . 15 (2): 724–731. doi : 10.1214/aos/1176350371 .
^ "Сколько существует различных образцов bootstrap? Statweb.stanford.edu". Архивировано из оригинала 2019-09-14 . Получено 2019-12-09 .
^ ab WANG, SUOJIN (1995). «Оптимизация сглаженного бутстрапа». Ann. Inst. Statist. Math . 47 : 65–80. doi :10.1007/BF00773412. S2CID 122041565.
^ Деккинг, Фредерик Мишель; Краайкамп, Корнелис; Лопухаа, Хендрик Пауль; Местер, Людольф Эрвин (2005). Современное введение в вероятность и статистику: понимание почему и как . Лондон: Спрингер. ISBN978-1-85233-896-1. OCLC 262680588.
^ abc Кирк, Пол (2009). «Бутстрэппинг регрессии гауссовского процесса: изучение эффектов неопределенности в данных о ходе времени». Биоинформатика . 25 (10): 1300–1306. doi : 10.1093/bioinformatics/btp139. PMC 2677737. PMID 19289448.
^ Wu, CFJ (1986). «Складной нож, бутстрап и другие методы повторной выборки в регрессионном анализе (с обсуждениями)» (PDF) . Annals of Statistics . 14 : 1261–1350. doi : 10.1214/aos/1176350142 .
^ Mammen, E. (март 1993). «Бутстрап и дикий бутстрап для линейных моделей высокой размерности». Annals of Statistics . 21 (1): 255–285. doi : 10.1214/aos/1176349025 .
^ Кюнш, HR (1989). «Складной нож и бутстрап для общих стационарных наблюдений». Annals of Statistics . 17 (3): 1217–1241. doi : 10.1214/aos/1176347265 .
^ Politis, DN; Romano, JP (1994). «Стационарный бутстрап». Журнал Американской статистической ассоциации . 89 (428): 1303–1313. doi : 10.1080/01621459.1994.10476870. hdl : 10983/25607 .
^ Винод, HD (2006). «Ансамбли максимальной энтропии для вывода временных рядов в экономике». Журнал азиатской экономики . 17 (6): 955–978. doi :10.1016/j.asieco.2006.09.001.
^ Винод, Хришикеш; Лопес-де-Лакалье, Хавьер (2009). «Максимальная энтропийная загрузка для временных рядов: пакет R meboot». Журнал статистического программного обеспечения . 29 (5): 1–19. doi : 10.18637/jss.v029.i05 .
^ Кэмерон, AC; Гельбах, JB; Миллер, DL (2008). «Улучшения на основе Bootstrap для вывода с кластеризованными ошибками» (PDF) . Обзор экономики и статистики . 90 (3): 414–427. doi :10.1162/rest.90.3.414.
^ Hanley JA, MacGibbon B (2006). «Создание непараметрических бутстрап-выборок с использованием частот Пуассона». Компьютерные методы и программы в биомедицине . 83 (1): 57–62. doi : 10.1016/j.cmpb.2006.04.006 . PMID 16730851.
^ Chamandy N, Muralidharan O, Najmi A, Naidu S (2012). «Оценка неопределенности для больших потоков данных» . Получено 14 августа 2024 г.
^ Бабу, Г. Джогеш; Патхак, П. К.; Рао, CR (1999). «Корректность второго порядка бутстрапа Пуассона». Анналы статистики . 27 (5): 1666–1683. doi : 10.1214/aos/1017939146 .
^ Shoemaker, Owen J.; Pathak, PK (2001). «Последовательный бутстрап: сравнение с обычным бутстрапом». Communications in Statistics - Theory and Methods . 30 (8–9): 1661–1674. doi :10.1081/STA-100105691.
^ Кляйнер, А; Талвалкар, А; Саркар, П; Джордан, Мичиган (2014). «Масштабируемая начальная загрузка для больших данных». Журнал Королевского статистического общества, серия B (статистическая методология) . 76 (4): 795–816. arXiv : 1112.5016 . дои : 10.1111/rssb.12050. ISSN 1369-7412. S2CID 3064206.
^ ab Davison, AC ; Hinkley, DV (1997). Методы Bootstrap и их применение . Cambridge Series in Statistical and Probabilistic Mathematics. Cambridge University Press. ISBN0-521-57391-2. программное обеспечение.
^ Холл П. (1988). «Теоретическое сравнение доверительных интервалов бутстрепа». Анналы статистики . 16 (3): 927–953. doi : 10.1214/aos/1176350933 . JSTOR 2241604.
^ abc Хестерберг, Тим С. (2014). «Что преподаватели должны знать о Bootstrap: повторная выборка в программе бакалавриата по статистике». arXiv : 1411.5279 [stat.OT].
^ Эфрон, Б. (1982). Складной нож, бутстрап и другие планы повторной выборки . Том 38. Монографии Общества промышленной и прикладной математики CBMS-NSF. ISBN0-89871-179-7.
^ Шайнер, С. (1998). Разработка и анализ экологических экспериментов . CRC Press. ISBN0412035618.Гл13, стр300
^ Райс, Джон. Математическая статистика и анализ данных (2-е изд.). С. 272.«Хотя это прямое уравнение квантилей распределения выборки бутстрепа с доверительными пределами может показаться на первый взгляд привлекательным, его обоснование несколько неясно».
^ Данные из примеров в Байесовском анализе данных
^ Чихара, Лора; Хестерберг, Тим (3 августа 2018 г.). Математическая статистика с повторной выборкой и R (2-е изд.). John Wiley & Sons, Inc. doi : 10.1002/9781119505969. ISBN9781119416548. S2CID 60138121.
^ Воинов, Василий [Г.]; Никулин, Михаил [С.] (1993). Несмещенные оценки и их приложения. Том 1: Одномерный случай. Dordrect: Kluwer Academic Publishers. ISBN 0-7923-2382-3.
^ Young, GA (июль 1990). «Альтернативные сглаженные бутстрапы». Журнал Королевского статистического общества, серия B (методологическая) . 52 (3): 477–484. doi :10.1111/j.2517-6161.1990.tb01801.x. ISSN 0035-9246.
^ Mammen E (1992). Когда Bootstrap работает?: Асимптотические результаты и моделирование . Конспект лекций по статистике. Том 57. Нью-Йорк: Springer-Verlag . ISBN978-0-387-97867-3.
^ Грегори, Карл (29 декабря 2023 г.). "Некоторые результаты, основанные на центральной предельной теореме Линдеберга" (PDF) . Получено 29 декабря 2023 г. .
Дальнейшее чтение
Diaconis P , Efron B (май 1983). "Computer-intensive methods in statistics" (PDF) . Scientific American . 248 (5): 116–130. Bibcode :1983SciAm.248e.116D. doi :10.1038/scientificamerican0583-116. Архивировано из оригинала (PDF) 2016-03-13 . Получено 2016-01-19 .научно-популярный
Эфрон Б. (1981). «Непараметрические оценки стандартной ошибки: складной нож, бутстрап и другие методы». Biometrika . 68 (3): 589–599. doi :10.1093/biomet/68.3.589. JSTOR 2335441.
Hesterberg T, Moore DS, Monaghan S, Clipson A, Epstein R (2005). "Методы Bootstrap и тесты перестановки" (PDF) . В David S. Moore , George McCabe (ред.). Introduction to the Practice of Statistics . software. Архивировано из оригинала (PDF) 2006-02-15 . Получено 2007-03-23 .
Эфрон Б. (1979). «Методы бутстрапа: еще один взгляд на складной нож». Анналы статистики . 7 : 1–26. doi : 10.1214/aos/1176344552 .
Эфрон Б. (1982). «Складной нож», «Бутстрап» и другие планы повторной выборки . Общество промышленной и прикладной математики CBMS-NSF Monographs. Том 38. Филадельфия, США: Общество промышленной и прикладной математики .
Эфрон Б. , Тибширани Р.Дж. (1993). Введение в бутстрап . Монографии по статистике и прикладной теории вероятностей. Т. 57. Бока-Ратон, США: Chapman & Hall . программное обеспечение.
Davison AC, Hinley DV (1997). Методы Bootstrap и их применение . Серия Cambridge по статистической и вероятностной математике. Кембридж: Cambridge University Press . ISBN 9780511802843. программное обеспечение.
Mooney CZ, Duval RD (1993). Бутстрэппинг: непараметрический подход к статистическому выводу . Серия статей Университета Сейджа по количественным приложениям в социальных науках. Том 07–095. Ньюбери-Парк, США: Sage .
Райт Д., Лондон К., Филд А. П. (2011). «Использование оценки методом бутстрапа и принципа подключаемого модуля для данных клинической психологии». Журнал экспериментальной психопатологии . 2 (2): 252–270. doi :10.5127/jep.013611.
Gong G (1986). «Перекрестная проверка, складной нож и бутстрап: оценка избыточной ошибки в прямой логистической регрессии». Журнал Американской статистической ассоциации . 81 (393): 108–113. doi :10.1080/01621459.1986.10478245.
↑ Другие названия, которые коллеги Эфрона предложили для метода «бутстрапа», были: швейцарский армейский нож , мясной топор , ныряние под лебедем , кролик-джек и дробовик . [4]