Статистический вывод — это процесс использования анализа данных для вывода свойств основного распределения вероятностей . [1] Инференциальный статистический анализ выводит свойства популяции , например, путем проверки гипотез и получения оценок. Предполагается, что наблюдаемый набор данных выбран из более крупной совокупности.
Инференциальную статистику можно противопоставить описательной статистике . Описательная статистика занимается исключительно свойствами наблюдаемых данных и не основывается на предположении, что данные поступают от более широкой совокупности. В машинном обучении вместо этого иногда используется термин « вывод» для обозначения «сделать прогноз путем оценки уже обученной модели»; [2] в этом контексте вывод о свойствах модели называется обучением или обучением (а не выводом ), а использование модели для прогнозирования называется выводом (вместо предсказания ); см. также прогнозирующий вывод .
Статистический вывод делает предположения о совокупности, используя данные, полученные от совокупности с помощью той или иной формы выборки . Учитывая гипотезу о популяции, для которой мы хотим сделать выводы, статистический вывод состоит из (во-первых) выбора статистической модели процесса , который генерирует данные, и (во-вторых) вывода предложений из модели. [3]
Кониси и Китагава утверждают: «Большинство проблем статистического вывода можно считать проблемами, связанными со статистическим моделированием». [4] В связи с этим сэр Дэвид Кокс сказал: «Как осуществляется перевод предметной задачи в статистическую модель, часто является наиболее важной частью анализа». [5]
Заключение статистического вывода является статистическим утверждением . [6] Ниже приведены некоторые распространенные формы статистических предположений:
Любой статистический вывод требует некоторых предположений. Статистическая модель — это набор предположений, касающихся формирования наблюдаемых данных и аналогичных данных. В описаниях статистических моделей обычно подчеркивается роль интересующих нас величин населения, о которых мы хотим сделать выводы. [7] Описательная статистика обычно используется в качестве предварительного шага перед тем, как будут сделаны более формальные выводы. [8]
Статистики различают три уровня допущений моделирования;
Какой бы уровень предположений ни был сделан, правильно калиброванный вывод, как правило, требует, чтобы эти предположения были правильными; то есть, что механизмы генерации данных действительно были правильно определены.
Неправильные предположения о «простой» случайной выборке могут сделать статистические выводы недействительными. [10] Более сложные полу- и полностью параметрические предположения также вызывают беспокойство. Например, неправильное предположение о модели Кокса может в некоторых случаях привести к ошибочным выводам. [11] Неправильные предположения о нормальности популяции также делают недействительными некоторые формы выводов, основанных на регрессии. [12] Использование любой параметрической модели рассматривается скептически большинством экспертов по выборке человеческих популяций: «большинство статистиков, занимающихся выборкой, когда они вообще имеют дело с доверительными интервалами, ограничиваются утверждениями об [оценщиках], основанных на очень больших выборках, где Центральная предельная теорема гарантирует, что эти [оценщики] будут иметь почти нормальное распределение». [13] В частности, нормальное распределение «было бы совершенно нереалистичным и катастрофически неразумным предположением, если бы мы имели дело с каким-либо экономическим населением». [13] Здесь центральная предельная теорема утверждает, что распределение выборочного среднего «для очень больших выборок» имеет приблизительно нормальное распределение, если распределение не имеет «тяжелого хвоста».
Учитывая сложность определения точных распределений выборочной статистики, было разработано множество методов их аппроксимации.
При использовании конечных выборок результаты аппроксимации измеряют, насколько близко предельное распределение приближается к выборочному распределению статистики : например, при 10 000 независимых выборках нормальное распределение аппроксимирует (с точностью до двух цифр) распределение выборочного среднего для многих распределений совокупности по методу Берри . – Теорема Эссеена . [14] Тем не менее, согласно исследованиям моделирования и опыту статистиков, для многих практических целей нормальное приближение обеспечивает хорошее приближение к распределению выборочного среднего, когда имеется 10 (или более) независимых выборок. [14] Следуя работам Колмогорова в 1950-х годах, передовая статистика использует теорию аппроксимации и функциональный анализ для количественной оценки ошибки аппроксимации. В этом подходе изучается метрическая геометрия вероятностных распределений ; этот подход количественно определяет ошибку аппроксимации, например, с помощью дивергенции Кульбака-Лейблера , дивергенции Брегмана и расстояния Хеллингера . [15] [16] [17]
В случае неопределенно больших выборок предельные результаты , такие как центральная предельная теорема, описывают предельное распределение выборочной статистики, если таковое существует. Ограничивающие результаты не являются утверждениями о конечных выборках и действительно не имеют отношения к конечным выборкам. [18] [19] [20] Однако асимптотическая теория предельных распределений часто используется для работы с конечными выборками. Например, предельные результаты часто используются для обоснования обобщенного метода моментов и использования обобщенных оценочных уравнений , которые популярны в эконометрике и биостатистике . Величину разницы между предельным распределением и истинным распределением (формально «ошибка» аппроксимации) можно оценить с помощью моделирования. [21] Эвристическое применение ограничения результатов конечными выборками является обычной практикой во многих приложениях, особенно с низкоразмерными моделями с логарифмически вогнутыми правдоподобиями (например, с однопараметрическими экспоненциальными семействами ).
Для данного набора данных, созданного с помощью схемы рандомизации, распределение рандомизации статистики (при нулевой гипотезе) определяется путем оценки тестовой статистики для всех планов, которые могли быть созданы с помощью схемы рандомизации. При частотном выводе рандомизация позволяет делать выводы на основе рандомизированного распределения, а не на субъективной модели, и это особенно важно при выборке опросов и планировании экспериментов. [22] [23] Статистические выводы из рандомизированных исследований также более просты, чем во многих других ситуациях. [24] [25] [26] В байесовском выводе рандомизация также имеет важное значение: при опросной выборке использование выборки без замены обеспечивает возможность обмена выборки с населением; в рандомизированных экспериментах рандомизация гарантирует отсутствие случайного предположения о ковариатной информации. [27]
Объективная рандомизация позволяет правильно проводить индуктивные процедуры. [28] [29] [30] [31] [32] Многие статистики предпочитают анализ данных, основанный на рандомизации, который был получен с помощью четко определенных процедур рандомизации. [33] (Однако это правда, что в областях науки с развитыми теоретическими знаниями и экспериментальным контролем рандомизированные эксперименты могут увеличить затраты на экспериментирование без улучшения качества выводов. [34] [35] ) Аналогичным образом, результаты рандомизированных экспериментов рекомендованы ведущими статистическими органами как позволяющие делать выводы с большей надежностью, чем наблюдательные исследования тех же явлений. [36] Однако хорошее обсервационное исследование может быть лучше, чем плохой рандомизированный эксперимент.
Статистический анализ рандомизированного эксперимента может быть основан на схеме рандомизации, указанной в протоколе эксперимента, и не требует субъективной модели. [37] [38]
Однако в любой момент некоторые гипотезы невозможно проверить с помощью объективных статистических моделей, которые точно описывают рандомизированные эксперименты или случайные выборки. В некоторых случаях такие рандомизированные исследования неэкономичны или неэтичны.
Стандартной практикой является обращение к статистической модели, например, к линейной или логистической модели, при анализе данных рандомизированных экспериментов. [39] Однако схема рандомизации определяет выбор статистической модели. Невозможно выбрать подходящую модель, не зная схемы рандомизации. [23] Серьезно вводящие в заблуждение результаты можно получить, анализируя данные рандомизированных экспериментов, игнорируя протокол эксперимента; распространенные ошибки включают в себя забывание блокировки, использованной в эксперименте, и путаницу повторных измерений на одной и той же экспериментальной установке с независимыми повторами лечения, примененного к различным экспериментальным единицам. [40]
Безмодельные методы дополняют методы, основанные на моделях, которые используют редукционистские стратегии упрощения реальности. Первые объединяют, развивают, группируют и обучают алгоритмы, динамически адаптирующиеся к контекстуальным особенностям процесса и изучающие внутренние характеристики наблюдений. [39] [41]
Например, простая линейная регрессия без модели основана либо на
В любом случае вывод о рандомизации без модели для особенностей общего условного распределения опирается на некоторые условия регулярности, например функциональную гладкость. Например, вывод рандомизации без модели для условного среднего признака совокупности , , может быть последовательно оценен с помощью локального усреднения или аппроксимации локальным полиномом в предположении, что он является гладким. Кроме того, опираясь на асимптотическую нормальность или повторную выборку, мы можем построить доверительные интервалы для генерального признака, в данном случае условного среднего , . [42]
Сложились различные школы статистических выводов. Эти школы — или «парадигмы» — не являются взаимоисключающими, и методы, которые хорошо работают в одной парадигме, часто имеют привлекательные интерпретации в других парадигмах.
Бандиопадхай и Форстер описывают четыре парадигмы: классическую (или частотную ) парадигму, байесовскую парадигму, правдоподобную парадигму и парадигму, основанную на информационном критерии Акаике . [43]
Эта парадигма калибрует правдоподобие предположений, рассматривая (условную) повторную выборку распределения населения для получения наборов данных, аналогичных имеющемуся. Рассматривая характеристики набора данных при повторной выборке, можно количественно оценить частотные свойства статистического предположения, хотя на практике эта количественная оценка может быть сложной.
Одна из интерпретаций частотного вывода (или классического вывода) заключается в том, что он применим только с точки зрения частотной вероятности ; то есть с точки зрения повторной выборки из совокупности. Однако подход Неймана [44] развивает эти процедуры с точки зрения предэкспериментальных вероятностей. То есть, прежде чем приступить к эксперименту, необходимо определить правило, по которому можно прийти к такому выводу, чтобы вероятность его правильности контролировалась подходящим способом: такая вероятность не обязательно должна иметь частотную интерпретацию или интерпретацию повторной выборки. Напротив, байесовский вывод работает с точки зрения условных вероятностей (т. е. вероятностей, зависящих от наблюдаемых данных) по сравнению с маргинальными (но обусловленными неизвестными параметрами) вероятностями, используемыми в частотном подходе.
Частотные процедуры проверки значимости и доверительные интервалы могут быть построены без учета функций полезности . Однако некоторые элементы частотной статистики, такие как теория статистических решений , действительно включают функции полезности . [ нужна цитата ] В частности, частотные разработки оптимального вывода (такие как несмещенные оценки с минимальной дисперсией или равномерно наиболее мощное тестирование ) используют функции потерь , которые играют роль (отрицательных) функций полезности. Функции потерь не обязательно указывать явно, чтобы теоретики статистики могли доказать, что статистическая процедура обладает свойством оптимальности. [45] Однако функции потерь часто полезны для определения свойств оптимальности: например, несмещенные по медиане оценки оптимальны при функциях потерь абсолютных значений , поскольку они минимизируют ожидаемые потери, а оценки методом наименьших квадратов оптимальны при функциях потерь квадратичных ошибок, в том, что они минимизируют ожидаемые потери.
В то время как статистики, использующие частотный вывод, должны сами выбирать интересующие параметры, а также оценщики / тестовые статистические данные , которые будут использоваться, отсутствие явно явных полезностей и предшествующих распределений помогло частотным процедурам широко рассматриваться как «объективные». [46]
Байесовское исчисление описывает степени уверенности, используя «язык» вероятности; убеждения положительны, интегрируются в одно целое и подчиняются аксиомам вероятности. Байесовский вывод использует доступные апостериорные убеждения в качестве основы для создания статистических предположений. [47] Существует несколько различных обоснований использования байесовского подхода.
Многие неформальные байесовские выводы основаны на «интуитивно разумных» обобщениях апостериорных явлений. Например, таким образом можно мотивировать апостериорное среднее значение, медиану и моду, интервалы максимальной апостериорной плотности и факторы Байеса. Хотя для такого рода выводов не обязательно указывать функцию полезности пользователя , все эти сводки зависят (в некоторой степени) от заявленных предшествующих убеждений и обычно рассматриваются как субъективные выводы. (Методы предварительного строительства, не требующие внешнего вмешательства, были предложены , но еще не полностью разработаны.)
Формально байесовский вывод калибруется со ссылкой на явно заявленную полезность или функцию потерь; «Правило Байеса» — это правило, которое максимизирует ожидаемую полезность, усредненную по апостериорной неопределенности. Таким образом, формальный байесовский вывод автоматически обеспечивает оптимальные решения в теоретическом смысле решений. Учитывая предположения, данные и полезность, байесовский вывод может быть сделан практически для любой проблемы, хотя не каждый статистический вывод нуждается в байесовской интерпретации. Анализ, который формально не является байесовским, может быть (логически) бессвязным ; Особенностью байесовских процедур, использующих правильные априорные значения (т. е. интегрируемые до единицы), является то, что они гарантированно когерентны . Некоторые сторонники байесовского вывода утверждают, что вывод должен осуществляться в рамках теории принятия решений и что байесовский вывод не должен завершаться оценкой и обобщением апостериорных убеждений.
Вывод на основе правдоподобия — это парадигма, используемая для оценки параметров статистической модели на основе наблюдаемых данных. Правдоподобие приближается к статистике с использованием функции правдоподобия , обозначаемой как , количественно определяет вероятность наблюдения данных данных , предполагая определенный набор значений параметров . В выводе на основе правдоподобия цель состоит в том, чтобы найти набор значений параметров, который максимизирует функцию правдоподобия или, что то же самое, максимизирует вероятность наблюдения заданных данных.
Процесс вывода на основе правдоподобия обычно включает в себя следующие этапы:
Информационный критерий Акаике ( AIC) представляет собой оценку относительного качества статистических моделей для заданного набора данных. Учитывая набор моделей данных, AIC оценивает качество каждой модели по сравнению с каждой из других моделей. Таким образом, AIC предоставляет средства выбора модели .
AIC основан на теории информации : он предлагает оценку относительной потери информации, когда данная модель используется для представления процесса, в результате которого были сгенерированы данные. (При этом речь идет о компромиссе между степенью соответствия модели и ее простотой.)
Принцип минимальной длины описания (MDL) был развит на основе идей теории информации [48] и теории колмогоровской сложности . [49] Принцип (MDL) выбирает статистические модели, которые максимально сжимают данные; Вывод происходит без предположения контрфактических или нефальсифицируемых «механизмов генерации данных» или вероятностных моделей для данных, как это могло бы быть сделано в частотных или байесовских подходах.
Однако если «механизм генерации данных» действительно существует, то согласно теореме Шеннона о кодировании источника он обеспечивает MDL-описание данных в среднем и асимптотически. [50] В плане минимизации длины описания (или описательной сложности) оценка MDL аналогична оценке максимального правдоподобия и максимальной апостериорной оценке (с использованием байесовских априорных априорных подходов с максимальной энтропией ). Однако MDL избегает предположения, что основная вероятностная модель известна; принцип MDL также может применяться без предположений о том, что, например, данные получены в результате независимой выборки. [50] [51]
Принцип MDL применялся в теории коммуникационного кодирования , в теории информации , в линейной регрессии [51] и в интеллектуальном анализе данных . [49]
Для оценки процедур вывода на основе MDL часто используются методы или критерии теории сложности вычислений . [52]
Фидуциальный вывод — это подход к статистическому выводу, основанный на фидуциальной вероятности , также известный как «фидуциальное распределение». В последующих работах этот подход был назван нечетким, крайне ограниченным в применимости и даже ошибочным. [53] [54] Однако этот аргумент аналогичен аргументу, который показывает [55] , что так называемое доверительное распределение не является действительным распределением вероятностей , и, поскольку это не делает недействительным применение доверительных интервалов , оно не обязательно делает недействительным выводы, сделанные на основе фидуциальных аргументов. Была предпринята попытка переосмыслить раннюю работу фидуциального аргумента Фишера как частный случай теории вывода с использованием верхних и нижних вероятностей . [56]
Развивая идеи Фишера и Питмана с 1938 по 1939 год, [57] Джордж А. Барнард разработал «структурный вывод» или «основной вывод», [58] подход, использующий инвариантные вероятности в семействах групп . Барнард переформулировал аргументы в пользу фидуциального вывода для ограниченного класса моделей, на которых «фидуциальные» процедуры были бы четко определены и полезны. Дональд А.С. Фрейзер разработал общую теорию структурного вывода [59] , основанную на теории групп , и применил ее к линейным моделям. [60] Теория, сформулированная Фрейзером, тесно связана с теорией принятия решений и байесовской статистикой и может обеспечить оптимальные частотные правила принятия решений, если они существуют. [61]
Приведенные ниже темы обычно относятся к области статистических выводов .
Прогнозирующий вывод — это подход к статистическому выводу, который делает упор на предсказание будущих наблюдений на основе прошлых наблюдений.
Первоначально прогнозирующий вывод был основан на наблюдаемых параметрах и был основной целью изучения вероятности , но он вышел из моды в 20-м веке из-за нового параметрического подхода, впервые предложенного Бруно де Финетти . Этот подход моделировал явления как физическую систему, наблюдаемую с ошибкой (например, небесная механика ). Идея де Финетти о взаимозаменяемости (что будущие наблюдения должны вести себя так же, как прошлые наблюдения) привлекла внимание англоязычного мира после перевода с французского в 1974 году его статьи 1937 года [62] и с тех пор продвигалась такими статистиками, как Сеймур Гейссер . . [63]
Термин
«вывод»
относится к процессу выполнения модели TensorFlow Lite на устройстве с целью сделать прогнозы на основе входных данных.