Статистический вывод — это процесс использования анализа данных для вывода свойств базового распределения вероятности . [1] Выводной статистический анализ выводит свойства совокупности , например, путем проверки гипотез и получения оценок. Предполагается, что наблюдаемый набор данных выбирается из более крупной совокупности.
Выводную статистику можно противопоставить описательной статистике . Описательная статистика занимается исключительно свойствами наблюдаемых данных и не основывается на предположении, что данные поступают из более крупной популяции. В машинном обучении термин вывод иногда используется вместо этого для обозначения «сделать прогноз, оценивая уже обученную модель»; [2] в этом контексте вывод свойств модели называется обучением или обучением (а не выводом ), а использование модели для прогнозирования называется выводом (вместо прогнозирования ); см. также предиктивный вывод .
Статистический вывод делает предположения о популяции, используя данные, полученные из популяции с помощью некоторой формы выборки . При наличии гипотезы о популяции, для которой мы хотим сделать выводы, статистический вывод состоит из (во-первых) выбора статистической модели процесса, который генерирует данные, и (во-вторых) выведения предположений из модели. [3]
Кониси и Китагава утверждают: «Большинство проблем статистического вывода можно считать проблемами, связанными со статистическим моделированием». [4] В связи с этим сэр Дэвид Кокс сказал: «То, как осуществляется перевод предметной проблемы в статистическую модель, часто является наиболее важной частью анализа». [5]
Заключение статистического вывода является статистическим суждением . [ 6] Некоторые общие формы статистического суждения следующие:
Любой статистический вывод требует некоторых предположений. Статистическая модель представляет собой набор предположений относительно генерации наблюдаемых данных и подобных данных. Описания статистических моделей обычно подчеркивают роль интересующих нас величин населения, о которых мы хотим сделать вывод. [7] Описательная статистика обычно используется в качестве предварительного шага перед тем, как будут сделаны более формальные выводы. [8]
Статистики различают три уровня допущений моделирования;
Какой бы уровень допущений ни был сделан, правильно выверенный вывод, как правило, требует, чтобы эти допущения были верными, то есть чтобы механизмы генерации данных были действительно правильно указаны.
Неправильные предположения о «простой» случайной выборке могут сделать статистический вывод недействительным. [10] Более сложные полу- и полностью параметрические предположения также вызывают беспокойство. Например, неверное предположение о модели Кокса может в некоторых случаях привести к ошибочным выводам. [11] Неправильные предположения о нормальности в популяции также делают недействительными некоторые формы выводов, основанных на регрессии. [12] Использование любой параметрической модели рассматривается скептически большинством экспертов в области выборки человеческих популяций: «большинство статистиков, занимающихся выборкой, когда они вообще имеют дело с доверительными интервалами, ограничивают себя утверждениями об [оценщиках], основанными на очень больших выборках, где центральная предельная теорема гарантирует, что эти [оценщики] будут иметь распределения, близкие к нормальным». [13] В частности, нормальное распределение «было бы совершенно нереалистичным и катастрофически неразумным предположением, если бы мы имели дело с любым видом экономической популяции». [13] Здесь центральная предельная теорема утверждает, что распределение выборочного среднего «для очень больших выборок» приблизительно нормально распределено, если распределение не имеет тяжелого хвоста.
Учитывая сложность определения точных распределений выборочных статистик, было разработано множество методов для их аппроксимации.
При конечных выборках результаты аппроксимации измеряют, насколько близко предельное распределение приближается к выборочному распределению статистики : например, при 10 000 независимых выборках нормальное распределение аппроксимирует (с точностью до двух знаков) распределение выборочного среднего для многих распределений популяции по теореме Берри–Эссеена . [14] Тем не менее, для многих практических целей нормальное приближение обеспечивает хорошее приближение к распределению выборочного среднего, когда имеется 10 (или более) независимых выборок, согласно исследованиям моделирования и опыту статистиков. [14] После работы Колмогорова в 1950-х годах продвинутая статистика использует теорию аппроксимации и функциональный анализ для количественной оценки ошибки аппроксимации. В этом подходе изучается метрическая геометрия распределений вероятностей ; этот подход количественно оценивает ошибку аппроксимации, например, с помощью расхождения Кульбака–Лейблера , расхождения Брегмана и расстояния Хеллингера . [15] [16] [17]
При неопределенно больших выборках предельные результаты , такие как центральная предельная теорема, описывают предельное распределение выборочной статистики, если таковое существует. Предельные результаты не являются утверждениями о конечных выборках и, действительно, не имеют отношения к конечным выборкам. [18] [19] [20] Однако асимптотическая теория предельных распределений часто применяется для работы с конечными выборками. Например, предельные результаты часто применяются для обоснования обобщенного метода моментов и использования обобщенных оценочных уравнений , которые популярны в эконометрике и биостатистике . Величину разницы между предельным распределением и истинным распределением (формально, «ошибку» аппроксимации) можно оценить с помощью моделирования. [21] Эвристическое применение предельных результатов к конечным выборкам является обычной практикой во многих приложениях, особенно с низкоразмерными моделями с логарифмически вогнутыми правдоподобиями (например, с однопараметрическими экспоненциальными семействами ).
Для заданного набора данных, который был получен с помощью рандомизационного дизайна, распределение рандомизации статистики (при нулевой гипотезе) определяется путем оценки тестовой статистики для всех планов, которые могли быть получены с помощью рандомизационного дизайна. В частотном выводе рандомизация позволяет делать выводы на основе распределения рандомизации, а не субъективной модели, и это важно, особенно при выборке обследования и планировании экспериментов. [22] [23] Статистический вывод из рандомизированных исследований также более прост, чем во многих других ситуациях. [24] [25] [26] В байесовском выводе рандомизация также важна: в выборке обследования использование выборки без замены обеспечивает взаимозаменяемость выборки с популяцией; в рандомизированных экспериментах рандомизация гарантирует отсутствие случайного предположения для ковариационной информации. [27]
Объективная рандомизация допускает должным образом индуктивные процедуры. [28] [29] [30] [31] [32] Многие статистики предпочитают основанный на рандомизации анализ данных, которые были получены с помощью четко определенных процедур рандомизации. [33] (Однако верно, что в областях науки с развитыми теоретическими знаниями и экспериментальным контролем рандомизированные эксперименты могут увеличить стоимость эксперимента без улучшения качества выводов. [34] [35] ) Аналогичным образом, результаты рандомизированных экспериментов рекомендуются ведущими статистическими органами как позволяющие делать выводы с большей надежностью, чем наблюдательные исследования тех же явлений. [36] Однако хорошее наблюдательное исследование может быть лучше плохого рандомизированного эксперимента.
Статистический анализ рандомизированного эксперимента может быть основан на схеме рандомизации, указанной в экспериментальном протоколе, и не нуждается в субъективной модели. [37] [38]
Однако в любой момент времени некоторые гипотезы не могут быть проверены с использованием объективных статистических моделей, которые точно описывают рандомизированные эксперименты или случайные выборки. В некоторых случаях такие рандомизированные исследования неэкономичны или неэтичны.
Стандартной практикой является обращение к статистической модели, например, линейной или логистической модели, при анализе данных рандомизированных экспериментов. [39] Однако схема рандомизации определяет выбор статистической модели. Невозможно выбрать подходящую модель, не зная схему рандомизации. [23] Серьезно вводящие в заблуждение результаты могут быть получены при анализе данных рандомизированных экспериментов с игнорированием экспериментального протокола; распространенные ошибки включают в себя забывание о блокировке, используемой в эксперименте, и путаницу повторных измерений на одном и том же экспериментальном блоке с независимыми повторениями обработки, применяемой к различным экспериментальным блокам. [40]
Методы без моделей дополняют методы на основе моделей, которые используют редукционистские стратегии упрощения реальности. Первые объединяют, развивают, объединяют и обучают алгоритмы, динамически адаптирующиеся к контекстуальным связям процесса и изучающие внутренние характеристики наблюдений. [41] [42]
Например, простая линейная регрессия без модели основана либо на
В любом случае вывод рандомизации без модели для признаков общего условного распределения опирается на некоторые условия регулярности, например, на функциональную гладкость. Например, вывод рандомизации без модели для условного среднего признака популяции , , может быть последовательно оценен с помощью локального усреднения или локальной полиномиальной подгонки, при условии, что является гладким. Кроме того, опираясь на асимптотическую нормальность или повторную выборку, мы можем построить доверительные интервалы для признака популяции, в данном случае, условного среднего , . [43]
Стали существовать различные школы статистического вывода. Эти школы — или «парадигмы» — не являются взаимоисключающими, и методы, которые хорошо работают в рамках одной парадигмы, часто имеют привлекательные интерпретации в рамках других парадигм.
Бандйопадхай и Форстер описывают четыре парадигмы: классическую (или частотную ) парадигму, байесовскую парадигму, парадигму правдоподобия и парадигму, основанную на информационном критерии Акаикеа . [44]
Эта парадигма калибрует правдоподобность предложений, рассматривая (воображаемую) повторную выборку распределения популяции для получения наборов данных, похожих на имеющиеся. Рассматривая характеристики набора данных при повторной выборке, можно количественно оценить частотные свойства статистического предложения, хотя на практике эта количественная оценка может быть сложной.
Одна из интерпретаций частотного вывода (или классического вывода) заключается в том, что он применим только в терминах вероятности частоты ; то есть в терминах повторной выборки из популяции. Однако подход Неймана [45] развивает эти процедуры в терминах вероятностей до эксперимента. То есть, перед проведением эксперимента принимается решение о правиле для вывода, так что вероятность быть правильным контролируется подходящим образом: такая вероятность не обязательно должна иметь частотную или повторную выборочную интерпретацию. Напротив, байесовский вывод работает в терминах условных вероятностей (т. е. вероятностей, обусловленных наблюдаемыми данными), по сравнению с маргинальными (но обусловленными неизвестными параметрами) вероятностями, используемыми в частотном подходе.
Частотные процедуры проверки значимости и доверительные интервалы могут быть построены без учета функций полезности . Однако некоторые элементы частотной статистики, такие как теория статистических решений , включают функции полезности . [ требуется ссылка ] В частности, частотные разработки оптимального вывода (такие как несмещенные оценщики с минимальной дисперсией или равномерно наиболее мощное тестирование ) используют функции потерь , которые играют роль (отрицательных) функций полезности. Функции потерь не обязательно должны быть явно указаны для статистических теоретиков, чтобы доказать, что статистическая процедура имеет свойство оптимальности. [46] Однако функции потерь часто полезны для указания свойств оптимальности: например, несмещенные медианы оценщики оптимальны при функциях потерь абсолютных значений , поскольку они минимизируют ожидаемые потери, а оценки наименьших квадратов оптимальны при функциях потерь квадратичных ошибок, поскольку они минимизируют ожидаемые потери.
В то время как статистики, использующие частотный вывод, должны самостоятельно выбирать интересующие их параметры, а также оценочные и проверочные статистики , которые будут использоваться, отсутствие явно явных полезностей и априорных распределений помогло частотным процедурам стать широко признанными «объективными». [47]
Байесовский исчисление описывает степени убеждений, используя «язык» вероятности; убеждения положительны, объединяются в одно целое и подчиняются аксиомам вероятности. Байесовский вывод использует доступные апостериорные убеждения в качестве основы для создания статистических предложений. [48] Существует несколько различных обоснований использования байесовского подхода.
Многие неформальные байесовские выводы основаны на «интуитивно обоснованных» резюме апостериорной информации. Например, апостериорное среднее, медиана и мода, наивысшие интервалы апостериорной плотности и байесовские факторы могут быть мотивированы таким образом. Хотя для такого рода вывода не требуется указывать функцию полезности пользователя, все эти резюме зависят (в некоторой степени) от заявленных априорных убеждений и, как правило, рассматриваются как субъективные выводы. (Методы априорной конструкции, не требующие внешнего ввода, были предложены , но еще не полностью разработаны.)
Формально байесовский вывод калибруется относительно явно указанной полезности или функции потерь; «правило Байеса» — это правило, которое максимизирует ожидаемую полезность, усредненную по апостериорной неопределенности. Таким образом, формальный байесовский вывод автоматически обеспечивает оптимальные решения в смысле теории принятия решений . При наличии предположений, данных и полезности байесовский вывод может быть сделан практически для любой проблемы, хотя не каждый статистический вывод должен иметь байесовскую интерпретацию. Анализы, которые формально не являются байесовскими, могут быть (логически) непоследовательными ; особенностью байесовских процедур, которые используют надлежащие априорные данные (т. е. те, которые интегрируются к единице), является то, что они гарантированно являются последовательными . Некоторые сторонники байесовского вывода утверждают, что вывод должен иметь место в этой теоретической структуре принятия решений и что байесовский вывод не должен заканчиваться оценкой и обобщением апостериорных убеждений.
Вывод на основе правдоподобия — это парадигма, используемая для оценки параметров статистической модели на основе наблюдаемых данных. Лайклихудизм подходит к статистике, используя функцию правдоподобия , обозначаемую как , количественно определяет вероятность наблюдения заданных данных , предполагая определенный набор значений параметров . В выводе на основе правдоподобия цель состоит в том, чтобы найти набор значений параметров, который максимизирует функцию правдоподобия или, что эквивалентно, максимизирует вероятность наблюдения заданных данных.
Процесс вывода на основе вероятности обычно включает следующие этапы:
Критерий информации Акаике (AIC) является оценщиком относительного качества статистических моделей для заданного набора данных. При наличии набора моделей для данных AIC оценивает качество каждой модели относительно каждой из других моделей. Таким образом, AIC предоставляет средства для выбора модели .
AIC основан на теории информации : он предлагает оценку относительной потери информации при использовании данной модели для представления процесса, который сгенерировал данные. (При этом он имеет дело с компромиссом между качеством соответствия модели и ее простотой.)
Принцип минимальной длины описания (MDL) был разработан на основе идей теории информации [49] и теории сложности Колмогорова . [50] Принцип (MDL) выбирает статистические модели, которые максимально сжимают данные; вывод осуществляется без предположения контрфактуальных или нефальсифицируемых «механизмов генерации данных» или вероятностных моделей для данных, как это могло бы быть сделано в частотном или байесовском подходах.
Однако, если «механизм генерации данных» существует в реальности, то согласно теореме Шеннона о кодировании источника он обеспечивает описание MDL данных в среднем и асимптотически. [51] При минимизации длины описания (или описательной сложности) оценка MDL похожа на оценку максимального правдоподобия и оценку максимального апостериорного значения (использующую байесовские априорные данные с максимальной энтропией ). Однако MDL избегает предположения, что базовая вероятностная модель известна; принцип MDL также может применяться без предположений, что, например, данные возникли из независимой выборки. [51] [52]
Принцип MDL применялся в теории кодирования связи, в теории информации , в линейной регрессии [52] и в интеллектуальном анализе данных [50] .
Оценка процедур вывода на основе MDL часто использует методы или критерии из теории сложности вычислений . [53]
Фидуциальный вывод был подходом к статистическому выводу, основанным на фидуциальных вероятностях , также известных как «фидуциальные распределения». В последующих работах этот подход был назван плохо определенным, крайне ограниченным в применимости и даже ошибочным. [54] [55] Однако этот аргумент тот же, что и тот, который показывает [56] , что так называемое доверительное распределение не является допустимым распределением вероятностей и, поскольку это не сделало недействительным применение доверительных интервалов , это не обязательно делает недействительными выводы, сделанные из фидуциальных аргументов. Была сделана попытка переосмыслить раннюю работу Фишера о фидуциальных аргументах как частный случай теории вывода, использующей верхние и нижние вероятности . [57]
Развивая идеи Фишера и Питмана с 1938 по 1939 год, [58] Джордж А. Барнард разработал «структурный вывод» или «основной вывод», [59] подход, использующий инвариантные вероятности для групповых семейств . Барнард переформулировал аргументы в пользу фидуциального вывода на ограниченном классе моделей, на которых «фидуциальные» процедуры были бы четко определены и полезны. Дональд А. С. Фрейзер разработал общую теорию структурного вывода [60], основанную на теории групп , и применил ее к линейным моделям. [61] Теория, сформулированная Фрейзером, тесно связана с теорией принятия решений и байесовской статистикой и может обеспечить оптимальные частотные правила принятия решений, если они существуют. [62]
Приведенные ниже темы обычно относятся к области статистических выводов .
Прогностический вывод — это подход к статистическому выводу, который делает акцент на прогнозировании будущих наблюдений на основе прошлых наблюдений.
Первоначально предсказательный вывод основывался на наблюдаемых параметрах и был главной целью изучения вероятности , [ требуется ссылка ], но он вышел из моды в 20 веке из-за нового параметрического подхода, впервые предложенного Бруно де Финетти . Подход моделировал явления как физическую систему, наблюдаемую с ошибкой (например, небесная механика ). Идея Де Финетти о взаимозаменяемости — о том, что будущие наблюдения должны вести себя как прошлые наблюдения — привлекла внимание англоязычного мира с переводом с французского в 1974 году его статьи 1937 года, [63] и с тех пор была предложена такими статистиками, как Сеймур Гейссер . [64]
Термин
вывод
относится к процессу выполнения модели TensorFlow Lite на устройстве с целью создания прогнозов на основе входных данных.