Статистическая модель — это математическая модель , которая воплощает набор статистических предположений относительно генерации выборочных данных (и аналогичных данных из более крупной совокупности ). Статистическая модель представляет, часто в значительно идеализированной форме, процесс генерации данных . [1] Когда речь идет конкретно о вероятностях , соответствующий термин — вероятностная модель . Все проверки статистических гипотез и все статистические оценки выводятся с помощью статистических моделей. В более общем смысле статистические модели являются частью основы статистического вывода . Статистическая модель обычно определяется как математическая связь между одной или несколькими случайными величинами и другими неслучайными величинами. Таким образом, статистическая модель является «формальным представлением теории» ( Герман Адер цитирует Кеннета Боллена ). [2]
Неформально статистическую модель можно рассматривать как статистическое предположение (или набор статистических предположений) с определенным свойством: предположение позволяет нам вычислить вероятность любого события . В качестве примера рассмотрим пару обычных шестигранных игральных костей . Мы изучим два различных статистических предположения относительно игральных костей.
Первое статистическое предположение таково: для каждой кости вероятность выпадения каждой грани (1, 2, 3, 4, 5 и 6) равна 1/6 . Исходя из этого предположения, мы можем рассчитать вероятность того, что на обеих костях выпадет число 5: 1/6 × 1/6 = 1/36 . В более общем смысле, мы можем вычислить вероятность любого события: например, (1 и 2) или (3 и 3) или (5 и 6). Альтернативное статистическое предположение таково: для каждой кости вероятность выпадения грани 5 составляет 1/8 (потому что кости взвешены ). Исходя из этого предположения, мы можем вычислить вероятность того, что на обеих костях выпадет 5: 1/8 × 1/8 = 1/64 . Однако мы не можем рассчитать вероятность любого другого нетривиального события, поскольку вероятности других лиц неизвестны.
Первое статистическое предположение представляет собой статистическую модель: потому что с одним предположением мы можем вычислить вероятность любого события. Альтернативное статистическое предположение не представляет собой статистическую модель: потому что с одним предположением мы не можем вычислить вероятность каждого события. В приведенном выше примере с первым предположением вычисление вероятности события является простым. Однако в некоторых других примерах вычисление может быть сложным или даже непрактичным (например, может потребоваться миллионы лет вычислений). Для того чтобы предположение представляло собой статистическую модель, такая сложность приемлема: выполнение вычисления не обязательно должно быть практически осуществимым, просто теоретически возможным.
В математических терминах статистическая модель представляет собой пару ( ), где — множество возможных наблюдений, т. е. выборочное пространство , а — множество распределений вероятностей на . [3] Множество представляет все модели, которые считаются возможными. Обычно это множество параметризуется: . Множество определяет параметры модели. Если параметризация такова, что различные значения параметров приводят к различным распределениям, т. е. (другими словами, отображение является инъективным ), оно называется идентифицируемым . [ 3]
В некоторых случаях модель может быть более сложной.
Предположим, что у нас есть популяция детей, причем возраст детей распределен равномерно в популяции. Рост ребенка будет стохастически связан с возрастом: например, когда мы знаем, что ребенку 7 лет, это влияет на вероятность того, что рост ребенка составит 1,5 метра. Мы могли бы формализовать эту связь в линейной регрессионной модели, например: рост i = b 0 + b 1 возраст i + ε i , где b 0 — отсекаемый отрезок, b 1 — параметр, на который умножается возраст для получения прогноза роста, ε i — ошибка, а i идентифицирует ребенка. Это подразумевает, что рост предсказывается по возрасту с некоторой ошибкой.
Допустимая модель должна быть согласована со всеми точками данных. Таким образом, прямая линия (рост i = b 0 + b 1 возраст i ) не может быть допустимой для модели данных — если только она точно не соответствует всем точкам данных, т. е. все точки данных идеально лежат на прямой. Член ошибки ε i , должен быть включен в уравнение, чтобы модель была согласована со всеми точками данных. Чтобы сделать статистический вывод , нам сначала нужно предположить некоторые распределения вероятностей для ε i . Например, мы можем предположить, что распределения ε i являются iid гауссовыми с нулевым средним. В этом случае модель будет иметь 3 параметра: b 0 , b 1 и дисперсию гауссова распределения. Мы можем формально указать модель в форме ( ) следующим образом. Пространство выборки , нашей модели включает набор всех возможных пар (возраст, рост). Каждое возможное значение = ( b 0 , b 1 , σ 2 ) определяет распределение на ; обозначим это распределение как . Если — множество всех возможных значений , то . (Параметризация идентифицируема, и это легко проверить.)
В этом примере модель определяется (1) указанием и (2) принятием некоторых предположений, относящихся к . Есть два предположения: что рост может быть аппроксимирован линейной функцией возраста; что ошибки в аппроксимации распределены как iid Гауссово. Предположения достаточны для указания — как они и должны делать.
Статистическая модель — это особый класс математических моделей . Что отличает статистическую модель от других математических моделей, так это то, что статистическая модель является недетерминированной . Таким образом, в статистической модели, заданной с помощью математических уравнений, некоторые переменные не имеют конкретных значений, но вместо этого имеют распределения вероятностей; т. е. некоторые переменные являются стохастическими . В приведенном выше примере с ростом детей ε является стохастической переменной; без этой стохастической переменной модель была бы детерминированной. Статистические модели часто используются даже тогда, когда моделируемый процесс генерации данных является детерминированным. Например, подбрасывание монеты , в принципе, является детерминированным процессом; тем не менее, его обычно моделируют как стохастический (с помощью процесса Бернулли ). Выбор подходящей статистической модели для представления заданного процесса генерации данных иногда чрезвычайно сложен и может потребовать знания как процесса, так и соответствующего статистического анализа. В связи с этим статистик сэр Дэвид Кокс сказал: «То, как осуществляется перевод предметной проблемы в статистическую модель, часто является наиболее важной частью анализа» [4] .
По мнению Кониси и Китагавы, статистическая модель преследует три цели: [5]
Эти три цели по сути совпадают с тремя целями, указанными Френдли и Мейером: прогнозирование, оценка, описание. [6]
Предположим, что у нас есть статистическая модель ( ) с . В обозначениях мы пишем, что где k — положительное целое число ( обозначает действительные числа ; в принципе могут использоваться и другие наборы). Здесь k называется размерностью модели. Модель называется параметрической, если имеет конечную размерность. [ необходима цитата ] Например, если мы предполагаем, что данные возникают из одномерного гауссовского распределения , то мы предполагаем, что
В этом примере размерность k равна 2. В качестве другого примера предположим, что данные состоят из точек ( x , y ), которые, как мы предполагаем, распределены по прямой линии с iid гауссовыми остатками (с нулевым средним): это приводит к той же статистической модели, которая использовалась в примере с ростом детей. Размерность статистической модели равна 3: отсекаемый элемент линии, наклон линии и дисперсия распределения остатков. (Обратите внимание, что множество всех возможных линий имеет размерность 2, хотя геометрически линия имеет размерность 1.)
Хотя формально это один параметр, имеющий размерность k , иногда его рассматривают как состоящий из k отдельных параметров. Например, в случае одномерного гауссовского распределения формально это один параметр с размерностью 2, но часто его рассматривают как состоящий из 2 отдельных параметров — среднего значения и стандартного отклонения. Статистическая модель является непараметрической , если набор параметров имеет бесконечную размерность. Статистическая модель является полупараметрической , если она имеет как конечномерные, так и бесконечномерные параметры. Формально, если k — размерность, а n — число выборок, как полупараметрические, так и непараметрические модели имеют как . Если как , то модель является полупараметрической; в противном случае модель является непараметрической.
Параметрические модели являются наиболее часто используемыми статистическими моделями. Что касается полупараметрических и непараметрических моделей, сэр Дэвид Кокс сказал: «Они обычно включают меньше предположений о структуре и форме распределения, но обычно содержат сильные предположения о независимости». [7]
Две статистические модели являются вложенными, если первую модель можно преобразовать во вторую, наложив ограничения на параметры первой модели. Например, набор всех гауссовых распределений имеет вложенный в него набор гауссовых распределений с нулевым средним: мы ограничиваем среднее в наборе всех гауссовых распределений, чтобы получить распределения с нулевым средним. В качестве второго примера, квадратичная модель
имеет вложенную в него линейную модель
— ограничиваем параметр b 2 равным 0.
В обоих этих примерах первая модель имеет более высокую размерность, чем вторая (в первом примере модель с нулевым средним имеет размерность 1). Так бывает часто, но не всегда. В качестве примера, где они имеют одинаковую размерность, набор распределений Гаусса с положительным средним вложен в набор всех распределений Гаусса; они оба имеют размерность 2.
Сравнение статистических моделей имеет основополагающее значение для большинства статистических выводов . Кониси и Китагава (2008, стр. 75) утверждают: «Большинство проблем в статистическом выводе можно считать проблемами, связанными со статистическим моделированием. Обычно они формулируются как сравнения нескольких статистических моделей». К общим критериям сравнения моделей относятся следующие: R2 , фактор Байеса , информационный критерий Акаике и тест отношения правдоподобия вместе с его обобщением — относительным правдоподобием .
Другой способ сравнения двух статистических моделей — это понятие дефицита, введенное Люсьеном Ле Камом . [8]