stringtranslate.com

Статистическая модель

Статистическая модель — это математическая модель , которая воплощает в себе набор статистических предположений , касающихся формирования выборочных данных (и аналогичных данных из более крупной совокупности ). Статистическая модель представляет, часто в значительно идеализированной форме, процесс генерации данных. [1] Говоря конкретно о вероятностях , соответствующий термин — вероятностная модель .

Статистическая модель обычно определяется как математическая связь между одной или несколькими случайными величинами и другими неслучайными величинами. По сути, статистическая модель является «формальным представлением теории» ( Герман Адер цитирует Кеннета Боллена ). [2]

Все статистические проверки гипотез и все статистические оценки получены с помощью статистических моделей. В более общем плане статистические модели являются частью основы статистических выводов .

Введение

Неформально, статистическую модель можно рассматривать как статистическое предположение (или набор статистических предположений) с определенным свойством: предположение позволяет нам вычислить вероятность любого события . В качестве примера рассмотрим пару обычных шестигранных игральных костей . Мы изучим два различных статистических предположения относительно игральных костей.

Первое статистическое предположение таково: для каждой игральной кости вероятность выпадения каждой грани (1, 2, 3, 4, 5 и 6) равна1/6. Исходя из этого предположения, мы можем вычислить вероятность того, что на обеих кубиках выпадет 5:  1/6×1/6 "="1/36. В более общем смысле мы можем вычислить вероятность любого события: например, (1 и 2), или (3 и 3), или (5 и 6).

Альтернативное статистическое предположение таково: для каждой кости вероятность выпадения грани 5 равна1/8(потому что игральные кости взвешены ). Исходя из этого предположения, мы можем вычислить вероятность того, что на обеих кубиках выпадет 5:  1/8×1/8 "="1/64. Однако мы не можем вычислить вероятность какого-либо другого нетривиального события, поскольку вероятности остальных граней неизвестны.

Первое статистическое предположение представляет собой статистическую модель: поскольку только с помощью этого предположения мы можем вычислить вероятность любого события. Альтернативное статистическое предположение не представляет собой статистическую модель: поскольку только с помощью этого предположения мы не можем вычислить вероятность каждого события.

В приведенном выше примере при первом допущении вычислить вероятность события несложно. Однако в некоторых других примерах расчет может быть трудным или даже непрактичным (например, может потребоваться миллионы лет вычислений). Для того чтобы предположение составило статистическую модель, такая трудность приемлема: выполнение расчета не должно быть практически осуществимым, оно должно быть только теоретически возможным.

Формальное определение

В математических терминах статистическую модель обычно [ необходимы пояснения ] рассматривают как пару ( ), где – набор возможных наблюдений, т. е. выборочное пространство , и – набор вероятностных распределений на . [3]

Интуиция, лежащая в основе этого определения, заключается в следующем. Предполагается, что существует «истинное» распределение вероятностей, вызванное процессом, генерирующим наблюдаемые данные. Мы решили представить набор (распределений), который содержит распределение, которое адекватно аппроксимирует истинное распределение.

Обратите внимание, что мы не требуем, чтобы оно содержало истинное распределение, а на практике это бывает редко. Действительно, как утверждают Бёрнем и Андерсон: «Модель — это упрощение или приближение реальности и, следовательно, не отражает всю реальность» [4] — отсюда и поговорка « все модели неверны ».

Набор почти всегда параметризован: . Набор распределений определяет параметры модели. Обычно требуется, чтобы параметризация имела разные значения параметров, приводящие к различным распределениям, т. е. должна выполняться (другими словами, она должна быть инъективной ). Параметризация, удовлетворяющая этому требованию, называется идентифицируемой . [3]

Пример

Предположим, что у нас есть популяция детей, в которой возраст детей распределен равномерно . Рост ребенка будет стохастически связан с возрастом: например, когда мы знаем, что ребенку 7 лет, это влияет на вероятность того, что ребенок будет ростом 1,5 метра. Мы могли бы формализовать эту связь в модели линейной регрессии следующим образом: рост i  = b 0  + b 1 возраст i  + ε i , где b 0 — это точка пересечения, b 1 — параметр, на который умножается возраст, чтобы получить прогноз высота, ε i — термин ошибки, и i идентифицирует дочернего элемента. Это означает, что рост прогнозируется по возрасту с некоторой ошибкой.

Допустимая модель должна соответствовать всем точкам данных. Таким образом, прямая линия (высота i  = b 0  + b 1 age i ) не может быть уравнением модели данных — если она точно не соответствует всем точкам данных, т. е. все точки данных идеально лежат на линии. Член ошибки ε i должен быть включен в уравнение, чтобы модель согласовывалась со всеми точками данных.

Чтобы сделать статистический вывод , нам сначала нужно предположить некоторые распределения вероятностей для ε i . Например, мы могли бы предположить, что распределения ε i являются гауссовскими с нулевым средним значением. В этом случае модель будет иметь 3 параметра: b 0 , b 1 и дисперсию распределения Гаусса.

Формально модель можно задать в виде ( ) следующим образом. Выборочное пространство нашей модели включает в себя набор всех возможных пар (возраст, рост). Каждое возможное значение  = ( b 0 , b 1 , σ 2 ) определяет распределение на ; обозначим это распределение через . Если – набор всех возможных значений , то . (Параметризация распознаваема, и это легко проверить.)

В этом примере модель определяется путем (1) указания и (2) принятия некоторых допущений, относящихся к . Есть два предположения: рост можно аппроксимировать линейной функцией возраста; что ошибки аппроксимации распределяются по гауссову закону. Предположений достаточно, чтобы уточнить , что и требуется.

Основные пометки

Статистическая модель — это особый класс математической модели . Что отличает статистическую модель от других математических моделей, так это то, что статистическая модель недетерминирована . Таким образом, в статистической модели, заданной с помощью математических уравнений, некоторые переменные не имеют конкретных значений, а имеют распределения вероятностей; т.е. некоторые переменные являются стохастическими . В приведенном выше примере с ростом детей ε — стохастическая переменная; без этой стохастической переменной модель была бы детерминированной.

Статистические модели часто используются, даже если моделируемый процесс генерации данных является детерминированным. Например, подбрасывание монеты в принципе является детерминированным процессом; тем не менее, его обычно моделируют как стохастический (через процесс Бернулли ).

Выбор подходящей статистической модели для представления конкретного процесса генерации данных иногда чрезвычайно сложен и может потребовать знания как этого процесса, так и соответствующего статистического анализа. В связи с этим статистик сэр Дэвид Кокс сказал: «Как осуществляется перевод предметной задачи в статистическую модель, часто является наиболее важной частью анализа». [5]

По мнению Кониси и Китагавы, статистическая модель преследует три цели. [6]

Эти три цели по существу аналогичны трем целям, указанным Френдли и Мейером: предсказание, оценка, описание. [7] Три цели соответствуют трем видам логических рассуждений : дедуктивному рассуждению , индуктивному рассуждению , абдуктивному рассуждению . [ нужна ссылка ] [ нужны разъяснения ]

Размер модели

Предположим, что у нас есть статистическая модель ( ) с . В обозначениях пишем, что где k — целое положительное число ( обозначает действительные числа ; в принципе можно использовать и другие множества). Здесь k называется размерностью модели. Модель называется параметрической, если она имеет конечную размерность. [ нужна цитата ]

Например, если мы предположим, что данные возникают из одномерного распределения Гаусса , то мы предполагаем, что

.

В этом примере размерность k равна 2.

В качестве другого примера предположим, что данные состоят из точек ( x , y ), которые, как мы предполагаем, распределены по прямой линии с гауссовскими остатками iid (с нулевым средним значением): это приводит к той же статистической модели, которая использовалась в примере с детские высоты. Размерность статистической модели равна 3: точка пересечения линии, наклон линии и дисперсия распределения остатков. (Обратите внимание, что множество всех возможных линий имеет размерность 2, хотя геометрически линия имеет размерность 1.)

Хотя формально это один параметр, имеющий размерность k , иногда его считают состоящим из k отдельных параметров. Например, одномерное распределение Гаусса формально представляет собой один параметр с размерностью 2, но часто рассматривается как включающее два отдельных параметра — среднее значение и стандартное отклонение.

Статистическая модель является непараметрической, если набор параметров бесконечномерен. Статистическая модель является полупараметрической, если она имеет как конечномерные, так и бесконечномерные параметры. Формально, если k — размерность, а n — количество выборок, как полупараметрические, так и непараметрические модели имеют значение . Если as , то модель полупараметрическая; в противном случае модель является непараметрической.

Параметрические модели на сегодняшний день являются наиболее часто используемыми статистическими моделями. Что касается полупараметрических и непараметрических моделей, сэр Дэвид Кокс сказал: «Они обычно включают меньше предположений о структуре и форме распределения, но обычно содержат сильные предположения о независимости». [8]

Вложенные модели

Две статистические модели являются вложенными , если первую модель можно преобразовать во вторую модель, наложив ограничения на параметры первой модели. Например, в набор всех гауссовских распределений вложен набор гауссовских распределений с нулевым средним: мы ограничиваем среднее значение в наборе всех гауссовских распределений, чтобы получить распределения с нулевым средним. Второй пример: квадратичная модель.

y  = b 0  + b 1 x  + b 2 x 2  + ε, ε ~ 𝒩(0, σ 2 )

имеет вложенную в него линейную модель

y  = b 0  + b 1 x  + ε, ε ~ 𝒩(0, σ 2 )

— мы ограничиваем параметр b 2 равным 0.

В обоих этих примерах первая модель имеет более высокую размерность, чем вторая модель (в первом примере модель с нулевым средним имеет размерность 1). Так бывает часто, но не всегда. В качестве примера, когда они имеют одинаковую размерность, набор гауссовских распределений с положительным средним значением вложен в набор всех гауссовских распределений; они оба имеют размерность 2.

Сравнение моделей

Сравнение статистических моделей имеет фундаментальное значение для большей части статистических выводов . Действительно, Кониси и Китагава (2008, стр. 75) заявляют следующее: «Большинство проблем статистического вывода можно рассматривать как проблемы, связанные со статистическим моделированием. Обычно они формулируются как сравнение нескольких статистических моделей».

К общим критериям сравнения моделей относятся следующие: R 2 , фактор Байеса , информационный критерий Акаике и критерий отношения правдоподобия вместе с его обобщением — относительным правдоподобием .

Смотрите также

Примечания

  1. ^ Кокс 2006, с. 178
  2. ^ Адер 2008, с. 280
  3. ^ Аб МакКалла, 2002 г.
  4. ^ Бернхэм и Андерсон 2002, §1.2.5
  5. ^ Кокс 2006, с. 197
  6. ^ Кониси и Китагава 2008, §1.1
  7. ^ Дружелюбный и Мейер 2016, §11.6
  8. ^ Кокс 2006, с. 2

Рекомендации

дальнейшее чтение