Критерий информации Акаике ( AIC ) является оценщиком ошибки прогнозирования и , следовательно, относительного качества статистических моделей для заданного набора данных. [1] [2] [3] При наличии набора моделей для данных AIC оценивает качество каждой модели относительно каждой из других моделей. Таким образом, AIC предоставляет средства для выбора модели .
AIC основан на теории информации . Когда статистическая модель используется для представления процесса, который генерирует данные, представление почти никогда не будет точным; поэтому часть информации будет потеряна при использовании модели для представления процесса. AIC оценивает относительное количество информации, теряемой данной моделью: чем меньше информации теряет модель, тем выше ее качество.
При оценке количества информации, теряемой моделью, AIC имеет дело с компромиссом между качеством соответствия модели и ее простотой. Другими словами, AIC имеет дело как с риском переобучения , так и с риском недообучения.
Критерий информации Акаике назван в честь японского статистика Хиротугу Акаике , который его сформулировал. В настоящее время он составляет основу парадигмы для основ статистики , а также широко используется для статистического вывода .
Предположим, что у нас есть статистическая модель некоторых данных. Пусть k — число оцененных параметров в модели. Пусть — максимизированное значение функции правдоподобия для модели. Тогда значение AIC модели будет следующим. [4] [5]
При наличии набора моделей-кандидатов для данных предпочтительная модель — модель с минимальным значением AIC. Таким образом, AIC вознаграждает за качество подгонки (оцениваемое функцией правдоподобия), но также включает штраф, который является возрастающей функцией числа оцененных параметров. Штраф препятствует переобучению , что желательно, поскольку увеличение числа параметров в модели почти всегда улучшает качество подгонки.
AIC основан на теории информации . Предположим, что данные генерируются некоторым неизвестным процессом f . Мы рассматриваем две модели-кандидата для представления f : g 1 и g 2. Если бы мы знали f , то мы могли бы найти информацию, потерянную при использовании g 1 для представления f, вычислив расхождение Кульбака–Лейблера , D KL ( f ‖ g 1 ) ; аналогично, информацию, потерянную при использовании g 2 для представления f, можно было бы найти, вычислив D KL ( f ‖ g 2 ) . Затем мы, как правило, выбираем модель-кандидата, которая минимизирует потерю информации.
Мы не можем сделать точный выбор, поскольку не знаем f . Однако Акаике (1974) показал, что мы можем оценить с помощью AIC, насколько больше (или меньше) информации теряется при g 1 , чем при g 2 . Однако эта оценка верна только асимптотически ; если число точек данных невелико, то часто необходима некоторая коррекция (см. AICc ниже).
Обратите внимание, что AIC ничего не говорит об абсолютном качестве модели, только о качестве относительно других моделей. Таким образом, если все модели-кандидаты плохо подходят, AIC не выдаст никаких предупреждений об этом. Следовательно, после выбора модели с помощью AIC обычно хорошей практикой является проверка абсолютного качества модели. Такая проверка обычно включает проверки остатков модели (чтобы определить, кажутся ли остатки случайными) и тесты прогнозов модели. Подробнее об этой теме см. в разделе статистическая проверка модели .
Чтобы применить AIC на практике, мы начинаем с набора моделей-кандидатов, а затем находим соответствующие значения AIC моделей. Почти всегда будет потеря информации из-за использования модели-кандидата для представления «истинной модели», т. е. процесса, который сгенерировал данные. Мы хотим выбрать из числа моделей-кандидатов ту модель, которая минимизирует потерю информации. Мы не можем выбрать с уверенностью, но мы можем минимизировать предполагаемую потерю информации.
Предположим, что имеется R моделей-кандидатов. Обозначим значения AIC этих моделей как AIC 1 , AIC 2 , AIC 3 , ..., AIC R . Пусть AIC min будет минимальным из этих значений. Тогда величину exp((AIC min − AIC i )/2) можно интерпретировать как пропорциональную вероятности того, что i -я модель минимизирует (оцениваемую) потерю информации. [6]
В качестве примера предположим, что есть три модели-кандидата, значения AIC которых равны 100, 102 и 110. Тогда вторая модель в exp((100 − 102)/2) = 0,368 раза вероятнее первой модели, чтобы минимизировать потерю информации. Аналогично, третья модель в exp((100 − 110)/2) = 0,007 раза вероятнее первой модели, чтобы минимизировать потерю информации.
В этом примере мы бы исключили третью модель из дальнейшего рассмотрения. Тогда у нас есть три варианта: (1) собрать больше данных, в надежде, что это позволит четко различать первые две модели; (2) просто сделать вывод, что данных недостаточно для поддержки выбора одной модели из первых двух; (3) взять средневзвешенное значение первых двух моделей с весами, пропорциональными 1 и 0,368 соответственно, а затем сделать статистический вывод на основе взвешенной мультимодели . [7]
Величина exp((AIC min − AIC i )/2) известна как относительное правдоподобие модели i . Она тесно связана с отношением правдоподобия, используемым в тесте отношения правдоподобия . Действительно, если все модели в наборе кандидатов имеют одинаковое количество параметров, то использование AIC на первый взгляд может показаться очень похожим на использование теста отношения правдоподобия. Однако существуют важные различия. В частности, тест отношения правдоподобия действителен только для вложенных моделей , тогда как AIC (и AICc) не имеет таких ограничений. [8] [9]
Каждый статистический тест гипотезы может быть сформулирован как сравнение статистических моделей. Следовательно, каждый статистический тест гипотезы может быть воспроизведен с помощью AIC. Два примера кратко описаны в подразделах ниже. Подробности этих примеров и многих других примеров приведены в работах Sakamoto, Ishiguro & Kitagawa (1986, часть II) и Konishi & Kitagawa (2008, гл. 4).
В качестве примера проверки гипотезы рассмотрим t -тест для сравнения средних значений двух нормально распределенных совокупностей. Входные данные для t -теста включают случайную выборку из каждой из двух совокупностей.
Чтобы сформулировать тест как сравнение моделей, мы строим две разные модели. Первая модель моделирует две популяции как имеющие потенциально разные средние значения и стандартные отклонения. Таким образом, функция правдоподобия для первой модели является произведением правдоподобий для двух различных нормальных распределений; поэтому она имеет четыре параметра: μ 1 , σ 1 , μ 2 , σ 2 . Для ясности функция правдоподобия выглядит следующим образом (обозначая размеры выборки как n 1 и n 2 ).
Вторая модель моделирует две популяции как имеющие одинаковые средние значения, но потенциально разные стандартные отклонения. Таким образом, функция правдоподобия для второй модели устанавливает μ 1 = μ 2 в приведенном выше уравнении; поэтому у нее есть три параметра.
Затем мы максимизируем функции правдоподобия для двух моделей (на практике мы максимизируем логарифмические функции правдоподобия); после этого легко вычислить значения AIC моделей. Затем мы вычисляем относительное правдоподобие. Например, если бы вторая модель была всего в 0,01 раза более вероятной, чем первая модель, то мы бы исключили вторую модель из дальнейшего рассмотрения: поэтому мы бы пришли к выводу, что две популяции имеют разные средние значения.
T - тест предполагает, что две популяции имеют одинаковые стандартные отклонения; тест имеет тенденцию быть ненадежным, если предположение ложно и размеры двух выборок сильно различаются ( t -тест Уэлча был бы лучше). Сравнение средних значений популяций с помощью AIC, как в примере выше, имеет преимущество, поскольку не делает таких предположений.
Для другого примера проверки гипотезы предположим, что у нас есть две популяции, и каждый член каждой популяции находится в одной из двух категорий — категории № 1 или категории № 2. Каждая популяция распределена биномиально . Мы хотим узнать, одинаковы ли распределения двух популяций. Нам дана случайная выборка из каждой из двух популяций.
Пусть m будет размером выборки из первой популяции. Пусть m 1 будет числом наблюдений (в выборке) в категории № 1; таким образом, число наблюдений в категории № 2 равно m − m 1 . Аналогично, пусть n будет размером выборки из второй популяции. Пусть n 1 будет числом наблюдений (в выборке) в категории № 1.
Пусть p — вероятность того, что случайно выбранный член первой популяции находится в категории № 1. Следовательно, вероятность того, что случайно выбранный член первой популяции находится в категории № 2, равна 1 − p . Обратите внимание, что распределение первой популяции имеет один параметр. Пусть q — вероятность того, что случайно выбранный член второй популяции находится в категории № 1. Обратите внимание, что распределение второй популяции также имеет один параметр.
Чтобы сравнить распределения двух популяций, мы строим две разные модели. Первая модель моделирует две популяции как имеющие потенциально разные распределения. Таким образом, функция правдоподобия для первой модели является произведением правдоподобий для двух различных биномиальных распределений; поэтому она имеет два параметра: p , q . Если говорить точнее, функция правдоподобия выглядит следующим образом.
Вторая модель моделирует две популяции как имеющие одинаковое распределение. Таким образом, функция правдоподобия для второй модели устанавливает p = q в приведенном выше уравнении; поэтому вторая модель имеет один параметр.
Затем мы максимизируем функции правдоподобия для двух моделей (на практике мы максимизируем логарифмические функции правдоподобия); после этого легко вычислить значения AIC моделей. Затем мы вычисляем относительное правдоподобие. Например, если бы вторая модель была всего в 0,01 раза более вероятной, чем первая модель, то мы бы исключили вторую модель из дальнейшего рассмотрения: поэтому мы бы пришли к выводу, что две популяции имеют разные распределения.
Статистический вывод обычно рассматривается как включающий проверку гипотез и оценку . Проверка гипотез может быть выполнена с помощью AIC, как обсуждалось выше. Что касается оценки, существует два типа: точечная оценка и интервальная оценка . Точечная оценка может быть выполнена в парадигме AIC: она обеспечивается оценкой максимального правдоподобия . Интервальная оценка также может быть выполнена в парадигме AIC: она обеспечивается интервалами правдоподобия . Следовательно, статистический вывод обычно может быть выполнен в парадигме AIC.
Наиболее часто используемые парадигмы для статистического вывода — это частотный вывод и байесовский вывод . Однако AIC можно использовать для статистического вывода, не полагаясь ни на частотную парадигму, ни на байесовскую парадигму: поскольку AIC можно интерпретировать без помощи уровней значимости или байесовских априорных данных . [10] Другими словами, AIC можно использовать для формирования основы статистики , которая отличается как от частотного, так и от байесовского подхода. [11] [12]
Если размер выборки невелик, существует значительная вероятность того, что AIC выберет модели со слишком большим количеством параметров, т.е. AIC будет переобучен. [13] [14] [15] Для решения проблемы такого потенциального переобучения был разработан AICc: AICc — это AIC с поправкой на небольшие размеры выборки.
Формула для AICc зависит от статистической модели. Предполагая, что модель одномерна , линейна по своим параметрам и имеет нормально распределенные остатки (обусловленные регрессорами), формула для AICc выглядит следующим образом. [16] [17] [18] [19]
—где n обозначает размер выборки, а k обозначает количество параметров. Таким образом, AICc по сути является AIC с дополнительным штрафным членом для количества параметров. Обратите внимание, что при n → ∞ дополнительный штрафной член сходится к 0, и, таким образом, AICc сходится к AIC. [20]
Если предположение о том, что модель является одномерной и линейной с нормальными остатками, не выполняется, то формула для AICc, как правило, будет отличаться от формулы выше. Для некоторых моделей формулу может быть трудно определить. Однако для каждой модели, которая имеет доступ к AICc, формула для AICc задается как AIC плюс члены, которые включают как k, так и k 2 . Для сравнения, формула для AIC включает k, но не k 2 . Другими словами, AIC является оценкой первого порядка (потери информации), тогда как AICc является оценкой второго порядка . [21]
Дальнейшее обсуждение формулы с примерами других предположений дано Бернхэмом и Андерсоном (2002, гл. 7) и Кониши и Китагавой (2008, гл. 7–8). В частности, при других предположениях часто возможна оценка формулы методом бутстрапа.
Подводя итог, можно сказать, что преимущество AICc в том, что он, как правило, более точен, чем AIC (особенно для небольших выборок), но недостаток AICc в том, что иногда его гораздо сложнее вычислить, чем AIC. Обратите внимание, что если все модели-кандидаты имеют одинаковое k и одну и ту же формулу для AICc, то AICc и AIC дадут идентичные (относительные) оценки; следовательно, не будет никаких недостатков в использовании AIC вместо AICc. Кроме того, если n во много раз больше k 2 , то дополнительный штрафной член будет незначительным; следовательно, недостаток в использовании AIC вместо AICc будет незначительным.
Критерий информации Акаике был сформулирован статистиком Хиротугу Акаике . Первоначально он назывался «информационным критерием». [22] Впервые он был представлен на английском языке Акаике на симпозиуме 1971 года; труды симпозиума были опубликованы в 1973 году. [22] [23] Однако публикация 1973 года была лишь неформальным представлением концепций. [24] Первой официальной публикацией была статья Акаике 1974 года. [5]
Первоначальный вывод AIC основывался на некоторых сильных предположениях. Такеучи (1976) показал, что предположения можно сделать гораздо слабее. Однако работа Такеучи была на японском языке и не была широко известна за пределами Японии в течение многих лет. (Переведено в [25] )
AIC был первоначально предложен для линейной регрессии (только) Сугиурой (1978). Это побудило к работе Хурвича и Цая (1989) и нескольким дальнейшим работам тех же авторов, которые расширили ситуации, в которых AICc мог применяться.
Первое общее изложение информационно-теоретического подхода было в томе Бернхэма и Андерсона (2002). Он включает английскую презентацию работы Такеучи. Том привел к гораздо более широкому использованию AIC, и теперь он имеет более 64 000 ссылок в Google Scholar .
Акаике назвал свой подход «принципом максимизации энтропии», поскольку этот подход основан на концепции энтропии в теории информации . Действительно, минимизация AIC в статистической модели фактически эквивалентна максимизации энтропии в термодинамической системе; другими словами, информационно-теоретический подход в статистике по сути применяет Второй закон термодинамики . Таким образом, AIC имеет корни в работе Людвига Больцмана по энтропии . Более подробную информацию по этим вопросам см. в Akaike (1985) и Burnham & Anderson (2002, гл. 2).
Статистическая модель должна учитывать случайные ошибки . Модель прямой линии можно формально описать как y i = b 0 + b 1 x i + ε i . Здесь ε i являются остатками от подгонки прямой линии. Если предполагается, что ε i является iid гауссовым (с нулевым средним), то модель имеет три параметра: b 0 , b 1 и дисперсию гауссовых распределений. Таким образом, при вычислении значения AIC этой модели мы должны использовать k = 3. В более общем смысле, для любой модели наименьших квадратов с iid гауссовыми остатками дисперсия распределений остатков должна учитываться как один из параметров. [26]
В качестве другого примера рассмотрим модель авторегрессии первого порядка , определяемую как x i = c + φx i −1 + ε i , где ε i является iid гауссовым (с нулевым средним). Для этой модели есть три параметра: c , φ и дисперсия ε i . В более общем смысле, модель авторегрессии p -го порядка имеет p + 2 параметра. (Однако, если c не оценивается из данных, а вместо этого задан заранее, то есть только p + 1 параметр.)
Значения AIC моделей-кандидатов должны быть вычислены с использованием одного и того же набора данных. Иногда, однако, нам может понадобиться сравнить модель переменной отклика y с моделью логарифма переменной отклика log( y ) . В более общем случае нам может потребоваться сравнить модель данных с моделью преобразованных данных . Ниже приведена иллюстрация того, как работать с преобразованиями данных (адаптировано из Burnham & Anderson (2002, §2.11.3): «Исследователи должны быть уверены, что все гипотезы моделируются с использованием одной и той же переменной отклика»).
Предположим, что мы хотим сравнить две модели: одну с нормальным распределением y и одну с нормальным распределением log( y ) . Мы не должны напрямую сравнивать значения AIC двух моделей. Вместо этого мы должны преобразовать нормальную кумулятивную функцию распределения , чтобы сначала взять логарифм y . Для этого нам нужно выполнить соответствующую интеграцию путем подстановки : таким образом, нам нужно умножить на производную функции (натурального) логарифма , которая равна 1/ y . Следовательно, преобразованное распределение имеет следующую функцию плотности вероятности :
—которая является функцией плотности вероятности для логнормального распределения . Затем мы сравниваем значение AIC нормальной модели со значением AIC логнормальной модели.
Для неправильно заданной модели информационный критерий Такеучи (TIC) может быть более подходящим. Однако TIC часто страдает от нестабильности, вызванной ошибками оценки. [27]
Критическое различие между AIC и BIC (и их вариантами) заключается в асимптотическом свойстве при хорошо определенных и неправильно определенных классах моделей. [28] Их фундаментальные различия были хорошо изучены в задачах выбора регрессионной переменной и выбора порядка авторегрессии [29] . В целом, если целью является прогнозирование, предпочтительны AIC и перекрестные проверки с исключением одного. Если целью является выбор, вывод или интерпретация, предпочтительны BIC или перекрестные проверки с исключением многих. Полный обзор AIC и других популярных методов выбора модели дан Ding et al. (2018) [30]
Формула для байесовского информационного критерия (BIC) похожа на формулу для AIC, но с другим штрафом за количество параметров. В случае AIC штраф составляет 2 k , тогда как в случае BIC штраф составляет ln( n ) k .
Сравнение AIC/AICc и BIC дано Бернхэмом и Андерсоном (2002, §6.3-6.4) с последующими замечаниями Бернхэма и Андерсона (2004). Авторы показывают, что AIC/AICc можно вывести в той же байесовской структуре, что и BIC, просто используя разные априорные вероятности . Однако в байесовском выводе BIC каждая модель-кандидат имеет априорную вероятность 1/ R (где R — количество моделей-кандидатов). Кроме того, авторы представляют несколько исследований симуляции, которые предполагают, что AICc имеет тенденцию иметь практические/производительные преимущества перед BIC.
Несколько исследователей отметили, что AIC и BIC подходят для разных задач. В частности, утверждается, что BIC подходит для выбора «истинной модели» (т. е. процесса, который сгенерировал данные) из набора моделей-кандидатов, тогда как AIC не подходит. Если говорить конкретно, если «истинная модель» есть в наборе кандидатов, то BIC выберет «истинную модель» с вероятностью 1, так как n → ∞ ; напротив, когда выбор осуществляется с помощью AIC, вероятность может быть меньше 1. [31] [32] [33] Сторонники AIC утверждают, что эта проблема незначительна, поскольку «истинная модель» практически никогда не входит в набор кандидатов. Действительно, в статистике распространен афоризм, что « все модели неверны »; следовательно, «истинная модель» (т. е. реальность) не может входить в набор кандидатов.
Другое сравнение AIC и BIC дано Вризом (2012). Вриз представляет исследование симуляции, которое позволяет «истинной модели» быть в наборе кандидатов (в отличие от практически всех реальных данных). Исследование симуляции показывает, в частности, что AIC иногда выбирает гораздо лучшую модель, чем BIC, даже когда «истинная модель» находится в наборе кандидатов. Причина в том, что при конечном n BIC может иметь существенный риск выбора очень плохой модели из набора кандидатов. Эта причина может возникнуть даже тогда, когда n намного больше k 2 . С AIC риск выбора очень плохой модели минимизируется.
Если «истинная модель» отсутствует в наборе кандидатов, то самое большее, на что мы можем надеяться, — это выбрать модель, которая наилучшим образом приближает «истинную модель». AIC подходит для поиска наилучшей приближающей модели при определенных предположениях. [31] [32] [33] (Эти предположения включают, в частности, то, что приближение выполняется с учетом потери информации.)
Сравнение AIC и BIC в контексте регрессии дано Янгом (2005). В регрессии AIC асимптотически оптимален для выбора модели с наименьшей среднеквадратической ошибкой , при условии, что «истинная модель» не входит в набор кандидатов. BIC не является асимптотически оптимальным при этом предположении. Ян также показывает, что скорость, с которой AIC сходится к оптимуму, является, в определенном смысле, наилучшей возможной.
Иногда каждая модель-кандидат предполагает, что остатки распределены в соответствии с независимыми идентичными нормальными распределениями (с нулевым средним). Это приводит к подгонке модели по методу наименьших квадратов .
При использовании метода наименьших квадратов оценка максимального правдоподобия для дисперсии распределений остатков модели равна
где остаточная сумма квадратов равна
Тогда максимальное значение функции логарифмического правдоподобия модели равно (см. Нормальное распределение#Лог-правдоподобие ):
где C — константа, не зависящая от модели и зависящая только от конкретных точек данных, т.е. она не меняется, если данные не меняются.
Это дает: [34]
Поскольку значимыми являются только различия в AIC, константу C можно игнорировать, что позволяет нам для удобства использовать следующее для сравнения моделей:
Обратите внимание, что если все модели имеют одинаковое значение k , то выбор модели с минимальным AIC эквивалентен выбору модели с минимальным RSS , что является обычной целью выбора модели на основе метода наименьших квадратов.
Перекрестная проверка с исключением одного асимптотически эквивалентна AIC для обычных моделей линейной регрессии. [35] Асимптотическая эквивалентность AIC также справедлива для моделей со смешанными эффектами . [36]
C p Маллоуза эквивалентен AIC в случае (гауссовой) линейной регрессии . [37]
AIC обеспечивает удивительно простую оценку среднего отклонения за пределами выборки.
AIC — это оценка отклонения OOS.