Многомерный адаптивный регрессионный сплайн

В статистике многомерные адаптивные регрессионные сплайны ( MARS ) — это форма регрессионного анализа, введенная Джеромом Х. Фридманом в 1991 году. ^[1] Это непараметрический метод регрессии, который можно рассматривать как расширение линейных моделей , которое автоматически моделирует нелинейности и взаимодействия между переменными.

Термин «MARS» является торговой маркой и лицензирован Salford Systems. Чтобы избежать нарушения прав на торговую марку, многие реализации MARS с открытым исходным кодом называются «Earth». ^[2]^[3]

Основы

В этом разделе мы знакомимся с MARS на нескольких примерах. Начнем с набора данных: матрицы входных переменных x и вектора наблюдаемых ответов y с ответом для каждой строки в x . Например, данные могут быть такими:

Здесь есть только одна независимая переменная , поэтому матрица x — это всего лишь один столбец. Учитывая эти измерения, мы хотели бы построить модель, которая предсказывает ожидаемое y для заданного x .

Линейная модель

Линейная модель для приведенных выше данных:

{\widehat {y}}=-37+5.1x

Шляпа на означает, что оценивается по данным. Рисунок справа показывает график этой функции: линия, дающая предсказанное значение в зависимости от x , с исходными значениями y, показанными в виде красных точек. ${\widehat {y}}$ ${\widehat {y}}$ ${\widehat {y}}$

Данные в крайних значениях x указывают на то, что связь между y и x может быть нелинейной (посмотрите на красные точки относительно линии регрессии при низких и высоких значениях x ). Таким образом, мы обращаемся к MARS для автоматического построения модели с учетом нелинейности. Программное обеспечение MARS строит модель из заданных x и y следующим образом

{\begin{aligned}{\widehat {y}}=&\ 25\\&{}+6.1\max(0,x-13)\\&{}-3.1\max(0,13-x)\end{aligned}}

Простая модель MARS тех же данных

Рисунок справа показывает график этой функции: предсказанное против x , с исходными значениями y, снова показанными как красные точки. Предсказанный ответ теперь лучше соответствует исходным значениям y . ${\widehat {y}}$

MARS автоматически создал перегиб в предсказанном y , чтобы учесть нелинейность. Перегиб создается шарнирными функциями . Шарнирные функции — это выражения, начинающиеся с (где if , else ). Шарнирные функции более подробно описаны ниже. $\макс$ $\макс(а,б)$ $а$ $а>б$ $б$

В этом простом примере мы можем легко увидеть из графика, что y имеет нелинейную связь с x (и, возможно, догадаться, что y меняется пропорционально квадрату x ). Однако, в общем случае будет несколько независимых переменных , и связь между y и этими переменными будет неясной и нелегко увидеть при построении графика. Мы можем использовать MARS, чтобы обнаружить эту нелинейную связь.

Пример выражения MARS с несколькими переменными:

{\begin{aligned}\mathrm {ozone} =&\ 5,2\\&{}+0,93\max(0,\mathrm {temp} -58)\\&{}-0,64\max(0, \mathrm {temp} -68)\\&{}-0,046\max(0,234-\mathrm {ibt} )\\&{}-0.016\max(0,\mathrm {wind} -7)\max(0,200-\mathrm {vis} )\end{aligned}}

Переменное взаимодействие в модели MARS

Это выражение моделирует загрязнение воздуха (уровень озона) как функцию температуры и нескольких других переменных. Обратите внимание, что последний член в формуле (в последней строке) включает взаимодействие между и . $\mathrm {ветер}$ $\mathrm {vis}$

Рисунок справа отображает прогнозируемые значения и , а другие переменные зафиксированы на своих медианных значениях. Рисунок показывает, что ветер не влияет на уровень озона, если только видимость не низкая. Мы видим, что MARS может строить довольно гибкие поверхности регрессии, комбинируя функции шарнира . $\mathrm {озон}$ $\mathrm {ветер}$ $\mathrm {vis}$

Чтобы получить приведенное выше выражение, процедура построения модели MARS автоматически выбирает, какие переменные использовать (некоторые переменные важны, другие нет), положения перегибов в шарнирных функциях и способ комбинирования шарнирных функций.

Модель МАРС

MARS строит модели вида

{\widehat {f}}(x)=\sum _{i=1}^{k}c_{i}B_{i}(x).

Модель представляет собой взвешенную сумму базисных функций . Каждая из них является постоянным коэффициентом. Например, каждая строка в формуле для озона выше представляет собой одну базисную функцию, умноженную на ее коэффициент. $B_{i}(x)$ $c_{i}$

Каждая базисная функция принимает одну из следующих трех форм: $B_{i}(x)$

1) константа 1. Существует только один такой член, отсекаемый член. В приведенной выше формуле озона отсекаемый член равен 5,2.

2) шарнирная функция. Шарнирная функция имеет вид или . MARS автоматически выбирает переменные и значения этих переменных для узлов шарнирных функций. Примеры таких базисных функций можно увидеть в средних трех строках формулы озона. $\max(0,x-{\text{константа}})$ $\max(0,{\text{константа}}-x)$

3) произведение двух или более шарнирных функций. Эти базисные функции могут моделировать взаимодействие между двумя или более переменными. Примером может служить последняя строка формулы озона.

Функции шарнира

Зеркальная пара шарнирных функций с узлом при x=3,1

Ключевой частью моделей MARS являются шарнирные функции, принимающие форму

\макс(0,xc)

или

\макс(0,cx)

где — константа, называемая узлом . На рисунке справа показана зеркальная пара функций шарнира с узлом в точке 3.1. $с$

Функция шарнира равна нулю для части своего диапазона, поэтому может использоваться для разбиения данных на непересекающиеся области, каждая из которых может обрабатываться независимо. Так, например, зеркальная пара функций шарнира в выражении

6.1\макс(0,x-13)-3.1\макс(0,13-x)

создает кусочно -линейный график, показанный для простой модели MARS в предыдущем разделе.

Можно предположить, что из шарнирных функций можно сформировать только кусочно-линейные функции, но шарнирные функции можно перемножать, образуя нелинейные функции.

Функции шарнира также называются пандусом , хоккейной клюшкой или выпрямительной функцией. Вместо обозначения, используемого в этой статье, функции шарнира часто представляются с помощью где средства принимают положительную часть. $\макс$ $[\pm (x_{i}-c)]_{+}$ $[\cdot ]_{+}$

Процесс построения модели

MARS строит модель в два этапа: прямой и обратный проход. Этот двухэтапный подход аналогичен подходу, используемому рекурсивными деревьями разбиения .

Пас вперед

MARS начинается с модели, которая состоит только из свободного члена (который является средним значением отклика).

Затем MARS многократно добавляет базисную функцию парами к модели. На каждом шаге он находит пару базисных функций, которая дает максимальное снижение остаточной ошибки суммы квадратов (это жадный алгоритм ). Две базисные функции в паре идентичны, за исключением того, что для каждой функции используется другая сторона зеркальной функции шарнира. Каждая новая базисная функция состоит из члена, уже имеющегося в модели (который, возможно, может быть отсекаемым членом), умноженного на новую функцию шарнира. Функция шарнира определяется переменной и узлом, поэтому для добавления новой базисной функции MARS должен выполнить поиск по всем комбинациям следующего:

1) существующие термины (в данном контексте называемые родительскими терминами )

2) все переменные (чтобы выбрать одну для новой базисной функции)

3) все значения каждой переменной (для узла новой шарнирной функции).

Для расчета коэффициента каждого члена MARS применяет линейную регрессию к членам.

Этот процесс добавления членов продолжается до тех пор, пока изменение остаточной ошибки не станет слишком малым для продолжения или пока не будет достигнуто максимальное количество членов. Максимальное количество членов указывается пользователем перед началом построения модели.

Поиск на каждом шаге обычно выполняется методом грубой силы , но ключевым аспектом MARS является то, что из-за природы шарнирных функций поиск может быть выполнен быстро с использованием быстрого метода наименьших квадратов. Поиск методом грубой силы можно ускорить, используя эвристику, которая уменьшает количество родительских терминов, рассматриваемых на каждом шаге («Быстрый MARS» ^[4] ).

Обратный проход

Прямой проход обычно переобучает модель. Чтобы построить модель с лучшей способностью к обобщению, обратный проход обрезает модель, удаляя наименее эффективный член на каждом шаге, пока не найдет лучшую подмодель. Подмножества моделей сравниваются с использованием критерия обобщенной перекрестной проверки (GCV), описанного ниже.

Обратный проход имеет преимущество перед прямым проходом: на любом шаге он может выбрать любой термин для удаления, тогда как прямой проход на каждом шаге может видеть только следующую пару терминов.

Прямой проход добавляет члены парами, но обратный проход обычно отбрасывает одну сторону пары, и поэтому члены часто не видны парами в окончательной модели. Парный шарнир можно увидеть в уравнении для в первом примере MARS выше; в примере с озоном не сохраняется ни одной полной пары. ${\widehat {y}}$

Обобщенная перекрестная проверка

Обратный проход сравнивает производительность различных моделей с использованием обобщенной перекрестной проверки (GCV), второстепенного варианта информационного критерия Акаике, который аппроксимирует оценку перекрестной проверки с исключением одного в особом случае, когда ошибки являются гауссовыми или когда используется квадратичная функция потери ошибок. GCV был введен Крейвеном и Вахбой и расширен Фридманом для MARS; более низкие значения GCV указывают на лучшие модели. Формула для GCV следующая:

GCV = RSS / ( N · (1 − (эффективное число параметров) / N ) ² )

где RSS — остаточная сумма квадратов, измеренная на обучающих данных, а N — количество наблюдений (количество строк в матрице x ).

Эффективное число параметров определяется как

(эффективное число параметров) = (число членов Марса) + (штраф) · ((число членов Марса) − 1 ) / 2

где штраф обычно равен 2 (давая результаты, эквивалентные информационному критерию Акаике ), но может быть увеличен пользователем по его желанию.

Обратите внимание, что

(количество терминов Марса − 1) / 2

— это число узлов шарнирной функции, поэтому формула штрафует добавление узлов. Таким образом, формула GCV корректирует (т. е. увеличивает) обучающий RSS, чтобы штрафовать более сложные модели. Мы штрафуем гибкость, потому что слишком гибкие модели будут моделировать конкретную реализацию шума в данных, а не просто систематическую структуру данных.

Ограничения

Одно ограничение уже упоминалось: пользователь может указать максимальное количество терминов в прямом проходе.

Дополнительное ограничение можно наложить на прямой проход, указав максимально допустимую степень взаимодействия. Обычно допускается только одна или две степени взаимодействия, но можно использовать и более высокие степени, если данные того требуют. Максимальная степень взаимодействия в первом примере MARS выше равна единице (т. е. отсутствие взаимодействий или аддитивная модель ); в примере с озоном она равна двум.

Возможны и другие ограничения на прямой проход. Например, пользователь может указать, что взаимодействия разрешены только для определенных входных переменных. Такие ограничения могут иметь смысл из-за знания процесса, который сгенерировал данные.

Плюсы и минусы

Ни один метод регрессионного моделирования не является лучшим для всех ситуаций. Приведенные ниже рекомендации призваны дать представление о плюсах и минусах MARS, но из рекомендаций будут исключения. Полезно сравнить MARS с рекурсивным разбиением , и это сделано ниже. (Рекурсивное разбиение также обычно называют деревьями регрессии , деревьями решений или CART ; подробности см. в статье о рекурсивном разбиении ).

Модели MARS более гибкие, чем модели линейной регрессии .
Модели MARS просты для понимания и интерпретации. ^[5] Сравните уравнение для концентрации озона выше, скажем, с внутренностями обученной нейронной сети или случайного леса .
MARS может обрабатывать как непрерывные, так и категориальные данные . ^[6]^[7] MARS, как правило, лучше, чем рекурсивное разбиение для числовых данных, поскольку шарниры больше подходят для числовых переменных, чем кусочно-константная сегментация, используемая рекурсивным разбиением.
Построение моделей MARS часто требует небольшой подготовки данных или не требует ее вообще. ^[5] Функции шарнира автоматически разделяют входные данные, поэтому влияние выбросов сдерживается. В этом отношении MARS похож на рекурсивное разбиение , которое также разделяет данные на непересекающиеся области, хотя и использует другой метод.
MARS (как и рекурсивное разбиение) выполняет автоматический выбор переменных (то есть включает важные переменные в модель и исключает неважные). Однако в выборе может быть некоторая произвольность, особенно когда есть коррелированные предикторы, и это может повлиять на интерпретируемость. ^[5]
Модели MARS, как правило, имеют хороший компромисс смещения-дисперсии. Модели достаточно гибки для моделирования нелинейности и переменных взаимодействий (поэтому модели MARS имеют довольно низкое смещение), однако ограниченная форма базисных функций MARS препятствует слишком большой гибкости (поэтому модели MARS имеют довольно низкое смещение).
MARS подходит для обработки больших наборов данных, и реализации работают очень быстро. Однако рекурсивное разбиение может быть быстрее, чем MARS ^{[ необходима цитата ]} .
В моделях MARS, как и в любой непараметрической регрессии, доверительные интервалы параметров и другие проверки модели не могут быть рассчитаны напрямую (в отличие от моделей линейной регрессии ). Вместо этого для проверки модели необходимо использовать перекрестную проверку и связанные с ней методы.
Реализации earth, mda, и polsplineне допускают пропусков значений в предикторах, но свободные реализации деревьев регрессии (такие как rpartи party) допускают пропуски значений, используя метод, называемый суррогатным разбиением.
Модели MARS способны делать прогнозы очень быстро, поскольку для этого требуется только оценить линейную функцию предикторов.
Полученная подобранная функция является непрерывной, в отличие от рекурсивного разбиения, которое может дать более реалистичную модель в некоторых ситуациях. (Однако модель не является гладкой или дифференцируемой).

Расширения и связанные с ними концепции

Обобщенные линейные модели (GLM) могут быть включены в модели MARS путем применения функции связи после построения модели MARS. Так, например, модели MARS могут включать логистическую регрессию для прогнозирования вероятностей.
Нелинейная регрессия используется, когда известна базовая форма функции, и регрессия используется только для оценки параметров этой функции. MARS, с другой стороны, оценивает сами функции, хотя и с жесткими ограничениями на природу функций. (Эти ограничения необходимы, поскольку обнаружение модели из данных является обратной задачей , которая не может быть корректно поставлена без ограничений на модель.)
Рекурсивное разбиение (обычно называемое CART). MARS можно рассматривать как обобщение рекурсивного разбиения, которое позволяет создавать непрерывные модели, которые могут лучше подходить для числовых данных.
Обобщенные аддитивные модели . В отличие от MARS, GAM подгоняют гладкие лессовые или полиномиальные сплайны , а не функции шарнира, и они не моделируют автоматически взаимодействия переменных. Более гладкая подгонка и отсутствие регрессионных членов уменьшают дисперсию по сравнению с MARS, но игнорирование взаимодействий переменных может ухудшить смещение.
TSMARS. Временной ряд Mars — это термин, используемый, когда модели MARS применяются в контексте временных рядов. Обычно в этой настройке предикторами являются запаздывающие значения временных рядов, приводящие к моделям авторегрессионного сплайна. Эти модели и расширения для включения моделей скользящего среднего сплайна описаны в "Моделирование и прогнозирование одномерных временных рядов с использованием TSMARS: исследование пороговых авторегрессионных, сезонных и скользящих средних моделей временных рядов с использованием TSMARS".
Байесовский MARS (BMARS) использует ту же форму модели, но строит модель с использованием байесовского подхода. Он может прийти к разным оптимальным моделям MARS, поскольку подход к построению модели отличается. Результатом BMARS обычно является ансамбль апостериорных выборок моделей MARS, что позволяет делать вероятностные прогнозы. ^[8]

Смотрите также

Ссылки

^ Фридман, Дж. Х. (1991). «Многомерные адаптивные регрессионные сплайны». Анналы статистики . 19 (1): 1–67. CiteSeerX 10.1.1.382.970 . doi :10.1214/aos/1176347963. JSTOR 2241837. MR 1091842. Zbl 0765.62064.
^ Пакет CRAN земля
^ Земля – Многомерные адаптивные регрессионные сплайны в Orange (библиотека машинного обучения Python)
^ Фридман, Дж. Х. (1993) Fast MARS , Стэнфордский университет, кафедра статистики, Технический отчет 110
^ abc Kuhn, Max; Johnson, Kjell (2013). Прикладное прогностическое моделирование . Нью-Йорк, Нью-Йорк: Springer New York. doi :10.1007/978-1-4614-6849-3. ISBN 9781461468486.
^ Фридман, Джером Х. (1993). «Оценка функций смешанных порядковых и категориальных переменных с использованием адаптивных сплайнов». В Стефан Моргенталер; Эльвезио Ронкетти; Вернер Штаэль (ред.). Новые направления в статистическом анализе данных и надежности . Биркхаузер.
^ Фридман, Джером Х. (1991-06-01). "Оценка функций смешанных порядковых и категориальных переменных с использованием адаптивных сплайнов". DTIC . Архивировано из оригинала 11 апреля 2022 г. Получено 11 апреля 2022 г.
^ Денисон, Д. Г. Т.; Маллик, Б. К.; Смит, А. Ф. М. (1 декабря 1998 г.). «Байесовский MARS» (PDF) . Статистика и вычисления . 8 (4): 337–346. doi :10.1023/A:1008824606259. ISSN 1573-1375. S2CID 12570055.

Дальнейшее чтение

Hastie T., Tibshirani R. и Friedman JH (2009) Элементы статистического обучения, 2-е издание. Springer, ISBN 978-0-387-84857-0 (есть раздел о MARS)
Faraway J. (2005) Расширение линейной модели с помощью R, CRC, ISBN 978-1-58488-424-8 (содержит пример использования MARS с R)
Heping Zhang и Burton H. Singer (2010) Recursive Partitioning and Applications, 2-е издание. Springer, ISBN 978-1-4419-6823-4 (содержит главу о MARS и обсуждает некоторые изменения в алгоритме)
Денисон Д.Г.Т., Холмс К.К., Маллик Б.К. и Смит А.Ф.М. (2004) Байесовские методы нелинейной классификации и регрессии, Wiley, ISBN 978-0-471-49036-4
Берк РА (2008) Статистическое обучение с точки зрения регрессии , Springer, ISBN 978-0-387-77500-5

Внешние ссылки

Для настройки моделей типа MARS доступно несколько бесплатных и коммерческих пакетов программного обеспечения.

Бесплатное программное обеспечение

Пакеты R :
- earthфункция в earthпакете
- marsфункция в mdaпакете
- polymarsФункция в polsplineпакете. Не МАРС Фридмана.
- bassфункция в BASSпакете для байесовского MARS.
Код Matlab:
- ARESLab: набор инструментов адаптивных регрессионных сплайнов для Matlab
- Код из книги «Байесовские методы нелинейной классификации и регрессии» ^[1] для байесовского MARS.
Питон
- Земля – Многомерные адаптивные регрессионные сплайны
- py-земля
- pyBASS для байесовского MARS.

Коммерческое программное обеспечение

MARS от Salford Systems. Основан на реализации Фридмана.
STATISTICA Data Miner от StatSoft
ADAPTIVEREG от SAS.

^ Денисон, DGT; Холмс, CC; Маллик, BK; Смит, AFM (2002). Байесовские методы для нелинейной классификации и регрессии . Чичестер, Англия: Wiley. ISBN 978-0-471-49036-4.