Сегментированная регрессия

Сегментированная регрессия , также известная как кусочная регрессия или регрессия с ломаной линией , представляет собой метод регрессионного анализа , в котором независимая переменная разбивается на интервалы и каждому интервалу соответствует отдельный сегмент линии. Сегментированный регрессионный анализ также можно выполнить на многомерных данных путем разделения различных независимых переменных. Сегментированная регрессия полезна, когда независимые переменные, сгруппированные в разные группы, демонстрируют разные отношения между переменными в этих регионах. Границы между сегментами являются точками останова .

Сегментированная линейная регрессия — это сегментированная регрессия, при которой отношения в интервалах получаются с помощью линейной регрессии .

Сегментированная линейная регрессия, два сегмента

Сегментированная линейная регрессия с двумя сегментами, разделенными точкой останова, может быть полезна для количественной оценки резкого изменения функции отклика (Yr) варьирующегося влиятельного фактора ( x ). Точку останова можно интерпретировать как критическое , безопасное или пороговое значение, за которым или ниже которого возникают (не)желательные эффекты. Точка останова может быть важна при принятии решений ^[1]

На рисунках показаны некоторые полученные результаты и типы регрессии.

Сегментированный регрессионный анализ основан на наличии набора данных ( y, x ), в которых y является зависимой переменной , а x — независимой переменной .

Метод наименьших квадратов применяется отдельно к каждому сегменту, с помощью которого две линии регрессии создаются так, чтобы максимально точно соответствовать набору данных, при этом минимизируя сумму квадратов разностей (SSD) между наблюдаемыми ( y ) и расчетными (Yr) значениями. зависимой переменной приводит к следующим двум уравнениям:

Год = А ₁ . x + K ₁ для x < BP (точка останова)
Год = А ₂ . x + K ₂ для x > BP (точка останова)

где:

Yr — ожидаемое (прогнозированное) значение y для определенного значения x ;

A ₁ и A ₂ — коэффициенты регрессии (обозначающие наклон отрезков линии);

K ₁ и K ₂ являются константами регрессии (указывающими точку пересечения на оси y ).

Данные могут отражать множество типов или тенденций, ^[2] см. рисунки.

Этот метод также дает два коэффициента корреляции (R):

$R_{1}^{2}=1-{\frac {\sum (y-Y_{r})^{2}}{\sum (y-Y_{a1})^{2}}}$ для x < BP (точка останова)

$R_{2}^{2}=1-{\frac {\sum (y-Y_{r})^{2}}{\sum (y-Y_{a2})^{2}}}$ для x > BP (точка останова)

где:

\sum (y-Y_{r})^{2}

это минимизированный SSD на сегмент

Y _a1 и Y _a2 — средние значения y на соответствующих участках.

При определении наиболее подходящего тренда необходимо провести статистические тесты , чтобы убедиться, что этот тренд надежен (значим).

Когда не удается обнаружить значимую точку останова, необходимо вернуться к регрессии без точки останова.

Пример

Для синего рисунка справа, который показывает связь между урожайностью горчицы (Yr = Ym, т/га) и засолением почвы ( x = Ss, выраженной как электропроводность почвенного раствора EC в дСм/м), обнаружено, что : ^[3]

БП = 4,93, А ₁ = 0, К ₁ = 1,74, А ₂ = -0,129, К ₂ = 2,38, R ₁² = 0,0035 (незначимо), R ₂² = 0,395 (значимо) и:

Ym = 1,74 т/га для Ss < 4,93 (точка перелома)
Ym = −0,129 Ss + 2,38 т/га для Ss > 4,93 (точка перелома)

что указывает на то, что засоленность почвы < 4,93 дСм/м безопасна, а засоление почвы > 4,93 дСм/м снижает урожайность при 0,129 т/га на единицу увеличения засоления почвы.

На рисунке также показаны доверительные интервалы и неопределенность, как описано ниже.

Процедуры испытаний

Для определения типа тренда используются следующие статистические тесты :

значимость точки останова (BP) путем выражения BP как функции коэффициентов регрессии A ₁ и A ₂ и средних значений Y ₁ и Y ₂ данных y и средних значений X ₁ и X ₂ данных x (слева и справа). BP), используя законы распространения ошибок при сложении и умножении для вычисления стандартной ошибки (SE) BP и применяя t-критерий Стьюдента
значимость A ₁ и A ₂ с применением t-распределения Стьюдента и стандартной ошибки SE A ₁ и A ₂
значимость разницы A ₁ и A ₂ с применением t-распределения Стьюдента с использованием SE их разницы.
значимость разницы Y ₁ и Y ₂ с применением t-распределения Стьюдента с использованием SE их разницы.
Более формальный статистический подход к проверке существования точки останова заключается в тесте псевдооценки, который не требует оценки сегментированной линии. ^[4]

Кроме того, используются коэффициент корреляции всех данных (Ra), коэффициент детерминации или коэффициент объяснения, доверительные интервалы функций регрессии и анализ ANOVA . ^[5]

Коэффициент детерминации для всех данных (Cd), который должен быть максимизирован в условиях, установленных критериями значимости, находится из:

$C_{d}=1-{\sum (y-Y_{r})^{2} \over \sum (y-Y_{a})^{2}}$

где Yr — ожидаемое (прогнозированное) значение y согласно предыдущим уравнениям регрессии, а Ya — среднее всех значений y .

Коэффициент Cd варьируется от 0 (полное отсутствие объяснения) до 1 (полное объяснение, идеальное совпадение).
В чистой несегментированной линейной регрессии значения Cd и Ra ² равны. В сегментированной регрессии Cd должен быть значительно больше, чем Ra ² , чтобы оправдать сегментацию.

Оптимальное значение точки излома может быть найдено таким, чтобы коэффициент Cd был максимальным .

Диапазон без эффекта

Сегментированная регрессия часто используется для определения того, в каком диапазоне объясняющая переменная (X) не оказывает влияния на зависимую переменную (Y), в то время как за пределами досягаемости существует четкий ответ, будь то положительный или отрицательный. Область отсутствия эффекта может быть обнаружена в начальной части X-домена или, наоборот, в его последней части. Для анализа «без эффекта» применение метода наименьших квадратов для анализа сегментированной регрессии ^[6] может быть не самым подходящим методом, поскольку цель состоит, скорее, в том, чтобы найти самый длинный участок, на котором можно считать, что отношение YX имеет нулевое значение. уклон, в то время как за пределами досягаемости уклон существенно отличается от нуля, но знание о наилучшем значении этого уклона не является существенным. Методом определения диапазона отсутствия эффекта является прогрессивная частичная регрессия ^[7] по диапазону, расширяющая диапазон небольшими шагами до тех пор, пока коэффициент регрессии не станет значительно отличаться от нуля.

На следующем рисунке точка излома находится при X=7,9, тогда как для тех же данных (см. синий рисунок выше, где показан выход горчицы), метод наименьших квадратов дает точку излома только при X=4,9. Последнее значение ниже, но соответствие данных за точкой останова лучше. Следовательно, от цели анализа будет зависеть, какой метод необходимо использовать.

Сегментированная регрессия

Сегментированная линейная регрессия, два сегмента

Пример

Процедуры испытаний

Диапазон без эффекта

Смотрите также

Рекомендации