stringtranslate.com

Сегментированная регрессия

Сегментированная регрессия , также известная как кусочная регрессия или регрессия сломанной палки , представляет собой метод регрессионного анализа , в котором независимая переменная разбивается на интервалы, и отдельный сегмент линии подгоняется к каждому интервалу. Сегментированный регрессионный анализ также может быть выполнен на многомерных данных путем разбиения различных независимых переменных. Сегментированная регрессия полезна, когда независимые переменные, сгруппированные в разные группы, демонстрируют разные отношения между переменными в этих областях. Границы между сегментами являются точками разрыва .

Сегментированная линейная регрессия — это сегментированная регрессия, при которой отношения в интервалах получаются с помощью линейной регрессии .

Сегментированная линейная регрессия, два сегмента

1-я конечность горизонтальная
1-я конечность наклонная вверх
1-я конечность наклонная вниз

Сегментированная линейная регрессия с двумя сегментами, разделенными точкой разрыва, может быть полезна для количественной оценки резкого изменения функции отклика (Yr) переменного влиятельного фактора ( x ). Точка разрыва может быть интерпретирована как критическое , безопасное или пороговое значение, за пределами или ниже которого возникают (не)желательные эффекты. Точка разрыва может быть важна при принятии решений [1]

На рисунках показаны некоторые из возможных результатов и типов регрессии.

Сегментированный регрессионный анализ основан на наличии набора данных ( y, x ), в котором y является зависимой переменной , а x — независимой переменной .

Метод наименьших квадратов, применяемый отдельно к каждому сегменту, с помощью которого строятся две линии регрессии, максимально точно соответствующие набору данных, при этом минимизируется сумма квадратов разностей (SSD) между наблюдаемыми ( y ) и вычисленными (Yr) значениями зависимой переменной, что приводит к следующим двум уравнениям:

где:

Yr — ожидаемое (прогнозируемое) значение y для определенного значения x ;
A 1 и A 2коэффициенты регрессии (указывающие наклон отрезков прямой);
K 1 и K 2константы регрессии (указывающие точку пересечения с осью Y ).

Данные могут отображать множество типов или тенденций, [2] см. рисунки.

Метод также дает два коэффициента корреляции (R):

и

где:

это минимальный размер SSD на сегмент

и

Y a1 и Y a2 — средние значения y в соответствующих сегментах.

При определении наиболее подходящей тенденции необходимо провести статистические тесты , чтобы убедиться, что эта тенденция надежна (значима).

Если не удается обнаружить значимую точку останова, необходимо прибегнуть к регрессии без точки останова.

Пример

Сегментированная линейная регрессия, тип 3б

Для синего рисунка справа, показывающего связь между урожайностью горчицы (Yr = Ym, т/га) и засоленностью почвы ( x = Ss, выраженной как электропроводность почвенного раствора EC в дСм/м), обнаружено, что: [3]

BP = 4,93, A 1 = 0, K 1 = 1,74, A 2 = −0,129, K 2 = 2,38, R 1 2 = 0,0035 (незначимо), R 2 2 = 0,395 (значимо) и:

что свидетельствует о том, что засоление почвы < 4,93 дСм/м является безопасным, а засоление почвы > 4,93 дСм/м снижает урожайность на 0,129 т/га на единицу увеличения засоления почвы.

На рисунке также показаны доверительные интервалы и неопределенность, подробно описанные ниже.

Процедуры испытаний

Пример временного ряда, тип 5
Пример таблицы ANOVA: в этом случае введение точки разрыва имеет большое значение.

Для определения типа тренда используются следующие статистические тесты :

  1. значимость точки разрыва (BP) путем выражения BP как функции коэффициентов регрессии A 1 и A 2 и средних значений Y 1 и Y 2 данных y и средних значений X 1 и X 2 данных x (слева и справа от BP), используя законы распространения ошибок сложения и умножения для вычисления стандартной ошибки (SE) BP и применяя t-критерий Стьюдента .
  2. значимость A 1 и A 2 с применением t-распределения Стьюдента и стандартной ошибки SE для A 1 и A 2
  3. значимость разницы A 1 и A 2 с применением t-распределения Стьюдента с использованием SE их разницы.
  4. значимость разницы Y 1 и Y 2 с применением t-распределения Стьюдента с использованием SE их разницы.
  5. Более формальный статистический подход к проверке существования точки разрыва заключается в использовании псевдооценочного теста, который не требует оценки сегментированной линии. [4]

Кроме того, используются коэффициент корреляции всех данных (Ra), коэффициент детерминации или коэффициент объяснения, доверительные интервалы функций регрессии и анализ ANOVA . [5]

Коэффициент детерминации для всех данных (Cd), который должен быть максимизирован в условиях, установленных тестами значимости, находится из:

где Yr — ожидаемое (прогнозируемое) значение y согласно предыдущим уравнениям регрессии, а Ya — среднее значение всех значений y .

Коэффициент Cd варьируется от 0 (никакого объяснения) до 1 (полное объяснение, идеальное совпадение).
В чистой, несегментированной, линейной регрессии значения Cd и Ra 2 равны. В сегментированной регрессии Cd должен быть значительно больше Ra 2, чтобы оправдать сегментацию.

Оптимальное значение точки разрыва может быть найдено таким образом, чтобы коэффициент Cd был максимальным .

Диапазон отсутствия эффекта

Иллюстрация диапазона от X=0 до X=7,85, в котором эффект отсутствует.

Сегментированная регрессия часто используется для определения того, в каком диапазоне объясняющая переменная (X) не оказывает влияния на зависимую переменную (Y), в то время как за пределами досягаемости наблюдается четкий ответ, будь то положительный или отрицательный. Досягаемость отсутствия эффекта может быть обнаружена в начальной части домена X или, наоборот, в его последней части. Для анализа «отсутствия эффекта» применение метода наименьших квадратов для сегментированного регрессионного анализа [6] может быть не самым подходящим методом, поскольку цель скорее состоит в том, чтобы найти самый длинный отрезок, на котором отношение YX можно считать имеющим нулевой наклон, в то время как за пределами досягаемости наклон существенно отличается от нуля, но знание о наилучшем значении этого наклона не является существенным. Методом нахождения диапазона отсутствия эффекта является прогрессивная частичная регрессия [7] по диапазону, расширяющая диапазон небольшими шагами до тех пор, пока коэффициент регрессии не станет существенно отличаться от нуля.

На следующем рисунке точка разрыва находится при X=7,9, тогда как для тех же данных (см. синий рисунок выше для урожайности горчицы) метод наименьших квадратов дает точку разрыва только при X=4,9. Последнее значение ниже, но соответствие данных за точкой разрыва лучше. Следовательно, выбор метода будет зависеть от цели анализа.

Смотрите также

Ссылки

  1. ^ Анализ частоты и регрессии . Глава 6 в: HPRitzema (ред., 1994), Принципы и применение дренажа , Опубл. 16, стр. 175-224, Международный институт мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. ISBN  90-70754-33-9 . Бесплатная загрузка с веб-страницы [1], под номером 20, или напрямую в формате PDF: [2]
  2. ^ Исследование дренажа на фермерских полях: анализ данных . Часть проекта "Liquid Gold" Международного института мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. Скачать в формате PDF: [3]
  3. ^ RJOosterbaan, DPSharma, KNSingh и KVGKRao, 1990, Производство сельскохозяйственных культур и засоление почв: оценка полевых данных из Индии с помощью сегментированной линейной регрессии . В: Труды симпозиума по осушению земель для контроля засоления в засушливых и полузасушливых регионах, 25 февраля - 2 марта 1990 г., Каир, Египет, том 3, сессия V, стр. 373 - 383.
  4. ^ Муггео, В. М. Р. (2016). «Тестирование с неприятным параметром, присутствующим только при альтернативе: подход на основе оценок с применением к сегментированному моделированию» (PDF) . Журнал статистических вычислений и моделирования . 86 (15): 3059–3067. doi : 10.1080/00949655.2016.1149855. S2CID  124914264.
  5. ^ Статистическая значимость сегментированной линейной регрессии с точкой разрыва с использованием дисперсионного анализа и F-тестов . Скачать из [4] под номером 13, или напрямую в формате PDF: [5]
  6. ^ Сегментированный регрессионный анализ, Международный институт мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. Бесплатная загрузка с веб-страницы [6]
  7. ^ Частичный регрессионный анализ, Международный институт мелиорации и улучшения земель (ILRI), Вагенинген, Нидерланды. Бесплатная загрузка с веб-страницы [7]