Наименьшие абсолютные отклонения ( LAD ), также известные как наименьшие абсолютные ошибки ( LAE ), наименьшие абсолютные остатки ( LAR ) или наименьшие абсолютные значения ( LAV ), являются статистическим критерием оптимальности и статистическим методом оптимизации , основанным на минимизации суммы абсолютных отклонений (также суммы абсолютных остатков или суммы абсолютных ошибок ) или нормы L 1 таких значений. Он аналогичен методу наименьших квадратов , за исключением того, что он основан на абсолютных значениях вместо квадратов значений . Он пытается найти функцию , которая близко приближает набор данных путем минимизации остатков между точками, сгенерированными функцией, и соответствующими точками данных. Оценка LAD также возникает как оценка максимального правдоподобия , если ошибки имеют распределение Лапласа . Она была введена в 1757 году Роджером Джозефом Босковичем . [1]
Предположим, что набор данных состоит из точек ( x i , y i ) с i = 1, 2, ..., n . Мы хотим найти функцию f такую, что
Для достижения этой цели мы предполагаем, что функция f имеет определенную форму, содержащую некоторые параметры, которые необходимо определить. Например, простейшей формой будет линейная: f ( x ) = bx + c , где b и c — параметры, значения которых неизвестны, но которые мы хотели бы оценить. Менее просто, предположим, что f ( x ) является квадратичной , что означает, что f ( x ) = ax 2 + bx + c , где a , b и c еще неизвестны. (В более общем смысле, может быть не только один экспланатор x , но и несколько экспланаторов, все из которых появляются как аргументы функции f .)
Теперь ищем оценочные значения неизвестных параметров, которые минимизируют сумму абсолютных значений остатков:
Хотя идея регрессии наименьших абсолютных отклонений так же проста, как и идея регрессии наименьших квадратов, линия наименьших абсолютных отклонений не так проста для эффективного вычисления. В отличие от регрессии наименьших квадратов, регрессия наименьших абсолютных отклонений не имеет аналитического метода решения. Поэтому требуется итерационный подход. Ниже приведено перечисление некоторых методов решения наименьших абсолютных отклонений.
Методы на основе симплекса являются «предпочтительным» способом решения проблемы наименьших абсолютных отклонений. [7] Метод симплекса — это метод решения проблемы линейного программирования. Самым популярным алгоритмом является модифицированный алгоритм симплекса Барродейла-Робертса. Алгоритмы для IRLS, метода Весоловски и метода Ли можно найти в Приложении A к [7] среди других методов. Проверка всех комбинаций линий, пересекающих любые две точки данных (x, y), является еще одним методом нахождения линии наименьших абсолютных отклонений. Поскольку известно, что по крайней мере одна линия наименьших абсолютных отклонений пересекает по крайней мере две точки данных, этот метод найдет линию, сравнивая SAE (наименьшую абсолютную ошибку по точкам данных) каждой линии и выбирая линию с наименьшей SAE. Кроме того, если несколько линий имеют одинаковую наименьшую SAE, то линии очерчивают область множественных решений. Несмотря на простоту, этот окончательный метод неэффективен для больших наборов данных.
Задача может быть решена с помощью любого метода линейного программирования по следующей спецификации задачи. Мы хотим
относительно выбора значений параметров , где y i — значение i -го наблюдения зависимой переменной, а x ij — значение i- го наблюдения j -й независимой переменной ( j = 1,..., k ). Перепишем эту задачу в терминах искусственных переменных u i как
Эти ограничения приводят к тому, что при минимизации все они становятся равными , поэтому целевая функция эквивалентна исходной целевой функции. Поскольку эта версия постановки задачи не содержит оператора абсолютного значения, она находится в формате, который может быть решен с помощью любого пакета линейного программирования.
Существуют и другие уникальные свойства линии наименьших абсолютных отклонений. В случае набора данных ( x , y ) линия наименьших абсолютных отклонений всегда будет проходить по крайней мере через две точки данных, если только не существует множественных решений. Если существует множественные решения, то область допустимых решений наименьших абсолютных отклонений будет ограничена по крайней мере двумя линиями, каждая из которых проходит по крайней мере через две точки данных. В более общем смысле, если есть k регрессоров (включая константу), то по крайней мере одна оптимальная регрессионная поверхность пройдет через k точек данных. [8] : стр.936
Эта «фиксация» линии на точках данных может помочь понять свойство «нестабильности»: если линия всегда фиксируется по крайней мере в двух точках, то линия будет прыгать между различными наборами точек по мере изменения точек данных. «Фиксация» также помогает понять свойство «устойчивости»: если существует выброс, и линия наименьших абсолютных отклонений должна зафиксироваться на двух точках данных, выброс, скорее всего, не будет одной из этих двух точек, потому что это не минимизирует сумму абсолютных отклонений в большинстве случаев.
Одним из известных случаев существования множественных решений является набор точек, симметричных относительно горизонтальной линии, как показано на рисунке А ниже.
Чтобы понять, почему в случае, показанном на рисунке A, существует несколько решений, рассмотрим розовую линию в зеленой области. Ее сумма абсолютных ошибок составляет некоторое значение S. Если бы мы немного наклонили линию вверх, сохраняя ее в пределах зеленой области, сумма ошибок все еще была бы S. Она не изменилась бы, поскольку расстояние от каждой точки до линии увеличивается с одной стороны линии, в то время как расстояние до каждой точки с противоположной стороны линии уменьшается на точно такую же величину. Таким образом, сумма абсолютных ошибок остается прежней. Кроме того, поскольку можно наклонять линию на бесконечно малые приращения, это также показывает, что если есть более одного решения, то решений бесконечно много.
Ниже приведена таблица, в которой некоторые свойства метода наименьших абсолютных отклонений сравниваются со свойствами метода наименьших квадратов (для невырожденных задач). [9] [10]
*При условии, что количество точек данных больше или равно количеству признаков.
Метод наименьших абсолютных отклонений находит применение во многих областях благодаря своей надежности по сравнению с методом наименьших квадратов. Метод наименьших абсолютных отклонений надежен в том смысле, что он устойчив к выбросам в данных. LAD уделяет одинаковое внимание всем наблюдениям, в отличие от обычного метода наименьших квадратов (OLS), который, возводя остатки в квадрат, придает больший вес большим остаткам, то есть выбросам, в которых прогнозируемые значения далеки от фактических наблюдений. Это может быть полезно в исследованиях, где выбросам не нужно придавать больший вес, чем другим наблюдениям. Если важно придать больший вес выбросам, метод наименьших квадратов является лучшим выбором.
Если в сумме абсолютных значений остатков обобщить функцию абсолютного значения до наклонной функции абсолютного значения, которая на левой полупрямой имеет наклон , а на правой полупрямой имеет наклон , где , то получим квантильную регрессию . Случай дает стандартную регрессию по наименьшим абсолютным отклонениям и также известен как медианная регрессия .
Проблема наименьшего абсолютного отклонения может быть расширена для включения множественных объяснений, ограничений и регуляризации , например, линейная модель с линейными ограничениями: [11]
где — вектор-столбец коэффициентов, подлежащих оценке, b — отсекаемый отрезок, подлежащий оценке, x i — вектор-столбец i- х наблюдений по различным объясняющим переменным, y i — i -е наблюдение по зависимой переменной, а k — известная константа.
Регуляризация с помощью LASSO (оператор наименьшего абсолютного сжатия и выбора) также может быть объединена с LAD. [12]