В надежной статистике надежная регрессия стремится преодолеть некоторые ограничения традиционного регрессионного анализа . Регрессионный анализ моделирует связь между одной или несколькими независимыми переменными и зависимой переменной . Стандартные типы регрессии, такие как обычные наименьшие квадраты , обладают благоприятными свойствами, если их основные предположения верны, но в противном случае могут давать вводящие в заблуждение результаты (т. е. не являются надежными к нарушениям предположений). Надежные методы регрессии предназначены для ограничения влияния нарушений предположений базовым процессом генерации данных на оценки регрессии.
Например, оценки наименьших квадратов для регрессионных моделей очень чувствительны к выбросам : выброс с величиной ошибки, вдвое превышающей типичное наблюдение, вносит в четыре (два квадрата) раза больше вклада в квадратичную потерю ошибки и, следовательно, имеет большее влияние на оценки регрессии. Функция потерь Хубера является надежной альтернативой стандартной квадратичной потере ошибки, которая уменьшает вклад выбросов в квадратичную потерю ошибки, тем самым ограничивая их влияние на оценки регрессии.
Один из случаев, когда следует рассмотреть надежную оценку, — это сильное подозрение на гетероскедастичность . В гомоскедастичной модели предполагается, что дисперсия члена ошибки постоянна для всех значений x . Гетероскедастичность позволяет дисперсии зависеть от x , что более точно для многих реальных сценариев. Например, дисперсия расходов часто больше для людей с более высоким доходом, чем для людей с более низким доходом. Программные пакеты обычно по умолчанию используют гомоскедастическую модель, хотя такая модель может быть менее точной, чем гетероскедастическая модель. Один простой подход (Tofallis, 2008) заключается в применении наименьших квадратов к процентным ошибкам, поскольку это снижает влияние больших значений зависимой переменной по сравнению с обычными наименьшими квадратами.
Другая распространенная ситуация, в которой используется надежная оценка, возникает, когда данные содержат выбросы. При наличии выбросов, которые не являются результатом того же процесса генерации данных, что и остальные данные, оценка наименьших квадратов неэффективна и может быть смещена. Поскольку предсказания наименьших квадратов смещены в сторону выбросов, а дисперсия оценок искусственно завышена, результатом является то, что выбросы могут быть замаскированы. (Во многих ситуациях, включая некоторые области геостатистики и медицинской статистики, именно выбросы представляют интерес.)
Хотя иногда утверждается, что наименьшие квадраты (или классические статистические методы в целом) являются надежными, они надежны только в том смысле, что частота ошибок типа I не увеличивается при нарушениях модели. Фактически, частота ошибок типа I имеет тенденцию быть ниже номинального уровня, когда присутствуют выбросы, и часто наблюдается резкое увеличение частоты ошибок типа II . Снижение частоты ошибок типа I было названо консерватизмом классических методов.
Несмотря на их превосходную производительность по сравнению с оценкой наименьших квадратов во многих ситуациях, надежные методы регрессии все еще не получили широкого распространения. Несколько причин могут помочь объяснить их непопулярность (Hampel et al. 1986, 2005). Одна из возможных причин заключается в том, что существует несколько конкурирующих методов [ требуется ссылка ] и в этой области было много фальстартов. Кроме того, вычисление надежных оценок требует гораздо больше вычислительных ресурсов, чем оценка наименьших квадратов; однако в последние годы это возражение стало менее актуальным, поскольку вычислительная мощность значительно возросла. Другая причина может заключаться в том, что некоторые популярные статистические программные пакеты не смогли реализовать эти методы (Stromberg, 2004). Возможно, самая важная причина непопулярности надежных методов регрессии заключается в том, что когда дисперсия ошибок довольно велика или отсутствует, для любого заданного набора данных любая оценка, надежная или иная, коэффициентов регрессии, скорее всего, будет практически бесполезной, если только выборка не будет достаточно большой.
Хотя внедрение надежных методов было медленным, современные учебники по статистике часто включают обсуждение этих методов (например, книги Себера и Ли, а также Фаравея [ неопределенно ] ; для хорошего общего описания того, как различные надежные методы регрессии развивались друг из друга, см. книгу Андерсена [ неопределенно ] ). Кроме того, современные статистические программные пакеты, такие как R , Statsmodels, Stata и S-PLUS, включают значительную функциональность для надежной оценки (см., например, книги Венейблса и Рипли, а также Маронны и др. [ неопределенно ] ).
Простейшими методами оценки параметров в регрессионной модели, которые менее чувствительны к выбросам, чем оценки наименьших квадратов, являются использование наименьших абсолютных отклонений . Даже в этом случае грубые выбросы все еще могут оказывать значительное влияние на модель, мотивируя исследования в направлении еще более надежных подходов.
В 1964 году Хубер ввел M-оценку для регрессии. M в M-оценке означает «тип максимального правдоподобия». Метод устойчив к выбросам в переменной отклика, но оказался неустойчивым к выбросам в объясняющих переменных ( точкам рычага ). Фактически, когда в объясняющих переменных есть выбросы, метод не имеет никаких преимуществ перед наименьшими квадратами.
В 1980-х годах было предложено несколько альтернатив M-оценке в качестве попыток преодолеть отсутствие сопротивления. См. книгу Rousseeuw и Leroy [ vain ] для очень практичного обзора. Least trimmed squares (LTS) является жизнеспособной альтернативой и в настоящее время (2007) является предпочтительным выбором Rousseeuw и Ryan (1997, 2008). Оценка Тейла-Сена имеет более низкую точку разбивки, чем LTS, но является статистически эффективной и популярной. Другим предложенным решением была S-оценка. Этот метод находит линию (плоскость или гиперплоскость), которая минимизирует надежную оценку масштаба (откуда метод получает S в своем названии) остатков. Этот метод очень устойчив к точкам рычага и надежен к выбросам в ответе. Однако этот метод также оказался неэффективным.
Оценка MM пытается сохранить надежность и устойчивость оценки S, одновременно получая эффективность оценки M. Метод заключается в нахождении высоконадежной и устойчивой оценки S, которая минимизирует оценку M масштаба остатков (первая M в названии метода). Оцененный масштаб затем сохраняется постоянным, пока находится близкая к M оценка параметров (вторая M).
Другой подход к надежной оценке регрессионных моделей заключается в замене нормального распределения распределением с тяжелым хвостом. Сообщается, что t -распределение с 4–6 степенями свободы является хорошим выбором в различных практических ситуациях. Байесовская надежная регрессия, будучи полностью параметрической, в значительной степени опирается на такие распределения.
При предположении остатков, распределенных по t , распределение представляет собой семейство масштабов местоположения. То есть, . Степени свободы распределения по t иногда называют параметром эксцесса . Ланге, Литтл и Тейлор (1989) подробно обсуждают эту модель с небайесовской точки зрения. Байесовский отчет появляется в работе Гельмана и др. (2003).
Альтернативный параметрический подход заключается в предположении, что остатки следуют смеси нормальных распределений (Daemi et al. 2019); в частности, загрязненному нормальному распределению , в котором большинство наблюдений происходят из заданного нормального распределения, но небольшая доля происходит из нормального распределения с гораздо более высокой дисперсией. То есть остатки имеют вероятность происхождения из нормального распределения с дисперсией , где мало, и вероятность происхождения из нормального распределения с дисперсией для некоторых :
Обычно, . Иногда это называют моделью -загрязнения.
Параметрические подходы имеют то преимущество, что теория правдоподобия обеспечивает "готовый" подход к выводу (хотя для моделей смесей, таких как модель -загрязнения, обычные условия регулярности могут не применяться), и можно строить имитационные модели из подгонки. Однако такие параметрические модели по-прежнему предполагают, что базовая модель буквально верна. Таким образом, они не учитывают перекошенные остаточные распределения или конечную точность наблюдений.
Другим надежным методом является использование единичных весов ( Wainer & Thissen, 1976), метод, который можно применять, когда есть несколько предикторов одного результата. Эрнест Берджесс (1928) использовал единичные веса для прогнозирования успеха условно-досрочного освобождения. Он оценил 21 положительный фактор как присутствующий (например, «отсутствие предыдущего ареста» = 1) или отсутствующий («предыдущий арест» = 0), затем суммировал для получения предикторного балла, который, как было показано, является полезным предиктором успеха условно-досрочного освобождения. Сэмюэл С. Уилкс (1938) показал, что почти все наборы регрессионных весов суммируются в композиты, которые очень сильно коррелируют друг с другом, включая единичные веса, результат, называемый теоремой Уилкса (Ree, Carretta, & Earles, 1998). Робин Доус (1979) исследовал принятие решений в прикладных условиях, показав, что простые модели с единичными весами часто превосходят экспертов-людей. Бобко, Рот и Бастер (2007) проанализировали литературу по удельным весам и пришли к выводу, что десятилетия эмпирических исследований показывают, что удельные веса ведут себя аналогично обычным регрессионным весам при перекрестной проверке.
Данные BUPA по печени изучались различными авторами, включая Бреймана (2001). Данные можно найти на странице классических наборов данных , а в статье о преобразовании Бокса-Кокса есть некоторое обсуждение . Ниже представлен график логарифмов ALT и логарифмов γGT. Две линии регрессии — это те, которые были оценены с помощью обычного метода наименьших квадратов (OLS) и надежной оценки ММ. Анализ был выполнен в R с использованием программного обеспечения, предоставленного Venables и Ripley (2002).
Две линии регрессии кажутся очень похожими (и это не является чем-то необычным для набора данных такого размера). Однако преимущество надежного подхода становится очевидным, когда рассматриваются оценки остаточного масштаба. Для обычного метода наименьших квадратов оценка масштаба составляет 0,420 по сравнению с 0,373 для надежного метода. Таким образом, относительная эффективность обычного метода наименьших квадратов по отношению к оценке ММ в этом примере составляет 1,266. Эта неэффективность приводит к потере мощности при проверке гипотез и к неоправданно широким доверительным интервалам для оцененных параметров.
Другим следствием неэффективности обычного метода наименьших квадратов является то, что несколько выбросов маскируются, поскольку оценка остаточного масштаба завышена; масштабированные остатки сдвинуты ближе к нулю, чем при использовании более подходящей оценки масштаба. Графики масштабированных остатков из двух моделей показаны ниже. Переменная на оси x — это просто номер наблюдения, как он появился в наборе данных. Rousseeuw and Leroy (1986) содержит много таких графиков.
Горизонтальные опорные линии находятся на 2 и −2, так что любой наблюдаемый масштабированный остаток за пределами этих границ можно считать выбросом. Очевидно, что метод наименьших квадратов приводит к тому, что многие интересные наблюдения маскируются.
В то время как в одно- или двухмерном измерении обнаружение выбросов с использованием классических методов может быть выполнено вручную, при больших наборах данных и в высоких измерениях проблема маскировки может сделать идентификацию многих выбросов невозможной. Надежные методы автоматически обнаруживают эти наблюдения, предлагая серьезное преимущество перед классическими методами при наличии выбросов.