В статистике регрессия с единичным весом является упрощенной и надежной версией ( Wainer & Thissen, 1976) множественного регрессионного анализа , где оценивается только свободный член. То есть, он соответствует модели
где каждая из них является двоичной переменной , возможно, умноженной на произвольный вес.
Сравните это с более распространенной моделью множественной регрессии, где каждый предиктор имеет свой собственный оценочный коэффициент:
В социальных науках единично-взвешенная регрессия иногда используется для бинарной классификации , т. е. для прогнозирования ответа «да-нет» , где означает «нет», «да». Ее легче интерпретировать, чем множественную линейную регрессию (известную как линейный дискриминантный анализ в случае классификации).
Единично-взвешенная регрессия — это метод надежной регрессии , который выполняется в три этапа. Во-первых, выбираются предикторы для интересующего результата; в идеале должны быть веские эмпирические или теоретические причины для выбора. Во-вторых, предикторы преобразуются в стандартную форму. Наконец, предикторы складываются, и эта сумма называется вариатой, которая используется в качестве предиктора результата.
Метод Берджесса был впервые представлен социологом Эрнестом В. Берджессом в исследовании 1928 года для определения успеха или неудачи заключенных, освобожденных условно-досрочно. Сначала он выбрал 21 переменную, которые, как считалось, связаны с успехом условно-досрочного освобождения. Затем он преобразовал каждый предиктор в стандартную форму нуля или единицы (Берджесс, 1928). Когда предикторы имели два значения, значение, связанное с целевым результатом, кодировалось как единица. Берджесс выбрал успех условно-досрочного освобождения в качестве целевого результата, поэтому такой предиктор, как история краж , кодировался как «да» = 0 и «нет» = 1. Затем эти кодированные значения добавлялись для создания оценки предиктора, так что более высокие оценки предсказывали лучшие шансы на успех. Оценки могли варьироваться от нуля (нет предикторов успеха) до 21 (все 21 предиктор оценивались как предсказывающие успех).
Для предикторов с более чем двумя значениями метод Берджесса выбирает пороговый балл на основе субъективного суждения. Например, исследование с использованием метода Берджесса (Gottfredson & Snyder, 2005) выбрало в качестве одного предиктора количество жалоб на правонарушения. При отказе от условно-досрочного освобождения в качестве целевого результата количество жалоб было закодировано следующим образом: «от нуля до двух жалоб» = 0 и «три или более жалоб» = 1 (Gottfredson & Snyder, 2005. стр. 18).
Метод Керби похож на метод Берджесса, но отличается двумя способами. Во-первых, в то время как метод Берджесса использует субъективное суждение для выбора порогового значения для многозначного предиктора с бинарным результатом, метод Керби использует анализ дерева классификации и регрессии ( CART ). Таким образом, выбор порогового значения основан не на субъективном суждении, а на статистическом критерии, таком как точка, в которой значение хи-квадрат является максимальным.
Второе отличие заключается в том, что в то время как метод Берджесса применяется к бинарному результату, метод Керби может применяться к многозначному результату, поскольку анализ CART может определять пороговые баллы в таких случаях, используя критерий, такой как точка, где t-значение является максимальным. Поскольку анализ CART не только бинарный, но и рекурсивный, результатом может быть то, что предикторная переменная будет снова разделена, что даст два пороговых балла. Стандартная форма для каждого предиктора заключается в том, что балл, равный единице, добавляется, когда анализ CART создает раздел.
В одном исследовании (Керби, 2003) в качестве предикторов были выбраны пять черт из Большой пятерки черт личности , предсказывающих многозначную меру суицидальных мыслей . Затем баллы личности были преобразованы в стандартную форму с помощью анализа CART. Когда анализ CART дал одно разделение, результат был похож на метод Берджесса в том, что предиктор был закодирован либо как ноль, либо как единица. Но для меры невротизма результатом были два пороговых балла. Поскольку более высокие баллы невротизма коррелировали с более суицидальными мыслями, два пороговых балла привели к следующему кодированию: «низкий невротизм» = 0, «умеренный невротизм» = 1, «высокий невротизм» = 2 (Керби, 2003).
Другой метод может быть применен, когда предикторы измеряются в непрерывной шкале. В таком случае каждый предиктор может быть преобразован в стандартную оценку или z -оценку, так что все предикторы имеют среднее значение, равное нулю, и стандартное отклонение, равное единице. При использовании этого метода регрессии с единичным весом, вариация представляет собой сумму z -оценок (например, Dawes, 1979; Bobko, Roth, & Buster, 2007).
Первым эмпирическим исследованием с использованием регрессии с единичным весом принято считать исследование 1928 года социолога Эрнеста В. Берджесса . Он использовал 21 переменную для прогнозирования успеха или неудачи условно-досрочного освобождения, и результаты показывают, что единичные веса являются полезным инструментом при принятии решений о том, каких заключенных следует освобождать условно-досрочно. Из заключенных с наилучшими результатами 98% действительно добились успеха при условно-досрочном освобождении; а из тех, у кого были наихудшие результаты, только 24% действительно добились успеха (Burgess, 1928).
Математические вопросы, связанные с регрессией с единичным весом, впервые были обсуждены в 1938 году Сэмюэлем Стэнли Уилксом , ведущим статистиком, который имел особый интерес к многомерному анализу . Уилкс описал, как единичные веса могут использоваться в практических условиях, когда данные не были доступны для оценки бета-весов. Например, небольшой колледж может захотеть отобрать хороших студентов для поступления. Но у школы может не быть денег на сбор данных и проведение стандартного множественного регрессионного анализа. В этом случае школа могла бы использовать несколько предикторов — оценки в средней школе, баллы SAT, рейтинги учителей. Уилкс (1938) математически показал, почему единичные веса должны хорошо работать на практике.
Фрэнк Шмидт (1971) провел исследование моделирования удельных весов. Его результаты показали, что Уилкс был действительно прав и удельные веса, как правило, хорошо работают в симуляциях практических исследований.
Робин Доус (1979) обсуждал использование удельных весов в прикладных исследованиях, ссылаясь на надежную красоту моделей с удельным весом. Якоб Коэн также обсуждал ценность удельных весов и отмечал их практическую полезность. Действительно, он писал: «С практической точки зрения, большую часть времени нам лучше использовать удельные веса» (Коэн, 1990, стр. 1306).
Дейв Керби (2003) показал, что единичные веса хорошо сравниваются со стандартной регрессией, сделав это с помощью исследования перекрестной проверки — то есть он вывел бета-веса в одной выборке и применил их ко второй выборке. Интересующим результатом было суицидальное мышление, а предикторными переменными были общие черты личности. В выборке перекрестной проверки корреляция между личностью и суицидальным мышлением была немного сильнее с единичной регрессией ( r = .48), чем со стандартной множественной регрессией ( r = .47).
Готтфредсон и Снайдер (2005) сравнили метод Берджесса регрессии с единичным весом с другими методами с выборкой построения N = 1924 и выборкой перекрестной проверки N = 7552. При использовании точечно-бисериальной модели Пирсона размер эффекта в выборке перекрестной проверки для модели с единичными весами составил r = .392, что несколько больше, чем для логистической регрессии ( r = .368) и предиктивного анализа атрибутов ( r = .387), и меньше, чем для множественной регрессии только в третьем знаке после запятой ( r = .397).
В обзоре литературы по удельным весам Бобко, Рот и Бастер (2007) отметили, что «удельные веса и регрессионные веса работают одинаково с точки зрения величины перекрестно проверенной множественной корреляции, и эмпирические исследования подтверждают этот результат на протяжении нескольких десятилетий» (стр. 693).
Андреас Грефе применил подход с равными весами к девяти установленным моделям множественной регрессии для прогнозирования президентских выборов в США . В течение десяти выборов с 1976 по 2012 год предикторы с равными весами уменьшили ошибку прогноза исходных моделей регрессии в среднем на четыре процента. Модель с равными весами, включающая все переменные, предоставила калиброванные прогнозы, которые уменьшили ошибку наиболее точной модели регрессии на 29% процентов. [1]
Пример может пояснить, как удельные веса могут быть полезны на практике.
Бренна Брай и коллеги (1982) рассмотрели вопрос о причинах употребления наркотиков среди подростков. Предыдущие исследования использовали множественную регрессию; с этим методом естественно искать лучший предиктор, тот, который имеет самый высокий бета-вес. Брай и коллеги отметили, что одно из предыдущих исследований показало, что раннее употребление алкоголя было лучшим предиктором. Другое исследование показало, что отчуждение от родителей было лучшим предиктором. Еще одно исследование показало, что низкие оценки в школе были лучшим предиктором. Неспособность воспроизвести было явно проблемой, проблемой, которая могла быть вызвана прыгающими бета-коэффициентами.
Брай и коллеги предложили другой подход: вместо того, чтобы искать лучший предиктор, они смотрели на количество предикторов. Другими словами, они давали единичный вес каждому предиктору. В их исследовании было шесть предикторов: 1) низкие оценки в школе, 2) отсутствие принадлежности к религии, 3) ранний возраст употребления алкоголя, 4) психологический стресс, 5) низкая самооценка и 6) отчуждение от родителей. Чтобы преобразовать предикторы в стандартную форму, каждый фактор риска оценивался как отсутствующий (оценивался как ноль) или присутствующий (оценивался как единица). Например, кодирование для низких оценок в школе было следующим: «C или выше» = 0, «D или F» = 1. Результаты показали, что количество факторов риска было хорошим предиктором употребления наркотиков: подростки с большим количеством факторов риска с большей вероятностью употребляли наркотики.
Модель, которую использовали Брай и коллеги, состояла в том, что потребители наркотиков ничем особым не отличаются от тех, кто не употребляет наркотики. Скорее, они отличаются количеством проблем, с которыми им приходится сталкиваться. «Количество факторов, с которыми приходится справляться человеку, важнее, чем то, какие именно эти факторы» (стр. 277). Учитывая эту модель, регрессия с единичным весом является подходящим методом анализа.
В стандартной множественной регрессии каждый предиктор умножается на число, которое называется бета-весом , весом регрессии или взвешенными коэффициентами регрессии (обозначается β W или BW). [2] Прогноз получается путем сложения этих произведений с константой. Когда веса выбираются так, чтобы дать наилучший прогноз по некоторому критерию, модель называется правильной линейной моделью . Поэтому множественная регрессия является правильной линейной моделью. Напротив, единично-взвешенная регрессия называется неправильной линейной моделью.
Стандартная множественная регрессия основана на предположении, что все соответствующие предикторы результата включены в регрессионную модель. Это предположение называется спецификацией модели. Модель считается указанной, когда все соответствующие предикторы включены в модель, а все несоответствующие предикторы исключены из модели. На практике редко бывает так, что исследование может определить все соответствующие предикторы априори. В этом случае модели не указаны, а оценки бета-весов страдают от смещения пропущенных переменных. То есть бета-веса могут меняться от одного образца к другому, ситуация, которую иногда называют проблемой прыгающих бета-значений. Именно эта проблема с прыгающими бета-значениями делает регрессию с единичным весом полезным методом.