stringtranslate.com

Разделение (статистика)

В статистике разделение — это явление, связанное с моделями дихотомических или категориальных результатов, включая логистическую и пробит-регрессию . Разделение происходит, если предиктор (или линейная комбинация некоторого подмножества предикторов) связан только с одним значением результата, когда диапазон предикторов разделяется по определенному значению.

Феномен

Например, если предиктор X непрерывен, а результат y  = 1 для всех наблюдаемых x  > 2. Если значения результата (по-видимому) идеально определяются предиктором (например, y  = 0, когда x  ≤ 2), тогда условие Говорят, что происходит «полное разделение». Если вместо этого есть некоторое перекрытие (например, y  = 0, когда x  < 2, но y имеет значения 0 и 1, когда x  = 2), тогда происходит «квазиполное разделение». Таблица 2×2 с пустой (нулевой) ячейкой является примером квазиполного разделения.

Проблема

Эта наблюдаемая форма данных важна, поскольку иногда вызывает проблемы с оценкой коэффициентов регрессии. Например, оценка максимального правдоподобия (ML) основана на максимизации функции правдоподобия, где, например, в случае логистической регрессии с полностью разделенными данными максимум появляется на границе пространства параметров, что приводит к «бесконечным» оценкам, и, наряду с этим, , к проблемам с предоставлением разумных стандартных ошибок . [1] [2] Статистическое программное обеспечение часто выдает сколь угодно большую оценку параметра с очень большой стандартной ошибкой. [3]

Возможные средства правовой защиты

Подход к «исправлению» проблем с оценкой ML заключается в использовании регуляризации (или « поправок непрерывности »). [4] [5] В частности, в случае проблемы логистической регрессии вариантом может быть использование точной логистической регрессии или логистической регрессии Ферта , метода уменьшения систематической ошибки, основанного на штрафной вероятности. [6]

Альтернативно, можно избежать проблем, связанных с максимизацией правдоподобия, переключившись на байесовский подход к выводу. В рамках байесовской модели патологий, возникающих из-за максимизации правдоподобия, можно избежать за счет использования интеграции , а не максимизации , а также за счет использования разумных априорных распределений вероятностей . [7]

Рекомендации

  1. ^ Цзэн, Гопин; Цзэн, Эмили (2019). «О взаимосвязи между мультиколлинеарностью и разделением в логистической регрессии». Коммуникации в статистике . Моделирование и расчет. 50 (7): 1989–1997. дои : 10.1080/03610918.2019.1589511. S2CID  132047558.
  2. ^ Альберт, А.; Андерсон, Дж. А. (1984). «О существовании оценок максимального правдоподобия в моделях логистической регрессии». Биометрика . 71 (1–10): 1–10. дои : 10.1093/biomet/71.1.1.
  3. ^ Маккалоу, Б.Д.; Винод, HD (2003). «Проверка решения с помощью нелинейного решателя: практический пример». Американский экономический обзор . 93 (3): 873–892. дои : 10.1257/000282803322157133. JSTOR  3132121.
  4. ^ Коул, SR; Чу, Х.; Гренландия, С. (2014), «Максимальная вероятность, профильная вероятность и штрафная вероятность: учебник», Американский журнал эпидемиологии , 179 (2): 252–260, doi : 10.1093/aje/kwt245 , PMC 3873110 , PMID  24173548 
  5. ^ Свитинг, MJ; Саттон, Эй Джей; Ламберт, ПК (2004), «Что к чему добавить? Использование и избежание поправок на непрерывность в метаанализе разреженных данных», Статистика в медицине , 23 (9): 1351–1375, doi : 10.1002/sim.1761, PMID  15116347, S2CID  247667708
  6. ^ Мансурния, Мохаммед Али; Герольдингер, Анжелика; Гренландия, Сандер ; Хайнце, Георг (2018). «Разделение в логистической регрессии: причины, последствия и контроль». Американский журнал эпидемиологии . 187 (4): 864–870. дои : 10.1093/aje/kwx299 . ПМИД  29020135.
  7. ^ Гельман, А .; Якулин А.; Питтау, Миннесота; Су, Ю. (2008), «Слабоинформативное априорное распределение по умолчанию для логистических и других регрессионных моделей», Анналы прикладной статистики , 2 (4): 1360–1383, arXiv : 0901.4011 , doi : 10.1214/08-AOAS191

дальнейшее чтение

Внешние ссылки