Разделение (статистика)

В статистике разделение — это явление, связанное с моделями дихотомических или категориальных результатов, включая логистическую и пробит-регрессию . Разделение происходит, если предиктор (или линейная комбинация некоторого подмножества предикторов) связан только с одним значением результата, когда диапазон предикторов разделяется по определенному значению.

Феномен

Например, если предиктор X непрерывен, а результат y = 1 для всех наблюдаемых x > 2. Если значения результата (по-видимому) идеально определяются предиктором (например, y = 0, когда x ≤ 2), тогда условие Говорят, что происходит «полное разделение». Если вместо этого есть некоторое перекрытие (например, y = 0, когда x < 2, но y имеет значения 0 и 1, когда x = 2), тогда происходит «квазиполное разделение». Таблица 2×2 с пустой (нулевой) ячейкой является примером квазиполного разделения.

Проблема

Эта наблюдаемая форма данных важна, поскольку иногда вызывает проблемы с оценкой коэффициентов регрессии. Например, оценка максимального правдоподобия (ML) основана на максимизации функции правдоподобия, где, например, в случае логистической регрессии с полностью разделенными данными максимум появляется на границе пространства параметров, что приводит к «бесконечным» оценкам, и, наряду с этим, , к проблемам с предоставлением разумных стандартных ошибок . ^[1]^[2] Статистическое программное обеспечение часто выдает сколь угодно большую оценку параметра с очень большой стандартной ошибкой. ^[3]

Возможные средства правовой защиты

Подход к «исправлению» проблем с оценкой ML заключается в использовании регуляризации (или « поправок непрерывности »). ^[4]^[5] В частности, в случае проблемы логистической регрессии вариантом может быть использование точной логистической регрессии или логистической регрессии Ферта , метода уменьшения систематической ошибки, основанного на штрафной вероятности. ^[6]

Альтернативно, можно избежать проблем, связанных с максимизацией правдоподобия, переключившись на байесовский подход к выводу. В рамках байесовской модели патологий, возникающих из-за максимизации правдоподобия, можно избежать за счет использования интеграции , а не максимизации , а также за счет использования разумных априорных распределений вероятностей . ^[7]

дальнейшее чтение

Альберт, А.; Андерсон, Дж. А. (1984), «О существовании оценок максимального правдоподобия в моделях логистической регрессии», Biometrika , 71 (1): 1–10, doi : 10.1093/biomet/71.1.1
Космидис И.; Ферт, Д. (2021), «Априорный штраф Джеффриса, конечность и сокращение в обобщенных линейных моделях с биномиальным откликом», Biometrika , 108 (1): 71–82, arXiv : 1812.01938 , doi : 10.1093/biomet/asaa052
Дэвидсон, Рассел; Маккиннон, Джеймс Г. (2004). Эконометрическая теория и методы . Нью-Йорк: Издательство Оксфордского университета. стр. 458–459. ISBN 978-0-19-512372-2.

Внешние ссылки