Многоуровневая регрессия с постстратификацией ( MRP ) — это статистический метод, используемый для корректировки оценок модели с учетом известных различий между выборочной совокупностью (совокупностью имеющихся данных) и целевой совокупностью (совокупностью, для которой требуется выполнить оценку).
Постстратификация относится к процессу корректировки оценок, по сути, взвешенного среднего оценок из всех возможных комбинаций атрибутов (например, возраста и пола). Каждая комбинация иногда называется «ячейкой». Многоуровневая регрессия — это использование многоуровневой модели для сглаживания шумных оценок в ячейках со слишком малым количеством данных с использованием общих или близких средних значений.
Одним из приложений является оценка предпочтений в субрегионах (например, штатах, отдельных избирательных округах) на основе данных опросов на индивидуальном уровне, собранных на других уровнях агрегации (например, национальных опросов). [1]
Следуя описанию модели MRP, [2] предположим, что представляет собой измерение одного результата, а среднее значение популяции , , является целевым интересующим параметром. В базовой популяции каждый индивидуум , принадлежит к одной из постстратификационных ячеек, характеризующихся уникальным набором ковариатов. Многоуровневая регрессия с постстратификационной моделью включает следующую пару шагов:
Шаг 1 MRP (многоуровневая регрессия) : многоуровневая регрессионная модель определяет линейный предиктор для среднего значения или логарифмическое преобразование среднего значения в случае бинарного результата в ячейке постстратификации ,
где - измерение результата для респондента в ячейке , - фиксированный отсекаемый элемент , - уникальный вектор ковариатов для ячейки , - вектор коэффициентов регрессии ( фиксированные эффекты ), - переменный коэффициент ( случайный эффект ), сопоставляет индекс ячейки с соответствующим индексом категории переменной . Все переменные коэффициенты являются взаимозаменяемыми партиями с независимыми нормальными априорными распределениями .
Шаг MRP 2: постстратификация : Оценка постстратификации (PS) для интересующего параметра популяции равна , где — предполагаемый интересующий результат для постстратификационной ячейки , а — размер -й постстратификационной ячейки в популяции. Оценки на любом уровне субпопуляции выводятся аналогичным образом , где — подмножество всех постстратификационных ячеек, которые содержат .
Метод по сути включает использование данных, например, переписей, относящихся к различным типам людей, соответствующим различным характеристикам (например, возрасту, расе), на первом этапе для оценки взаимосвязи между этими типами и индивидуальными предпочтениями (т. е. многоуровневая регрессия набора данных). Затем эта взаимосвязь используется на втором этапе для оценки субрегиональных предпочтений на основе количества людей, имеющих каждый тип/характеристику в этом субрегионе (процесс, известный как «постстратификация»). [3] Таким образом, избегается необходимость проведения опросов на субрегиональном уровне, что может быть дорогостоящим и непрактичным в области (например, стране) со многими субрегионами (например, округами, районами или штатами). Это также позволяет избежать проблем с согласованностью опроса при сравнении различных опросов, проведенных в разных областях. [4] [1] Кроме того, это позволяет оценивать предпочтения в определенной местности на основе опроса, проведенного в более широкой области, которая включает относительно небольшое количество людей из рассматриваемой местности, или где выборка может быть крайне нерепрезентативной. [5]
Первоначально метод был разработан Гельманом и Т. Литтлом в 1997 году [6], основываясь на идеях Фэя и Хэрриота [7] и Р. Литтла. [8] Впоследствии он был расширен Парком, Гельманом и Бафуми в 2004 и 2006 годах. Он был предложен для использования при оценке предпочтений избирателей на уровне штатов США Лаксом и Филипсом в 2009 году. Уоршоу и Родден впоследствии предложили его для использования при оценке общественного мнения на уровне округов в 2012 году. [1] Позже Ван и др. [9] использовали данные опроса пользователей Xbox , чтобы предсказать исход президентских выборов в США 2012 года . Геймеры Xbox на 65% были в возрасте от 18 до 29 лет и на 93% мужчин, в то время как электорат в целом составлял 19% в возрасте от 18 до 29 лет и на 47% мужчин. Несмотря на то, что исходные данные были сильно предвзятыми, после многоуровневой регрессии с постстратификацией авторам удалось получить оценки, которые согласуются с оценками, полученными в ходе опросов с использованием большого количества случайных и репрезентативных данных. С тех пор это также было предложено для использования в области эпидемиологии . [5]
YouGov использовал эту технику для успешного прогнозирования общего результата всеобщих выборов в Великобритании 2017 года , [10] правильно предсказав результат в 93% избирательных округов. [11] На выборах 2019 и 2024 годов другие социологи использовали MRP, включая Survation [12] и Ipsos. [13]
MRP можно расширить для оценки изменения мнения с течением времени [4], а при использовании для прогнозирования выборов он работает лучше всего, если применяется относительно близко к дате голосования, после того, как выдвижение кандидатур завершено. [14]
Идеи MRP «многоуровневой регрессии» и «постстратификации» могут быть обобщены. Многоуровневая регрессия может быть заменена непараметрической регрессией [15] или регуляризованным прогнозированием, а постстратификация может быть обобщена для учета непереписных переменных, т.е. итогов постстратификации, которые оцениваются, а не известны. [16]
{{cite journal}}
: Цитировать журнал требует |journal=
( помощь )