stringtranslate.com

Многоуровневая регрессия с постстратификацией

Многоуровневая регрессия с постстратификацией ( MRP ) — это статистический метод, используемый для корректировки оценок модели с учетом известных различий между выборочной совокупностью (совокупностью имеющихся данных) и целевой совокупностью (совокупностью, для которой требуется выполнить оценку).

Постстратификация относится к процессу корректировки оценок, по сути, взвешенного среднего оценок из всех возможных комбинаций атрибутов (например, возраста и пола). Каждая комбинация иногда называется «ячейкой». Многоуровневая регрессия это использование многоуровневой модели для сглаживания шумных оценок в ячейках со слишком малым количеством данных с использованием общих или близких средних значений.

Одним из приложений является оценка предпочтений в субрегионах (например, штатах, отдельных избирательных округах) на основе данных опросов на индивидуальном уровне, собранных на других уровнях агрегации (например, национальных опросов). [1]

Математическая формулировка

Следуя описанию модели MRP, [2] предположим, что представляет собой измерение одного результата, а среднее значение популяции , , является целевым интересующим параметром. В базовой популяции каждый индивидуум , принадлежит к одной из постстратификационных ячеек, характеризующихся уникальным набором ковариатов. Многоуровневая регрессия с постстратификационной моделью включает следующую пару шагов:

Шаг 1 MRP (многоуровневая регрессия) : многоуровневая регрессионная модель определяет линейный предиктор для среднего значения или логарифмическое преобразование среднего значения в случае бинарного результата в ячейке постстратификации ,

где - измерение результата для респондента в ячейке , - фиксированный отсекаемый элемент , - уникальный вектор ковариатов для ячейки , - вектор коэффициентов регрессии ( фиксированные эффекты ), - переменный коэффициент ( случайный эффект ), сопоставляет индекс ячейки с соответствующим индексом категории переменной . Все переменные коэффициенты являются взаимозаменяемыми партиями с независимыми нормальными априорными распределениями .

Шаг MRP 2: постстратификация : Оценка постстратификации (PS) для интересующего параметра популяции равна , где — предполагаемый интересующий результат для постстратификационной ячейки , а — размер -й постстратификационной ячейки в популяции. Оценки на любом уровне субпопуляции выводятся аналогичным образом , где — подмножество всех постстратификационных ячеек, которые содержат .

Техника и ее преимущества

Метод по сути включает использование данных, например, переписей, относящихся к различным типам людей, соответствующим различным характеристикам (например, возрасту, расе), на первом этапе для оценки взаимосвязи между этими типами и индивидуальными предпочтениями (т. е. многоуровневая регрессия набора данных). Затем эта взаимосвязь используется на втором этапе для оценки субрегиональных предпочтений на основе количества людей, имеющих каждый тип/характеристику в этом субрегионе (процесс, известный как «постстратификация»). [3] Таким образом, избегается необходимость проведения опросов на субрегиональном уровне, что может быть дорогостоящим и непрактичным в области (например, стране) со многими субрегионами (например, округами, районами или штатами). Это также позволяет избежать проблем с согласованностью опроса при сравнении различных опросов, проведенных в разных областях. [4] [1] Кроме того, это позволяет оценивать предпочтения в определенной местности на основе опроса, проведенного в более широкой области, которая включает относительно небольшое количество людей из рассматриваемой местности, или где выборка может быть крайне нерепрезентативной. [5]

История

Первоначально метод был разработан Гельманом и Т. Литтлом в 1997 году [6], основываясь на идеях Фэя и Хэрриота [7] и Р. Литтла. [8] Впоследствии он был расширен Парком, Гельманом и Бафуми в 2004 и 2006 годах. Он был предложен для использования при оценке предпочтений избирателей на уровне штатов США Лаксом и Филипсом в 2009 году. Уоршоу и Родден впоследствии предложили его для использования при оценке общественного мнения на уровне округов в 2012 году. [1] Позже Ван и др. [9] использовали данные опроса пользователей Xbox , чтобы предсказать исход президентских выборов в США 2012 года . Геймеры Xbox на 65% были в возрасте от 18 до 29 лет и на 93% мужчин, в то время как электорат в целом составлял 19% в возрасте от 18 до 29 лет и на 47% мужчин. Несмотря на то, что исходные данные были сильно предвзятыми, после многоуровневой регрессии с постстратификацией авторам удалось получить оценки, которые согласуются с оценками, полученными в ходе опросов с использованием большого количества случайных и репрезентативных данных. С тех пор это также было предложено для использования в области эпидемиологии . [5]

YouGov использовал эту технику для успешного прогнозирования общего результата всеобщих выборов в Великобритании 2017 года , [10] правильно предсказав результат в 93% избирательных округов. [11] На выборах 2019 и 2024 годов другие социологи использовали MRP, включая Survation [12] и Ipsos. [13]

Ограничения и расширения

MRP можно расширить для оценки изменения мнения с течением времени [4], а при использовании для прогнозирования выборов он работает лучше всего, если применяется относительно близко к дате голосования, после того, как выдвижение кандидатур завершено. [14]

Идеи MRP «многоуровневой регрессии» и «постстратификации» могут быть обобщены. Многоуровневая регрессия может быть заменена непараметрической регрессией [15] или регуляризованным прогнозированием, а постстратификация может быть обобщена для учета непереписных переменных, т.е. итогов постстратификации, которые оцениваются, а не известны. [16]

Ссылки

  1. ^ abc Buttice, Matthew K.; Highton, Benjamin (осень 2013 г.). «Как многоуровневая регрессия и постстратификация работают с традиционными национальными опросами?» (PDF) . Политический анализ . 21 (4): 449–451. doi :10.1093/pan/mpt017. JSTOR  24572674.
  2. ^ Даунс, Марни Даунс; и др. (август 2018 г.). «Многоуровневая регрессия и постстратификация: модельный подход к оценке численности населения на основе тщательно отобранных выборок обследований». Американский журнал эпидемиологии . 187 (8): 1780–1790. doi :10.1093/aje/kwy070.
  3. ^ "Что такое MRP?". Survation.com . Survation. 5 ноября 2018 . Получено 31 октября 2019 .
  4. ^ ab Gelman, Andrew; Lax, Jeffrey; Phillips, Justin; Gabry, Jonah; Trangucci, Robert (28 августа 2018 г.). «Использование многоуровневой регрессии и постстратификации для оценки динамического общественного мнения» (PDF) : 1–3 . Получено 31 октября 2019 г. {{cite journal}}: Цитировать журнал требует |journal=( помощь )
  5. ^ ab Downes, Marnie; Gurrin, Lyle C.; English, Dallas R.; Pirkis, Jane; Currier, Diane; Spital, Matthew J.; Carlin, John B. (9 апреля 2018 г.). «Многоуровневая регрессия и постстратификация: модельный подход к оценке численности населения на основе тщательно отобранных выборок обследований». American Journal of Epidemiology . 179 (8): 187 . Получено 31 октября 2019 г. .
  6. ^ Гельман, Эндрю; Литтл, Томас (1997). «Постстратификация во многие категории с использованием иерархической логистической регрессии». Методология опроса . 23 : 127–135.
  7. ^ Фэй, Роберт; Херриот, Роджер (1979). «Оценки дохода для небольших мест: применение процедур Джеймса-Стейна к данным переписи». Журнал Американской статистической ассоциации . 74 (423): 1001–1012. doi :10.1080/01621459.1979.10482505. JSTOR  2286322.
  8. ^ Литтл, Родерик (1993). «Постстратификация: точка зрения разработчика моделей». Журнал Американской статистической ассоциации . 88 (423): 1001–1012. doi :10.1080/01621459.1993.10476368. JSTOR  2290792.
  9. ^ Ван, Вэй; Ротшильд, Дэвид; Гоэль, Шарад; Гельман, Эндрю (2015). «Прогнозирование выборов с нерепрезентативными опросами» (PDF) . Международный журнал прогнозирования . 31 (3): 980–991. doi : 10.1016/j.ijforecast.2014.06.001 .
  10. ^ Ревелл, Тимоти (9 июня 2017 г.). «Как экспериментальный опрос YouGov правильно назвал результаты выборов в Великобритании». New Scientist . Получено 31 октября 2019 г.
  11. ^ Коэн, Дэниел (27 сентября 2019 г.). «Я никогда не знал, что избиратели настолько неразборчивы»: социологи работают над прогнозированием следующих выборов в Великобритании». The Guardian . Получено 31 октября 2019 г.
  12. ^ Survation 2019 https://www.survation.com/2019-general-election-mrp-predictions-survation-and-dr-chris-hanretty/
  13. ^ Ipsos 2024 https://www.ipsos.com/en-uk/uk-opinion-polls/ipsos-election-mrp
  14. ^ Джеймс, Уильям; Маклеллан, Кайли (15 октября 2019 г.). «Вопрос доверия: британские социологи сражаются за то, чтобы предсказать приближающиеся выборы». Reuters . Получено 31 октября 2019 г.
  15. ^ Бисби, Джеймс (2019). «BARP: Улучшение мистера П с помощью байесовских аддитивных регрессионных деревьев». American Political Science Review . 113 (4): 1060–1065. doi :10.1017/S0003055419000480. S2CID  201385400.
  16. ^ Гельман, Эндрю (28 октября 2018 г.). «MRP (или RPP) с непереписными переменными». Статистическое моделирование, причинно-следственные связи и социальные науки .