Вменение (статистика)

В статистике , вменение — это процесс замены отсутствующих данных заменяемыми значениями. При замене точки данных это известно как « единичная вменение »; при замене компонента точки данных это известно как « элементная вменение ». Есть три основные проблемы, которые вызывают отсутствующие данные: отсутствующие данные могут внести существенную погрешность , сделать обработку и анализ данных более трудными и привести к снижению эффективности . ^[1] Поскольку отсутствующие данные могут создать проблемы для анализа данных, вменение рассматривается как способ избежать ловушек, связанных с удалением по списку случаев, имеющих отсутствующие значения. То есть, когда для случая отсутствует одно или несколько значений, большинство статистических пакетов по умолчанию отбрасывают любой случай, имеющий отсутствующее значение, что может внести погрешность или повлиять на репрезентативность результатов. Вменение сохраняет все случаи, заменяя отсутствующие данные оценочным значением, основанным на другой доступной информации. После того, как все отсутствующие значения были вменены, набор данных можно проанализировать с использованием стандартных методов для полных данных. ^[2] Ученые использовали множество теорий для объяснения отсутствующих данных, но большинство из них вносят смещение. Некоторые из известных попыток справиться с отсутствующими данными включают: импутацию горячей и холодной колоды; удаление списком и парами; импутацию среднего; неотрицательную матричную факторизацию; регрессионную импутацию; перенос последнего наблюдения; стохастическую импутацию; и множественную импутацию.

Удаление по списку (полный случай)

Безусловно, наиболее распространенным способом работы с отсутствующими данными является списочное удаление (также известное как полное удаление), при котором удаляются все случаи с отсутствующим значением. Если данные отсутствуют полностью случайным образом , то списочное удаление не добавляет никакого смещения, но оно снижает мощность анализа за счет уменьшения эффективного размера выборки. Например, если собрано 1000 случаев, но 80 имеют отсутствующие значения, эффективный размер выборки после списочного удаления составляет 920. Если случаи отсутствуют не полностью случайным образом, то списочное удаление внесет смещение, поскольку подвыборка случаев, представленная отсутствующими данными, не является репрезентативной для исходной выборки (и если исходная выборка сама была репрезентативной выборкой популяции, то полные случаи также не являются репрезентативными для этой популяции). ^[3] Хотя списочное удаление является несмещенным, когда отсутствующие данные отсутствуют полностью случайным образом, в действительности это случается редко. ^[4]

Попарное удаление (или «доступный анализ случаев») подразумевает удаление случая, когда в нем отсутствует переменная, необходимая для конкретного анализа, но включение этого случая в анализы, для которых присутствуют все требуемые переменные. При использовании попарного удаления общее N для анализа не будет согласованным между оценками параметров. Из-за неполных значений N в некоторые моменты времени, при сохранении полного сравнения случаев для других параметров, попарное удаление может привести к невозможным математическим ситуациям, таким как корреляции, превышающие 100%. ^[5]

Единственное преимущество полного удаления случая перед другими методами заключается в том, что оно простое и легко реализуемое. Это важная причина, по которой полный случай является самым популярным методом обработки отсутствующих данных, несмотря на множество недостатков, которые он имеет.

Единичное вменение

Горячая палуба

Когда-то распространенным методом вменения был метод вменения горячей колоды, при котором отсутствующее значение вменялось из случайно выбранной похожей записи. Термин «горячая колода» восходит к хранению данных на перфокартах и указывает на то, что доноры информации поступают из того же набора данных, что и получатели. Стопка карт была «горячей», потому что в данный момент она обрабатывалась.

Одна из форм импутации методом горячей колоды называется «перенос последнего наблюдения вперед» (или LOCF для краткости), которая включает сортировку набора данных в соответствии с любым из нескольких переменных, таким образом создавая упорядоченный набор данных. Затем метод находит первое пропущенное значение и использует значение ячейки непосредственно перед данными, которые пропущены, чтобы вменить пропущенное значение. Процесс повторяется для следующей ячейки с пропущенным значением, пока все пропущенные значения не будут вменены. В общем сценарии, в котором случаи представляют собой повторные измерения переменной для человека или другой сущности, это представляет собой убеждение, что если измерение пропущено, лучшим предположением является то, что оно не изменилось с момента последнего измерения. Известно, что этот метод увеличивает риск увеличения смещения и потенциально ложных выводов. По этой причине LOCF не рекомендуется использовать. ^[6]

Холодная палуба

Cold-deck imputation, напротив, выбирает доноров из другого набора данных. Благодаря достижениям в области вычислительной мощности более сложные методы imputation, как правило, вытеснили исходные случайные и сортированные методы hot deck imputation. Это метод замены ответными значениями аналогичных элементов в прошлых опросах. Он доступен в опросах, измеряющих временные интервалы.

Средняя замена

Другой метод вменения подразумевает замену любого отсутствующего значения средним значением этой переменной для всех остальных случаев, что имеет то преимущество, что не меняет выборочное среднее значение для этой переменной. Однако вменение среднего значения ослабляет любые корреляции, связанные с вмененной переменной(ыми). Это происходит потому, что в случаях с вменением гарантированно нет никакой связи между вмененной переменной и любыми другими измеряемыми переменными. Таким образом, вменение среднего значения имеет некоторые привлекательные свойства для одномерного анализа, но становится проблематичным для многомерного анализа.

Среднее значение может быть выполнено в пределах классов (т. е. категорий, таких как пол), и может быть выражено как , где — это вмененное значение для записи , а — выборочное среднее значение данных респондента в пределах некоторого класса . Это особый случай обобщенного регрессионного вменения: ${\hat {y}}_{i}={\bar {y}}_{h}$ ${\hat {y}}_{i}$ $я$ ${\bar {y}}_{h}$ $ч$

${\hat {y}}_{mi}=b_{r0}+\sum _{j}b_{rj}z_{mij}+{\hat {e}}_{mi}$

Здесь значения оцениваются с помощью регрессии по невмененным данным, является фиктивной переменной для членства в классе, а данные делятся на респондентов ( ) и отсутствующих ( ). ^[7]^[8] $b_{r0},b_{rj}$ $y$ $x$ $z$ $r$ $м$

Неотрицательная матричная факторизация

Неотрицательная матричная факторизация (NMF) может принимать отсутствующие данные, минимизируя при этом функцию стоимости, вместо того, чтобы рассматривать эти отсутствующие данные как нули, которые могут вносить смещения. ^[9] Это делает его математически проверенным методом для вменения данных. NMF может игнорировать отсутствующие данные в функции стоимости, а влияние отсутствующих данных может быть столь же малым, как эффект второго порядка.

Регрессия

Регрессионное вменение имеет противоположную проблему среднего вменения. Регрессионная модель оценивается для прогнозирования наблюдаемых значений переменной на основе других переменных, и эта модель затем используется для вменения значений в случаях, когда значение этой переменной отсутствует. Другими словами, доступная информация для полных и неполных случаев используется для прогнозирования значения определенной переменной. Подогнанных значений из регрессионной модели затем используются для вменения отсутствующих значений. Проблема заключается в том, что вмененные данные не имеют члена ошибки, включенного в их оценку, таким образом, оценки идеально соответствуют линии регрессии без какой-либо остаточной дисперсии. Это приводит к тому, что связи оказываются переопределенными и предполагают большую точность вмененных значений, чем это оправдано. Регрессионная модель предсказывает наиболее вероятное значение отсутствующих данных, но не обеспечивает неопределенности относительно этого значения.

Стохастическая регрессия была довольно успешной попыткой исправить отсутствие члена ошибки в подстановке регрессии путем добавления средней дисперсии регрессии к подстановкам регрессии для внесения ошибки. Стохастическая регрессия показывает гораздо меньше смещения, чем вышеупомянутые методы, но она все еще упускает одну вещь — если данные подставляются, то интуитивно можно подумать, что в проблему следует внести больше шума, чем простую остаточную дисперсию. ^[5]

Множественное вменение

Чтобы справиться с проблемой повышенного шума из-за вменения, Рубин (1987) ^[10] разработал метод усреднения результатов по нескольким вмененным наборам данных, чтобы учесть это. Все методы множественного вменения следуют трем шагам. ^[3]

Вменение – Подобно одиночному вменению, вменены пропущенные значения. Однако вмененные значения берутся из распределения m раз, а не один раз. В конце этого шага должно быть m завершенных наборов данных.
Анализ – Анализируется каждый из m наборов данных. В конце этого шага должно быть m анализов.
Объединение – m результатов объединяются в один результат путем расчета среднего значения, дисперсии и доверительного интервала рассматриваемой переменной ^[11]^[12] или путем объединения симуляций из каждой отдельной модели. ^[13]

Множественное подстановочное значение может использоваться в случаях, когда данные отсутствуют полностью случайным образом , отсутствуют случайным образом и отсутствуют неслучайно , хотя в последнем случае оно может быть смещено. ^[14] Одним из подходов является множественное подстановочное значение с помощью цепных уравнений (MICE), также известное как «полностью условная спецификация» и «последовательное регрессионное множественное подстановочное значение». ^[15] MICE предназначено для случайных пропущенных данных, хотя есть данные моделирования, позволяющие предположить, что при достаточном количестве вспомогательных переменных оно также может работать с данными, которые отсутствуют неслучайно. Однако MICE может страдать от проблем с производительностью, когда число наблюдений велико, а данные имеют сложные характеристики, такие как нелинейности и высокая размерность.

Более поздние подходы к множественной импутации используют методы машинного обучения для повышения ее производительности. Например, MIDAS (множественная импутация с шумоподавляющими автоэнкодерами) использует шумоподавляющие автоэнкодеры , тип неконтролируемой нейронной сети, для изучения мелкозернистых скрытых представлений наблюдаемых данных. ^[16] Было показано, что MIDAS обеспечивает преимущества в точности и эффективности по сравнению с традиционными стратегиями множественной импутации.

Как упоминалось в предыдущем разделе, единичное вменение не учитывает неопределенность вменений. После вменения данные обрабатываются так, как если бы они были фактическими реальными значениями в единичном вменении. Небрежность неопределенностью вменения может привести к слишком точным результатам и ошибкам в любых выводах. ^[17] При многократном вменении множественное вменение учитывает неопределенность и диапазон значений, которые могло бы принять истинное значение. Как и ожидалось, сочетание оценки неопределенности и глубокого обучения для вменения является одной из лучших стратегий и использовалось для моделирования неоднородных данных по открытию лекарств. ^[18]^[19]

Кроме того, хотя одиночное подстановочное значение и полный случай реализовать проще, множественное подстановочное значение реализовать не очень сложно. Существует широкий спектр статистических пакетов в различных статистических программах , которые легко выполняют множественное подстановочное значение. Например, пакет MICE позволяет пользователям в R выполнять множественное подстановочное значение с использованием метода MICE. ^[20] MIDAS можно реализовать в R с помощью пакета rMIDAS и в Python с помощью пакета MIDASpy. ^[16]

Смотрите также

Ссылки

^ Барнард, Дж.; Мэн, XL (1999-03-01). «Применение множественного вменения в медицинских исследованиях: от СПИДа до NHANES». Статистические методы в медицинских исследованиях . 8 (1): 17–36. doi :10.1177/096228029900800103. ISSN 0962-2802. PMID 10347858. S2CID 11453137.
^ Гельман, Эндрю и Дженнифер Хилл . Анализ данных с использованием регрессии и многоуровневых/иерархических моделей. Cambridge University Press, 2006. Гл.25
^ ab Lall, Ranjit (2016). «Как множественное вменение имеет значение». Политический анализ . 24 (4): 414–433. doi : 10.1093/pan/mpw020 .
^ Кенвард, Майкл Г. (26.02.2013). «Обработка отсутствующих данных в клинических испытаниях». Клинические исследования . 3 (3): 241–250. doi :10.4155/cli.13.7. ISSN 2041-6792.
^ ab Enders, CK (2010). Прикладной анализ пропущенных данных . Нью-Йорк: Guilford Press. ISBN 978-1-60623-639-0.
^ Молнар, Фрэнк Дж.; Хаттон, Брайан; Фергюссон, Дин (2008-10-07). «Вносит ли анализ с использованием «переноса последнего наблюдения» смещение в исследования деменции?». Журнал Канадской медицинской ассоциации . 179 (8): 751–753. doi :10.1503/cmaj.080820. ISSN 0820-3946. PMC 2553855. PMID 18838445 .
^ Калтон, Грэм (1986). «Обработка пропущенных данных обследования». Методология обследования . 12 : 1–16.
^ Калтон, Грэм; Каспржик, Дэниел (1982). «Ввод данных для отсутствующих ответов на опрос» (PDF) . Труды Секции методов исследования опросов . 22 . Американская статистическая ассоциация . S2CID 195855359. Архивировано из оригинала (PDF) 2020-02-12.
^ Рен, Бин; Пуэйо, Лоран; Чен, Кристин; Шоке, Элоди; Дебес, Джон Х.; Дюшен, Гаспар; Менар, Франсуа; Перрен, Маршалл Д. (2020). «Использование импутации данных для разделения сигналов в высококонтрастных изображениях». The Astrophysical Journal . 892 (2): 74. arXiv : 2001.00563 . Bibcode :2020ApJ...892...74R. doi : 10.3847/1538-4357/ab7024 . S2CID 209531731.
^ Рубин, Дональд (9 июня 1987 г.). Множественное вменение для неответов в опросах . Wiley Series in Probability and Statistics. Wiley. doi :10.1002/9780470316696. ISBN 9780471087052.
^ Юань, Ян С. (2010). «Множественное вменение отсутствующих данных: концепции и новые разработки» (PDF) . SAS Institute Inc., Роквилл, Мэриленд . 49 : 1–11. Архивировано из оригинала (PDF) 2018-11-03 . Получено 2018-01-17 .
^ Ван Бюрен, Стеф (29.03.2012). "2. Множественное вменение". Гибкое вменение пропущенных данных . Chapman & Hall/CRC Interdisciplinary Statistics Series. Vol. 20125245. Chapman and Hall/CRC. doi :10.1201/b11826. ISBN 9781439868249. S2CID 60316970.
^ Кинг, Гэри ; Хонакер, Джеймс; Джозеф, Энн; Шеве, Кеннет (март 2001 г.). «Анализ неполных данных по политической науке: альтернативный алгоритм множественного подстановки». American Political Science Review . 95 (1): 49–69. doi :10.1017/S0003055401000235. ISSN 1537-5943. S2CID 15484116.
^ Пепински, Томас Б. (2018-08-03). «Заметка о списочном удалении против множественного вменения». Политический анализ . 26 (4). Cambridge University Press (CUP): 480–488. doi : 10.1017/pan.2018.18 . ISSN 1047-1987.
^ Azur, Melissa J.; Stuart, Elizabeth A.; Frangakis, Constantine; Leaf, Philip J. (2011-03-01). «Множественное вменение с помощью цепочечных уравнений: что это такое и как это работает?». International Journal of Methods in Psychiatric Research . 20 (1): 40–49. doi :10.1002/mpr.329. ISSN 1557-0657. PMC 3074241. PMID 21499542 .
^ ab Лалл, Ранджит; Робинсон, Томас (2021). «Прикосновение MIDAS: точное и масштабируемое подстановка пропущенных данных с помощью глубокого обучения». Политический анализ . 30 (2): 179–196. doi : 10.1017/pan.2020.49 .
^ Грэм, Джон У. (01.01.2009). «Анализ отсутствующих данных: как заставить его работать в реальном мире». Annual Review of Psychology . 60 : 549–576. doi : 10.1146/annurev.psych.58.110405.085530. ISSN 0066-4308. PMID 18652544.
^ Ирвин, Бенедикт (01.06.2020). «Практическое применение глубокого обучения для ввода гетерогенных данных по открытию лекарств». Журнал химической информации и моделирования . 60 (6): 2848–2857. doi :10.1021/acs.jcim.0c00443. PMID 32478517. S2CID 219171721.
^ Уайтхед, Томас (2019-02-12). «Вменение данных биологической активности анализа с использованием глубокого обучения». Журнал химической информации и моделирования . 59 (3): 1197–1204. doi :10.1021/acs.jcim.8b00768. PMID 30753070. S2CID 73429643.
^ Хортон, Николас Дж.; Кляйнман, Кен П. (2007-02-01). «Много шума из ничего: сравнение методов и программного обеспечения для недостающих данных для подгонки моделей регрессии неполных данных». The American Statistician . 61 (1): 79–90. doi :10.1198/000313007X172556. ISSN 0003-1305. PMC 1839993 . PMID 17401454.

Внешние ссылки

Отсутствующие данные: Слонопотамы на уровне инструментов и Вузлы на уровне предметов
Multiple-imputation.com
Часто задаваемые вопросы о множественном вменении, Университет штата Пенсильвания
Описание метода импутации «горячей колоды» от Статистического управления Финляндии.
Статья, расширяющая подход Рао-Шао и обсуждающая проблемы множественного вменения.
Статья «Алгоритм индукции нечетких неупорядоченных правил, используемый в качестве методов подстановки пропущенных значений для кластеризации методом K-средних на реальных данных по сердечно-сосудистым заболеваниям».
[1] Реальное применение метода вменения Управлением национальной статистики Великобритании