stringtranslate.com

Вменение (статистика)

В статистике вменение это процесс замены отсутствующих данных замененными значениями. При замене точки данных это называется « вменением единицы »; при замене компонента точки данных это называется « вменением элемента ». Есть три основные проблемы, которые вызывают отсутствие данных: отсутствие данных может привести к значительной систематической ошибке , усложнить обработку и анализ данных и привести к снижению эффективности . [1] Поскольку отсутствующие данные могут создать проблемы при анализе данных, вменение рассматривается как способ избежать ошибок, связанных с списковым удалением случаев с пропущенными значениями. То есть, когда для случая отсутствует одно или несколько значений, большинство статистических пакетов по умолчанию отбрасывают любой случай, в котором отсутствует значение, что может привести к систематической ошибке или повлиять на репрезентативность результатов. Вменение сохраняет все случаи, заменяя отсутствующие данные оценочным значением, основанным на другой доступной информации. После того как все пропущенные значения будут вменены, набор данных можно проанализировать с использованием стандартных методов для получения полных данных. [2] Ученые выдвинули множество теорий, объясняющих недостающие данные, но большинство из них вносят предвзятость. Некоторые из хорошо известных попыток справиться с недостающими данными включают в себя: вменение «горячей колоды» и «холодной колоды»; списковое и попарное удаление; среднее вменение; неотрицательная матричная факторизация; регрессионное вменение; последнее наблюдение перенесено; стохастическое вменение; и множественное вменение.

Удаление по списку (полный регистр)

На сегодняшний день наиболее распространенным способом борьбы с отсутствующими данными является удаление по списку (также известное как полный регистр), при котором удаляются все наблюдения с отсутствующим значением. Если данные отсутствуют полностью случайным образом , то удаление по списку не добавляет никакой систематической ошибки, но снижает эффективность анализа за счет уменьшения эффективного размера выборки. Например, если собрано 1000 случаев, но в 80 из них отсутствуют значения, эффективный размер выборки после удаления по списку составит 920. Если случаи не исчезают полностью случайным образом, то удаление по списку приведет к смещению, поскольку подвыборка случаев, представленная недостающие данные не являются репрезентативными для исходной выборки (и если исходная выборка сама по себе была репрезентативной выборкой популяции, полные случаи также не являются репрезентативными для этой популяции). [3] Хотя списочное удаление является объективным, когда отсутствующие данные отсутствуют совершенно случайно, в действительности такое случается редко. [4]

Попарное удаление (или «доступный анализ случаев») предполагает удаление случая, когда в нем отсутствует переменная, необходимая для конкретного анализа, но включение этого случая в анализы, для которых присутствуют все необходимые переменные. При использовании попарного удаления общее число N для анализа не будет одинаковым для всех оценок параметров. Из-за неполных значений N в некоторые моменты времени при сохранении полного сравнения случаев для других параметров попарное удаление может привести к невозможным математическим ситуациям, таким как корреляции, превышающие 100%. [5]

Одним из преимуществ полного удаления регистров перед другими методами является простота и простота реализации. Это основная причина, по которой полный регистр является наиболее популярным методом обработки недостающих данных, несмотря на множество недостатков.

Единое вменение

Горячая палуба

Когда-то распространенным методом вменения было вменение в горячем режиме, когда недостающее значение вменялось из случайно выбранной аналогичной записи. Термин «горячая колода» восходит к хранению данных на перфокартах и ​​указывает на то, что доноры информации происходят из того же набора данных, что и получатели. Стопка карточек была «горячей», поскольку в данный момент она обрабатывалась.

Одна из форм горячего вменения называется «переносом последнего наблюдения» (или сокращенно LOCF), которая включает в себя сортировку набора данных по любой из нескольких переменных, создавая таким образом упорядоченный набор данных. Затем этот метод находит первое пропущенное значение и использует значение ячейки непосредственно перед отсутствующими данными для вменения пропущенного значения. Процесс повторяется для следующей ячейки с пропущенным значением, пока все пропущенные значения не будут вменены. В обычном сценарии, когда случаи представляют собой повторные измерения переменной для человека или другого объекта, это отражает убеждение в том, что, если измерение отсутствует, лучшим предположением является то, что оно не изменилось с момента последнего измерения. Известно, что этот метод увеличивает риск увеличения предвзятости и потенциально ложных выводов. По этой причине LOCF не рекомендуется использовать. [6]

Холодная палуба

Метод «холодного расчета», напротив, выбирает доноров из другого набора данных. Благодаря развитию компьютерной мощности более сложные методы вменения в целом вытеснили первоначальные методы вменения методом случайной и сортированной «горячей колоды». Это метод замены значениями ответов аналогичных вопросов в прошлых опросах. Он доступен в опросах, измеряющих временные интервалы.

Средняя замена

Другой метод вменения включает замену любого пропущенного значения средним значением этой переменной для всех других случаев, преимуществом которого является отсутствие изменения выборочного среднего для этой переменной. Однако вменение среднего значения ослабляет любые корреляции, включающие вменяемую переменную(и). Это связано с тем, что в случаях с вменением гарантировано отсутствие связи между вмененной переменной и любыми другими измеряемыми переменными. Таким образом, вменение среднего имеет некоторые привлекательные свойства для одномерного анализа, но становится проблематичным для многомерного анализа.

Вменение среднего значения может осуществляться внутри классов (т.е. таких категорий, как пол) и может быть выражено следующим образом: где – вмененное значение для записи , а – выборочное среднее значение данных респондента в пределах некоторого класса . Это частный случай вменения обобщенной регрессии:

Здесь значения оцениваются путем регрессии по невмененным данным, это фиктивная переменная для членства в классе, а данные разделяются на респондентов ( ) и отсутствующих ( ). [7] [8]

Неотрицательная матричная факторизация

Неотрицательная матричная факторизация (NMF) может использовать недостающие данные, минимизируя при этом функцию стоимости, вместо того, чтобы рассматривать эти недостающие данные как нули, которые могут привести к систематической ошибке. [9] Это делает его математически проверенным методом вменения данных. NMF может игнорировать недостающие данные в функции стоимости, а влияние отсутствующих данных может быть столь же малым, как эффект второго порядка.

Регрессия

Вменение регрессии имеет противоположную проблему вменения среднего значения. Предполагается, что регрессионная модель прогнозирует наблюдаемые значения переменной на основе других переменных, и эта модель затем используется для вменения значений в тех случаях, когда значение этой переменной отсутствует. Другими словами, доступная информация для полных и неполных случаев используется для прогнозирования значения конкретной переменной. Затем подобранные значения из регрессионной модели используются для вменения недостающих значений. Проблема в том, что вмененные данные не содержат ошибки, включенной в их оценку, поэтому оценки идеально соответствуют линии регрессии без какой-либо остаточной дисперсии. Это приводит к чрезмерной идентификации связей и предполагает более высокую точность вмененных значений, чем это оправдано. Модель регрессии предсказывает наиболее вероятное значение отсутствующих данных, но не обеспечивает неопределенности в отношении этого значения.

Стохастическая регрессия была довольно успешной попыткой исправить отсутствие ошибки в вменении регрессии путем добавления средней дисперсии регрессии к вменениям регрессии для внесения ошибки. Стохастическая регрессия демонстрирует гораздо меньшую предвзятость, чем вышеупомянутые методы, но она все же упускает одну вещь: если данные вменены, то интуитивно можно подумать, что в проблему следует внести больше шума, чем простое остаточное отклонение. [5]

Множественное вменение

Чтобы решить проблему увеличения шума из-за вменения, Рубин (1987) [10] разработал метод усреднения результатов по множеству вмененных наборов данных, чтобы учесть это. Все методы множественного вменения состоят из трех этапов. [3]

  1. Вменение. Подобно однократному вменению, вменяются пропущенные значения. Однако вмененные значения извлекаются из распределения m раз, а не только один раз. В конце этого шага должно быть m завершенных наборов данных.
  2. Анализ – анализируется каждый из m наборов данных. В конце этого шага должны быть проведены анализы.
  3. Объединение — m результатов объединяются в один результат путем расчета среднего значения, дисперсии и доверительного интервала рассматриваемой переменной [11] [12] или путем объединения моделирования из каждой отдельной модели. [13]

Множественное вменение может использоваться в случаях, когда данные отсутствуют полностью случайно , отсутствуют случайно или отсутствуют неслучайно , хотя в последнем случае оно может быть необъективным. [14] Одним из подходов является множественное вменение с помощью цепных уравнений (MICE), также известное как «полностью условная спецификация» и «множественное вменение последовательной регрессии». [15] MICE предназначен для пропуска случайных данных, хотя существуют доказательства моделирования, позволяющие предположить, что при достаточном количестве вспомогательных переменных он также может работать с данными, которые отсутствуют не случайно. Однако MICE может страдать от проблем с производительностью, когда количество наблюдений велико, а данные имеют сложные характеристики, такие как нелинейности и высокая размерность.

Более поздние подходы к множественному вменению используют методы машинного обучения для повышения его производительности. MIDAS (множественное вменение с автоэнкодерами шумоподавления), например, использует автоэнкодеры шумоподавления , тип неконтролируемой нейронной сети, для изучения мелкозернистых скрытых представлений наблюдаемых данных. [16] Было показано, что MIDAS обеспечивает преимущества в точности и эффективности по сравнению с традиционными стратегиями множественного вменения.

Как упоминалось в предыдущем разделе, однократное вменение не учитывает неопределенность в вменениях. После вменения данные обрабатываются так, как если бы они были фактическими реальными значениями при однократном вменении. Пренебрежение неопределенностью в вменении может привести к слишком точным результатам и ошибкам в любых сделанных выводах. [17] При многократном вменении множественное вменение учитывает неопределенность и диапазон значений, которые могло бы принять истинное значение. Как и ожидалось, сочетание оценки неопределенности и глубокого обучения для вменения является одной из лучших стратегий и использовалось для моделирования гетерогенных данных об открытии лекарств. [18] [19]

Кроме того, хотя однократное вменение и полный случай реализовать проще, множественное вменение реализовать не очень сложно. Существует широкий спектр статистических пакетов в различных статистических программах , которые легко выполняют множественное вменение. Например, пакет MICE позволяет пользователям R выполнять множественное вменение с использованием метода MICE. [20] MIDAS можно реализовать на R с помощью пакета rMIDAS и на Python с помощью пакета MIDASpy. [16]

Смотрите также

Рекомендации

  1. ^ Барнард, Дж.; Мэн, XL (1 марта 1999 г.). «Применение множественного вменения в медицинских исследованиях: от СПИДа до NHANES». Статистические методы в медицинских исследованиях . 8 (1): 17–36. дои : 10.1177/096228029900800103. ISSN  0962-2802. PMID  10347858. S2CID  11453137.
  2. ^ Гельман, Эндрю и Дженнифер Хилл . Анализ данных с использованием регрессии и многоуровневых/иерархических моделей. Издательство Кембриджского университета, 2006. Глава 25.
  3. ^ Аб Лалл, Ранджит (2016). «Как множественное вменение имеет значение». Политический анализ . 24 (4): 414–433. дои : 10.1093/pan/mpw020 .
  4. ^ Кенвард, Майкл Дж. (26 февраля 2013 г.). «Обработка недостающих данных в клинических исследованиях». Клиническое исследование . 3 (3): 241–250. дои : 10.4155/cli.13.7. ISSN  2041-6792.
  5. ^ аб Эндерс, CK (2010). Прикладной анализ недостающих данных . Нью-Йорк: Гилфорд Пресс. ISBN 978-1-60623-639-0.
  6. ^ Молнар, Фрэнк Дж.; Хаттон, Брайан; Фергюссон, Дин (07 октября 2008 г.). «Вносит ли анализ с использованием «последнего наблюдения, перенесенного в будущее» предвзятость в исследованиях деменции?». Журнал Канадской медицинской ассоциации . 179 (8): 751–753. дои : 10.1503/cmaj.080820. ISSN  0820-3946. ПМЦ 2553855 . ПМИД  18838445. 
  7. ^ Калтон, Грэм (1986). «Обработка недостающих данных обследования». Методика опроса . 12 : 1–16.
  8. ^ Калтон, Грэм; Каспшик, Дэниел (1982). «Вменение недостающих ответов на опрос» (PDF) . Труды секции обзорных методов исследования . 22 . Американская статистическая ассоциация . S2CID  195855359. Архивировано из оригинала (PDF) 12 февраля 2020 г.
  9. ^ Рен, Бин; Пуэйо, Лоран; Чен, Кристина; Шоке, Элоди; Дебес, Джон Х; Дюшен, Гаспар; Менар, Франсуа; Перрин, Маршалл Д. (2020). «Использование вменения данных для разделения сигналов при высококонтрастной визуализации». Астрофизический журнал . 892 (2): 74. arXiv : 2001.00563 . Бибкод : 2020ApJ...892...74R. дои : 10.3847/1538-4357/ab7024 . S2CID  209531731.
  10. Рубин, Дональд (9 июня 1987 г.). Множественное вменение неполученных ответов в обследованиях . Ряд Уайли по вероятности и статистике. Уайли. дои : 10.1002/9780470316696. ISBN 9780471087052.
  11. ^ Юань, Ян К. (2010). «Множественное вменение недостающих данных: концепции и новые разработки» (PDF) . SAS Institute Inc., Роквилл, Мэриленд . 49 : 1–11.
  12. ^ Ван Бюрен, Стеф (29 марта 2012 г.). «2. Множественное вменение». Гибкий расчет недостающих данных . Серия междисциплинарной статистики Чепмена и Холла / CRC. Том. 20125245. Чепмен и Холл/CRC. дои : 10.1201/b11826. ISBN 9781439868249. S2CID  60316970.
  13. ^ Кинг, Гэри ; Хонакер, Джеймс; Джозеф, Энн; Шев, Кеннет (март 2001 г.). «Анализ неполных данных политологии: альтернативный алгоритм множественного вменения». Американский обзор политической науки . 95 (1): 49–69. дои : 10.1017/S0003055401000235. ISSN  1537-5943. S2CID  15484116.
  14. ^ Пепински, Томас Б. (03 августа 2018 г.). «Примечание об удалении по спискам и множественном вменении». Политический анализ . 26 (4). Издательство Кембриджского университета (CUP): 480–488. дои : 10.1017/pan.2018.18 . ISSN  1047-1987.
  15. ^ Азур, Мелисса Дж.; Стюарт, Элизабет А.; Франгакис, Константин; Лиф, Филип Дж. (01 марта 2011 г.). «Множественное вменение цепными уравнениями: что это такое и как оно работает?». Международный журнал методов психиатрических исследований . 20 (1): 40–49. дои : 10.1002/mpr.329. ISSN  1557-0657. ПМК 3074241 . ПМИД  21499542. 
  16. ^ Аб Лалл, Ранджит; Робинсон, Томас (2021). «Прикосновение MIDAS: точное и масштабируемое вменение недостающих данных с помощью глубокого обучения». Политический анализ . 30 (2): 179–196. дои : 10.1017/pan.2020.49 .
  17. ^ Грэм, Джон В. (1 января 2009 г.). «Анализ недостающих данных: как заставить его работать в реальном мире». Ежегодный обзор психологии . 60 : 549–576. doi :10.1146/annurev.psych.58.110405.085530. ISSN  0066-4308. ПМИД  18652544.
  18. ^ Ирвин, Бенедикт (01.06.2020). «Практическое применение глубокого обучения для расчета гетерогенных данных об открытии лекарств». Журнал химической информации и моделирования . 60 (6): 2848–2857. doi : 10.1021/acs.jcim.0c00443. PMID  32478517. S2CID  219171721.
  19. ^ Уайтхед, Томас (12 февраля 2019 г.). «Вменение данных анализа биоактивности с использованием глубокого обучения». Журнал химической информации и моделирования . 59 (3): 1197–1204. doi : 10.1021/acs.jcim.8b00768. PMID  30753070. S2CID  73429643.
  20. ^ Хортон, Николас Дж.; Кляйнман, Кен П. (1 февраля 2007 г.). «Много шума из ничего: сравнение методов и программного обеспечения с недостающими данными для соответствия неполным моделям регрессии данных». Американский статистик . 61 (1): 79–90. дои : 10.1198/000313007X172556. ISSN  0003-1305. ПМЦ 1839993 . ПМИД  17401454. 

Внешние ссылки