В статистике вменение — это процесс замены отсутствующих данных замененными значениями. При замене точки данных это называется « вменением единицы »; при замене компонента точки данных это называется « вменением элемента ». Есть три основные проблемы, которые вызывают отсутствие данных: отсутствие данных может привести к значительной систематической ошибке , усложнить обработку и анализ данных и привести к снижению эффективности . [1] Поскольку отсутствующие данные могут создать проблемы при анализе данных, вменение рассматривается как способ избежать ошибок, связанных с списковым удалением случаев с пропущенными значениями. То есть, когда для случая отсутствует одно или несколько значений, большинство статистических пакетов по умолчанию отбрасывают любой случай, в котором отсутствует значение, что может привести к систематической ошибке или повлиять на репрезентативность результатов. Вменение сохраняет все случаи, заменяя отсутствующие данные оценочным значением, основанным на другой доступной информации. После того как все пропущенные значения будут вменены, набор данных можно проанализировать с использованием стандартных методов для получения полных данных. [2] Ученые выдвинули множество теорий, объясняющих недостающие данные, но большинство из них вносят предвзятость. Некоторые из хорошо известных попыток справиться с недостающими данными включают в себя: вменение «горячей колоды» и «холодной колоды»; списковое и попарное удаление; среднее вменение; неотрицательная матричная факторизация; регрессионное вменение; последнее наблюдение перенесено; стохастическое вменение; и множественное вменение.
На сегодняшний день наиболее распространенным способом борьбы с отсутствующими данными является удаление по списку (также известное как полный регистр), при котором удаляются все наблюдения с отсутствующим значением. Если данные отсутствуют полностью случайным образом , то удаление по списку не добавляет никакой систематической ошибки, но снижает эффективность анализа за счет уменьшения эффективного размера выборки. Например, если собрано 1000 случаев, но в 80 из них отсутствуют значения, эффективный размер выборки после удаления по списку составит 920. Если случаи не исчезают полностью случайным образом, то удаление по списку приведет к смещению, поскольку подвыборка случаев, представленная недостающие данные не являются репрезентативными для исходной выборки (и если исходная выборка сама по себе была репрезентативной выборкой популяции, полные случаи также не являются репрезентативными для этой популяции). [3] Хотя списочное удаление является объективным, когда отсутствующие данные отсутствуют совершенно случайно, в действительности такое случается редко. [4]
Попарное удаление (или «доступный анализ случаев») предполагает удаление случая, когда в нем отсутствует переменная, необходимая для конкретного анализа, но включение этого случая в анализы, для которых присутствуют все необходимые переменные. При использовании попарного удаления общее число N для анализа не будет одинаковым для всех оценок параметров. Из-за неполных значений N в некоторые моменты времени при сохранении полного сравнения случаев для других параметров попарное удаление может привести к невозможным математическим ситуациям, таким как корреляции, превышающие 100%. [5]
Одним из преимуществ полного удаления регистров перед другими методами является простота и простота реализации. Это основная причина, по которой полный регистр является наиболее популярным методом обработки недостающих данных, несмотря на множество недостатков.
Когда-то распространенным методом вменения было вменение в горячем режиме, когда недостающее значение вменялось из случайно выбранной аналогичной записи. Термин «горячая колода» восходит к хранению данных на перфокартах и указывает на то, что доноры информации происходят из того же набора данных, что и получатели. Стопка карточек была «горячей», поскольку в данный момент она обрабатывалась.
Одна из форм горячего вменения называется «переносом последнего наблюдения» (или сокращенно LOCF), которая включает в себя сортировку набора данных по любой из нескольких переменных, создавая таким образом упорядоченный набор данных. Затем этот метод находит первое пропущенное значение и использует значение ячейки непосредственно перед отсутствующими данными для вменения пропущенного значения. Процесс повторяется для следующей ячейки с пропущенным значением, пока все пропущенные значения не будут вменены. В обычном сценарии, когда случаи представляют собой повторные измерения переменной для человека или другого объекта, это отражает убеждение в том, что, если измерение отсутствует, лучшим предположением является то, что оно не изменилось с момента последнего измерения. Известно, что этот метод увеличивает риск увеличения предвзятости и потенциально ложных выводов. По этой причине LOCF не рекомендуется использовать. [6]
Метод «холодного расчета», напротив, выбирает доноров из другого набора данных. Благодаря развитию компьютерной мощности более сложные методы вменения в целом вытеснили первоначальные методы вменения методом случайной и сортированной «горячей колоды». Это метод замены значениями ответов аналогичных вопросов в прошлых опросах. Он доступен в опросах, измеряющих временные интервалы.
Другой метод вменения включает замену любого пропущенного значения средним значением этой переменной для всех других случаев, преимуществом которого является отсутствие изменения выборочного среднего для этой переменной. Однако вменение среднего значения ослабляет любые корреляции, включающие вменяемую переменную(и). Это связано с тем, что в случаях с вменением гарантировано отсутствие связи между вмененной переменной и любыми другими измеряемыми переменными. Таким образом, вменение среднего имеет некоторые привлекательные свойства для одномерного анализа, но становится проблематичным для многомерного анализа.
Вменение среднего значения может осуществляться внутри классов (т.е. таких категорий, как пол) и может быть выражено следующим образом: где – вмененное значение для записи , а – выборочное среднее значение данных респондента в пределах некоторого класса . Это частный случай вменения обобщенной регрессии:
Здесь значения оцениваются путем регрессии по невмененным данным, это фиктивная переменная для членства в классе, а данные разделяются на респондентов ( ) и отсутствующих ( ). [7] [8]
Неотрицательная матричная факторизация (NMF) может использовать недостающие данные, минимизируя при этом функцию стоимости, вместо того, чтобы рассматривать эти недостающие данные как нули, которые могут привести к систематической ошибке. [9] Это делает его математически проверенным методом вменения данных. NMF может игнорировать недостающие данные в функции стоимости, а влияние отсутствующих данных может быть столь же малым, как эффект второго порядка.
Вменение регрессии имеет противоположную проблему вменения среднего значения. Предполагается, что регрессионная модель прогнозирует наблюдаемые значения переменной на основе других переменных, и эта модель затем используется для вменения значений в тех случаях, когда значение этой переменной отсутствует. Другими словами, доступная информация для полных и неполных случаев используется для прогнозирования значения конкретной переменной. Затем подобранные значения из регрессионной модели используются для вменения недостающих значений. Проблема в том, что вмененные данные не содержат ошибки, включенной в их оценку, поэтому оценки идеально соответствуют линии регрессии без какой-либо остаточной дисперсии. Это приводит к чрезмерной идентификации связей и предполагает более высокую точность вмененных значений, чем это оправдано. Модель регрессии предсказывает наиболее вероятное значение отсутствующих данных, но не обеспечивает неопределенности в отношении этого значения.
Стохастическая регрессия была довольно успешной попыткой исправить отсутствие ошибки в вменении регрессии путем добавления средней дисперсии регрессии к вменениям регрессии для внесения ошибки. Стохастическая регрессия демонстрирует гораздо меньшую предвзятость, чем вышеупомянутые методы, но она все же упускает одну вещь: если данные вменены, то интуитивно можно подумать, что в проблему следует внести больше шума, чем простое остаточное отклонение. [5]
Чтобы решить проблему увеличения шума из-за вменения, Рубин (1987) [10] разработал метод усреднения результатов по множеству вмененных наборов данных, чтобы учесть это. Все методы множественного вменения состоят из трех этапов. [3]
Множественное вменение может использоваться в случаях, когда данные отсутствуют полностью случайно , отсутствуют случайно или отсутствуют неслучайно , хотя в последнем случае оно может быть необъективным. [14] Одним из подходов является множественное вменение с помощью цепных уравнений (MICE), также известное как «полностью условная спецификация» и «множественное вменение последовательной регрессии». [15] MICE предназначен для пропуска случайных данных, хотя существуют доказательства моделирования, позволяющие предположить, что при достаточном количестве вспомогательных переменных он также может работать с данными, которые отсутствуют не случайно. Однако MICE может страдать от проблем с производительностью, когда количество наблюдений велико, а данные имеют сложные характеристики, такие как нелинейности и высокая размерность.
Более поздние подходы к множественному вменению используют методы машинного обучения для повышения его производительности. MIDAS (множественное вменение с автоэнкодерами шумоподавления), например, использует автоэнкодеры шумоподавления , тип неконтролируемой нейронной сети, для изучения мелкозернистых скрытых представлений наблюдаемых данных. [16] Было показано, что MIDAS обеспечивает преимущества в точности и эффективности по сравнению с традиционными стратегиями множественного вменения.
Как упоминалось в предыдущем разделе, однократное вменение не учитывает неопределенность в вменениях. После вменения данные обрабатываются так, как если бы они были фактическими реальными значениями при однократном вменении. Пренебрежение неопределенностью в вменении может привести к слишком точным результатам и ошибкам в любых сделанных выводах. [17] При многократном вменении множественное вменение учитывает неопределенность и диапазон значений, которые могло бы принять истинное значение. Как и ожидалось, сочетание оценки неопределенности и глубокого обучения для вменения является одной из лучших стратегий и использовалось для моделирования гетерогенных данных об открытии лекарств. [18] [19]
Кроме того, хотя однократное вменение и полный случай реализовать проще, множественное вменение реализовать не очень сложно. Существует широкий спектр статистических пакетов в различных статистических программах , которые легко выполняют множественное вменение. Например, пакет MICE позволяет пользователям R выполнять множественное вменение с использованием метода MICE. [20] MIDAS можно реализовать на R с помощью пакета rMIDAS и на Python с помощью пакета MIDASpy. [16]