Отсутствующие данные

В статистике пропущенные данные или пропущенные значения возникают, когда для переменной в наблюдении не хранится значение данных . Пропущенные данные являются обычным явлением и могут оказать существенное влияние на выводы, которые можно сделать из данных.

Пропущенные данные могут возникнуть из-за отсутствия ответа: не предоставлена информация по одному или нескольким пунктам или по целому блоку («субъекту»). Некоторые пункты с большей вероятностью могут вызвать отсутствие ответа, чем другие: например, пункты о личных предметах, таких как доход. Отсев — это тип отсутствия, который может возникнуть в лонгитюдных исследованиях, например, при изучении развития, где измерение повторяется через определенный период времени. Отсутствие происходит, когда участники выбывают до окончания теста, и одно или несколько измерений отсутствуют.

Данные часто отсутствуют в исследованиях по экономике , социологии и политологии , поскольку правительства или частные организации предпочитают не сообщать или не сообщают критически важную статистику, ^[1] или потому, что информация недоступна. Иногда отсутствующие значения вызваны исследователем, например, когда сбор данных проводится неправильно или при вводе данных допускаются ошибки. ^[2]

Эти формы пропусков принимают различные типы, с различным влиянием на обоснованность выводов исследования: пропуски полностью случайные, пропуски случайные и пропуски не случайные. С пропусками данных можно обращаться так же, как с цензурированными данными .

Типы

Понимание причин отсутствия данных важно для правильной обработки оставшихся данных. Если значения отсутствуют полностью случайным образом, выборка данных, скорее всего, все еще является репрезентативной для популяции. Но если значения отсутствуют систематически, анализ может быть предвзятым. Например, при исследовании связи между IQ и доходом, если участники с IQ выше среднего склонны пропускать вопрос «Какова ваша зарплата?», анализы, которые не учитывают это случайное отсутствие (паттерн MAR (см. ниже)) могут ошибочно не обнаружить положительную связь между IQ и зарплатой. Из-за этих проблем методисты обычно советуют исследователям разрабатывать исследования так, чтобы свести к минимуму возникновение пропущенных значений. ^[2] Графические модели могут использоваться для подробного описания механизма пропущенных данных. ^[3]^[4]

Пропал совершенно случайно

Значения в наборе данных отсутствуют полностью случайно (MCAR), если события, которые приводят к отсутствию какого-либо конкретного элемента данных, не зависят ни от наблюдаемых переменных, ни от ненаблюдаемых параметров, представляющих интерес, и происходят полностью случайно. ^[5] Когда данные являются MCAR, анализ, выполняемый над данными, является беспристрастным; однако данные редко являются MCAR.

В случае MCAR отсутствие данных не связано с какой-либо переменной исследования: таким образом, участники с полностью наблюдаемыми данными фактически являются случайной выборкой всех участников, которым назначено определенное вмешательство. При MCAR предполагается, что случайное назначение лечения сохраняется, но на практике это обычно нереалистично сильное предположение. ^[6]

Отсутствует случайно

Случайные пропуски (MAR) возникают, когда пропуски не случайны, но когда пропуски могут быть полностью учтены переменными, где есть полная информация. ^[7] Поскольку MAR является предположением, которое невозможно проверить статистически, мы должны полагаться на его содержательную обоснованность. ^[8] Примером может служить то, что мужчины с меньшей вероятностью заполняют опросник по депрессии, но это не имеет никакого отношения к их уровню депрессии после учета мужского пола. В зависимости от метода анализа эти данные все еще могут вызывать смещение параметров в анализах из-за условной пустоты ячеек (мужчина, очень высокая депрессия может иметь нулевые записи). Однако, если параметр оценивается с помощью максимальной вероятности полной информации, MAR предоставит асимптотически несмещенные оценки. ^{[ необходима цитата ]}

Пропал не случайно

Пропущенные неслучайно данные (MNAR) (также известные как неигнорируемые неответы) — это данные, которые не являются ни MAR, ни MCAR (т. е. значение пропущенной переменной связано с причиной ее отсутствия). ^[5] Если расширить предыдущий пример, это могло бы произойти, если бы мужчины не заполнили опросник по депрессии из-за своего уровня депрессии.

Сэмюэлсон и Спирер (1992) обсуждали, как отсутствующие и/или искаженные данные о демографии, правоохранительных органах и здравоохранении могут быть индикаторами закономерностей нарушений прав человека. Они привели несколько довольно хорошо документированных примеров. ^[9]

Структурированная нехватка

Пропущенные данные могут также возникать тонкими способами, которые не очень хорошо учитываются в классической теории. Все чаще встречается проблема, в которой данные могут не быть MAR, но пропущенные значения демонстрируют связь или структуру, явно или неявно. Такие пропуски были описаны как «структурированные пропуски». ^[10]

Структурированные пропуски обычно возникают при объединении информации из нескольких исследований, каждое из которых может отличаться по своему дизайну и набору измерений и, следовательно, содержать только подмножество переменных из объединения модальностей измерений. В этих ситуациях пропущенные значения могут относиться к различным методологиям выборки, используемым для сбора данных, или отражать характеристики более широкой группы населения, представляющей интерес, и, таким образом, могут давать полезную информацию. Например, в контексте здравоохранения структурированные пропуски наблюдались как следствие связывания клинических, геномных и визуализированных данных. ^[10]

Наличие структурированных пропусков может быть препятствием для эффективного использования данных в масштабе, в том числе с помощью как классических статистических, так и современных методов машинного обучения. Например, может быть смещение, присущее причинам, по которым некоторые данные могут отсутствовать в шаблонах, что может иметь последствия для прогностической справедливости для моделей машинного обучения. Кроме того, устоявшиеся методы работы с отсутствующими данными, такие как импутация , обычно не учитывают структуру отсутствующих данных, и поэтому необходима разработка новых формулировок для надлежащего или эффективного решения проблемы структурированных пропусков. Наконец, характеристика структурированных пропусков в классических рамках MCAR, MAR и MNAR находится в процессе разработки. ^[11]

Методы работы с отсутствующими данными

Отсутствующие данные снижают репрезентативность выборки и, следовательно, могут искажать выводы о популяции. В общем, существует три основных подхода к обработке отсутствующих данных: (1) вменение — когда значения заполняются вместо отсутствующих данных, (2) пропуск — когда образцы с недействительными данными отбрасываются из дальнейшего анализа и (3) анализ — путем прямого применения методов, не затронутых отсутствующими значениями. В одном систематическом обзоре, посвященном предотвращению и обработке отсутствующих данных для исследований результатов, ориентированных на пациента, было выявлено 10 стандартов, необходимых для предотвращения и обработки отсутствующих данных. К ним относятся стандарты для дизайна исследования, проведения исследования, анализа и отчетности. ^[12]

В некоторых практических приложениях экспериментаторы могут контролировать уровень пропусков и предотвращать пропуски значений до сбора данных. Например, в компьютерных анкетах часто невозможно пропустить вопрос. На вопрос нужно ответить, иначе нельзя перейти к следующему. Поэтому пропущенные значения, обусловленные участником, устраняются этим типом анкеты, хотя этот метод может быть не разрешен этическим советом, контролирующим исследование. В исследовании опроса принято прилагать многочисленные усилия, чтобы связаться с каждым человеком в выборке, часто отправляя письма, чтобы попытаться убедить тех, кто решил не участвовать, изменить свое мнение. ^[13]^{: 161–187} Однако такие методы могут как помочь, так и навредить с точки зрения снижения негативных выводных эффектов от пропущенных данных, поскольку тип людей, которых можно убедить участвовать после первоначального отказа или отсутствия дома, вероятно, будет существенно отличаться от типа людей, которые все равно откажутся или останутся недоступными после дополнительных усилий. ^[13]^{: 188–198}

В ситуациях, когда вероятны пропуски значений, исследователю часто советуют планировать использование методов анализа данных, которые устойчивы к пропускам. Анализ является устойчивым, когда мы уверены, что легкие или умеренные нарушения ключевых предположений методики не приведут к небольшому смещению или искажению выводов, сделанных относительно популяции.

Вменение

Некоторые методы анализа данных не являются устойчивыми к пропускам и требуют «заполнения» или вменения пропущенных данных. Рубин (1987) утверждал, что повторение вменения даже несколько раз (5 или меньше) значительно улучшает качество оценки. ^[2] Для многих практических целей 2 или 3 вменения охватывают большую часть относительной эффективности, которая могла бы быть охвачена большим числом вменений. Однако слишком малое число вменений может привести к существенной потере статистической мощности , и некоторые ученые теперь рекомендуют от 20 до 100 или больше. ^[14] Любой анализ данных с множественным вменением должен быть повторен для каждого из наборов вмененных данных, и в некоторых случаях соответствующие статистические данные должны быть объединены относительно сложным способом. ^[2] Множественное вменение не проводится в определенных дисциплинах, поскольку существует недостаток обучения или неправильные представления о них. ^[15] Такие методы, как списочное удаление, использовались для вменения данных, но было обнаружено, что они вносят дополнительное смещение. ^[16] Существует руководство для начинающих, которое содержит пошаговые инструкции по вменению данных. ^[17]

Алгоритм максимизации ожиданий — это подход, в котором значения статистик, которые были бы вычислены, если бы был доступен полный набор данных, оцениваются (вменяются) с учетом закономерности пропущенных данных. В этом подходе значения для отдельных пропущенных элементов данных обычно не вменяются.

Интерполяция

В математической области численного анализа интерполяция — это метод построения новых точек данных в пределах дискретного набора известных точек данных.

При сравнении двух парных выборок с отсутствующими данными тестовая статистика, которая использует все доступные данные без необходимости вменения, представляет собой t-тест для частично перекрывающихся выборок. ^[18] Это справедливо при нормальном распределении и предположении MCAR

Частичное удаление

Методы, которые предполагают сокращение имеющихся данных до набора данных, не имеющего пропущенных значений, включают:

Удаление по списку /удаление по регистру
Парное удаление

Полный анализ

Методы, которые полностью учитывают всю доступную информацию, без искажений, возникающих в результате использования вмененных значений, как если бы они были фактически наблюдаемыми:

Генеративные подходы:
- Алгоритм максимизации ожидания
- полная информация оценка максимального правдоподобия
Дискриминационные подходы:
- Классификация данных с отсутствующими признаками по максимальному значению ^[19]^[20]

Могут также использоваться методы частичной идентификации . ^[21]

Методы, основанные на моделях

Методы на основе моделей, часто использующие графики, предлагают дополнительные инструменты для проверки типов отсутствующих данных (MCAR, MAR, MNAR) и для оценки параметров в условиях отсутствующих данных. Например, тест для опровержения MAR/MCAR выглядит следующим образом:

Для любых трех переменных X, Y и Z , где Z полностью наблюдается, а X и Y наблюдаются частично, данные должны удовлетворять: . $X\perp \!\!\!\perp R_{y}|(R_{x},Z)$

Другими словами, наблюдаемая часть X должна быть независимой от статуса отсутствия Y, обусловленного каждым значением Z. Невыполнение этого условия указывает на то, что проблема относится к категории MNAR. ^[22]

(Примечание: эти тесты необходимы для MAR на основе переменных, которая является небольшой вариацией MAR на основе событий. ^[23]^[24]^[25] )

Когда данные попадают в категорию MNAR, доступны методы для последовательной оценки параметров, когда в модели выполняются определенные условия. ^[3] Например, если Y объясняет причину отсутствия в X , а сам Y имеет отсутствующие значения, совместное распределение вероятностей X и Y все еще может быть оценено , если отсутствие Y является случайным. Оценка в этом случае будет:

{\begin{align}P(X,Y)&=P(X|Y)P(Y)\\&=P(X|Y,R_{x}=0,R_{y}=0)P(Y|R_{y}=0)\end{align}}

где и обозначают наблюдаемые доли соответствующих им переменных. $R_{x}=0$ $R_{y}=0$

Различные структуры модели могут давать различные оценки и различные процедуры оценки, когда возможна согласованная оценка. Предыдущая оценка требует первой оценки из полных данных и умножения ее на оценку из случаев, в которых Y наблюдается независимо от статуса X . Более того, для получения согласованной оценки важно, чтобы первый член был противоположен . $P(X|Y)$ $P(Y)$ $P(X|Y)$ $P(Y|X)$

Во многих случаях методы, основанные на моделях, позволяют подвергать структуру модели тестам на опровержение. ^[25] Любая модель, которая подразумевает независимость между частично наблюдаемой переменной X и индикатором отсутствия другой переменной Y (т.е. ), при условии, может быть подвергнута следующему тесту на опровержение: . $R_{y}$ $R_{x}$ $X\perp \!\!\!\perp R_{y}|R_{x}=0$

Наконец, оценки, которые возникают с помощью этих методов, выводятся в замкнутой форме и не требуют итеративных процедур, таких как максимизация ожидания, которые восприимчивы к локальным оптимумам. ^[26]

Особый класс задач возникает, когда вероятность пропуска зависит от времени. Например, в базах данных травм вероятность потери данных об исходе травмы зависит от дня после травмы. В этих случаях применяются различные нестационарные модели цепей Маркова . ^[27]

Смотрите также

Ссылки

^ Месснер СФ (1992). «Изучение последствий ошибочной отчетности данных для межнациональных исследований убийств». Журнал количественной криминологии . 8 (2): 155–173. doi :10.1007/bf01066742. S2CID 133325281.
^ abcd Hand, Дэвид Дж.; Адер, Герман Дж.; Мелленберг, Гидеон Дж. (2008). Консультирование по методам исследования: помощник консультанта . Хейзен, Нидерланды: Йоханнес ван Кессель. стр. 305–332. ISBN 978-90-79418-01-5.
^ ab Mohan, Karthika; Pearl, Judea; Tian, Jin (2013). «Графические модели для вывода с отсутствующими данными». Достижения в области нейронных систем обработки информации 26. стр. 1277–1285.
^ Карванен, Юха (2015). «Изучение дизайна в причинных моделях». Скандинавский статистический журнал . 42 (2): 361–377. arXiv : 1211.2958 . дои : 10.1111/sjos.12110. S2CID 53642701.
^ ab Polit DF Beck CT (2012). Исследования в области сестринского дела: создание и оценка доказательств для сестринской практики, 9-е изд . Филадельфия, США: Wolters Klower Health, Lippincott Williams & Wilkins.
^ Дэн (2012-10-05). "О биостатистике и клинических испытаниях". Архивировано из оригинала 15 марта 2016 года . Получено 13 мая 2016 года .
^ "Home". Архивировано из оригинала 2015-09-10 . Получено 2015-08-01 .
^ Литтл, Родерик JA; Рубин, Дональд Б. (2002), Статистический анализ с пропущенными данными (2-е изд.), Wiley.
^ Сэмюэлсон, Дуглас А.; Спирер, Герберт Ф. (1992-12-31), «Глава 3. Использование неполных и искаженных данных в выводах о нарушениях прав человека», Права человека и статистика , Издательство Пенсильванского университета, стр. 62–78, doi : 10.9783/9781512802863-006, ISBN 9781512802863, получено 2022-08-18
^ ab Митра, Робин; Макгоф, Сара Ф.; Чакраборти, Тапабрата; Холмс, Крис; Коппинг, Райан; Хагенбух, Нильс; Бидерманн, Стефани; Нунан, Джек; Леманн, Бриё; Шенви, Адити; Доан, Сюань Винь; Лесли, Дэвид; Бьянкони, Джинестра; Санчес-Гарсия, Рубен; Дэвис, Алиша (2023-01-25). «Изучение данных со структурированными пропусками». Nature Machine Intelligence . 5 (1): 13–23. arXiv : 2304.01429 . doi :10.1038/s42256-022-00596-z. ISSN 2522-5839.
^ Джексон, Джеймс; Митра, Робин; Хагенбух, Нильс; Макгоф, Сара; Харброн, Крис (2023-07-05), Полная характеристика структурированного отсутствия , arXiv : 2307.02650
^ Ли, Тяньцзин; Хатфлесс, Сьюзан; Шарфштейн, Дэниел О.; Дэниелс, Майкл Дж.; Хоган, Джозеф В.; Литтл, Родерик JA; Рой, Джейсон А.; Лоу, Эндрю Х.; Дикерсин, Кей (2014). «Стандарты должны применяться при предотвращении и обработке отсутствующих данных для исследований результатов, ориентированных на пациента: систематический обзор и экспертный консенсус». Журнал клинической эпидемиологии . 67 (1): 15–32. doi :10.1016/j.jclinepi.2013.08.013. PMC 4631258. PMID 24262770 .
^ ab Stoop, I. ; Billiet, J.; Koch, A.; Fitzgerald, R. (2010). Сокращение неответов на опросы: уроки, извлеченные из Европейского социального исследования . Оксфорд: Wiley-Blackwell. ISBN 978-0-470-51669-0.
^ Graham JW; Olchowski AE; Gilreath TD (2007). «Сколько вменений действительно нужно? Некоторые практические разъяснения теории множественного вменения». Preventative Science . 8 (3): 208–213. CiteSeerX 10.1.1.595.7125 . doi :10.1007/s11121-007-0070-9. PMID 17549635. S2CID 24566076.
^ ван Гинкель, Йост Р.; Линтинг, Мариэль; Риппе, Ральф КА; ван дер Вурт, Аня (2020-05-03). «Опровержение существующих заблуждений о множественном вменении как методе обработки отсутствующих данных». Журнал оценки личности . 102 (3): 297–308. doi : 10.1080/00223891.2018.1530680. hdl : 1887/138825 . ISSN 0022-3891. PMID 30657714. S2CID 58580667.
^ ван Бюрен, С. (2018). Гибкое вменение недостающих данных (2-е изд.). ЦРК Пресс.
^ Вудс, Адриенна Д.; Герасимова, Дарья; Ван Дусен, Бен; Ниссен, Джейсон; Бейнтер, Сьерра; Уздавинес, Алекс; Дэвис-Кин, Памела Э.; Халворсон, Макс; Кинг, Кевин М.; Логан, Джессика АР; Сюй, Менглин; Васильев, Мартин Р.; Клей, Джеймс М.; Моро, Дэвид; Джойал-Демаре, Кевен (2023-02-23). «Лучшие практики устранения отсутствующих данных с помощью множественного подстановки». Развитие младенцев и детей . 33 . doi : 10.1002/icd.2407 . ISSN 1522-7227.
^ Деррик, Б.; Расс, Б.; Тохер, Д.; Уайт, П. (2017). «Тестовые статистики для сравнения средних значений для двух выборок, включающих как парные, так и независимые наблюдения». Журнал современных прикладных статистических методов . 16 (1): 137–157. doi : 10.22237/jmasm/1493597280 .
^ Чечик, Гал; Хайтц, Джереми; Элидан, Гал; Аббель, Питер ; Коллер, Дафна (2008-06-01). «Классификация неполных данных по максимальному пределу» (PDF) . Системы обработки нейронной информации : 233–240.
^ Чечик, Гал; Хайтц, Джереми; Элидан, Гал; Аббель, Питер ; Коллер, Дафна (2008-06-01). «Классификация данных с отсутствующими признаками по максимальному пределу». Журнал исследований машинного обучения . 9 : 1–21. ISSN 1532-4435.
^ Тамер, Эли (2010). «Частичная идентификация в эконометрике» (PDF) . Annual Review of Economics . 2 (1): 167–195. doi :10.1146/annurev.economics.050708.143401.
^ Мохан, Картика; Перл, Джудея (2014). «О тестируемости моделей с отсутствующими данными». Труды AISTAT-2014, предстоящие .
^ Дарвич, Аднан (2009). Моделирование и рассуждения с использованием байесовских сетей . Cambridge University Press.
^ Поттхофф, РФ; Тюдор, GE; Пипер, KS; Хассельблад, В. (2006). «Можно ли оценить, являются ли отсутствующие данные случайными в медицинских исследованиях?». Статистические методы в медицинских исследованиях . 15 (3): 213–234. doi :10.1191/0962280206sm448oa. PMID 16768297. S2CID 12882831.
^ ab Pearl, Judea; Mohan, Karthika (2013). Восстанавливаемость и проверяемость отсутствующих данных: введение и резюме результатов (PDF) (технический отчет). Кафедра компьютерных наук Калифорнийского университета в Лос-Анджелесе, R-417.
^ Мохан, К.; Ван ден Брок, Г.; Чой, А.; Перл, Дж. (2014). «Эффективный метод обучения параметров байесовской сети на основе неполных данных». Представлено на семинаре по причинному моделированию и машинному обучению, ICML-2014 .
^ Mirkes, EM; Coats, TJ; Levesley, J.; Gorban, AN (2016). «Обработка отсутствующих данных в большом наборе данных здравоохранения: исследование случая неизвестных результатов травм». Компьютеры в биологии и медицине . 75 : 203–216. arXiv : 1604.00627 . Bibcode : 2016arXiv160400627M. doi : 10.1016/j.compbiomed.2016.06.004. PMID 27318570. S2CID 5874067. Архивировано из оригинала 05.08.2016.

Дальнейшее чтение

Acock AC (2005), «Работа с отсутствующими ценностями», Журнал брака и семьи , 67 (4): 1012–28, doi : 10.1111/j.1741-3737.2005.00191.x
Эллисон, Пол Д. (2001), Отсутствующие данные , SAGE Publishing
Буза-Эррера, Карлос Н. (2013), Обработка пропущенных данных в ранжированной выборке , Springer
Эндерс, Крейг К. (2010), Прикладной анализ пропущенных данных , Guilford Press
Грэм, Джон У. (2012), Missing Data , Springer
Моленбергс, Герт; Фицморис, Гарретт; Кенвард, Майкл Г.; Циатис, Анастасиос; Вербеке, Герт, ред. (2015), Справочник по методологии недостающих данных , Chapman & Hall
Рагхунатхан, Тривеллор (2016), Анализ отсутствующих данных на практике , Chapman & Hall
Литтл, Родерик JA; Рубин, Дональд Б. (2002), Статистический анализ с пропущенными данными (2-е изд.), Wiley
Циатис, Анастасиос А. (2006), Полупараметрическая теория и пропущенные данные , Springer
Van den Broeck J, Cunningham SA, Eeckels R, Herbst K (2005), «Очистка данных: обнаружение, диагностика и редактирование аномалий данных», PLOS Medicine , 2 (10): e267, doi : 10.1371/journal.pmed.0020267 , PMC 1198040 , PMID 16138788, S2CID 5667073
Zarate LE, Nogueira BM, Santos TR, Song MA (2006). «Методы восстановления пропущенных значений в несбалансированных базах данных: применение в маркетинговой базе данных с большим количеством пропущенных данных». Международная конференция IEEE по системам, человеку и кибернетике, 2006. SMC '06 . Том 3. С. 2658–2664. doi :10.1109/ICSMC.2006.385265.

Внешние ссылки

Фон

Отсутствующие данные, Департамент медицинской статистики, Лондонская школа гигиены и тропической медицины
Пространственный и временной анализ тенденций долгосрочных данных об осадках в водосборах с недостаточным объемом данных и отсутствующими данными на примере поймы Нижнего Шира в Малави за период 1953–2010 гг.
R-miss-tastic, унифицированная платформа для методов и рабочих процессов для пропущенных значений.
Отсутствующие ценности-представление

Программное обеспечение

Мплюс
PROC MI и PROC MIANALYZE - SAS
СПСС