В статистике пропущенные данные или пропущенные значения возникают, когда для переменной в наблюдении не хранится значение данных . Пропущенные данные являются обычным явлением и могут оказать существенное влияние на выводы, которые можно сделать из данных.
Пропущенные данные могут возникнуть из-за отсутствия ответа: не предоставлена информация по одному или нескольким пунктам или по целому блоку («субъекту»). Некоторые пункты с большей вероятностью могут вызвать отсутствие ответа, чем другие: например, пункты о личных предметах, таких как доход. Отсев — это тип отсутствия, который может возникнуть в лонгитюдных исследованиях, например, при изучении развития, где измерение повторяется через определенный период времени. Отсутствие происходит, когда участники выбывают до окончания теста, и одно или несколько измерений отсутствуют.
Данные часто отсутствуют в исследованиях по экономике , социологии и политологии , поскольку правительства или частные организации предпочитают не сообщать или не сообщают критически важную статистику, [1] или потому, что информация недоступна. Иногда отсутствующие значения вызваны исследователем, например, когда сбор данных проводится неправильно или при вводе данных допускаются ошибки. [2]
Эти формы пропусков принимают различные типы, с различным влиянием на обоснованность выводов исследования: пропуски полностью случайные, пропуски случайные и пропуски не случайные. С пропусками данных можно обращаться так же, как с цензурированными данными .
Понимание причин отсутствия данных важно для правильной обработки оставшихся данных. Если значения отсутствуют полностью случайным образом, выборка данных, скорее всего, все еще является репрезентативной для популяции. Но если значения отсутствуют систематически, анализ может быть предвзятым. Например, при исследовании связи между IQ и доходом, если участники с IQ выше среднего склонны пропускать вопрос «Какова ваша зарплата?», анализы, которые не учитывают это случайное отсутствие (паттерн MAR (см. ниже)) могут ошибочно не обнаружить положительную связь между IQ и зарплатой. Из-за этих проблем методисты обычно советуют исследователям разрабатывать исследования так, чтобы свести к минимуму возникновение пропущенных значений. [2] Графические модели могут использоваться для подробного описания механизма пропущенных данных. [3] [4]
Значения в наборе данных отсутствуют полностью случайно (MCAR), если события, которые приводят к отсутствию какого-либо конкретного элемента данных, не зависят ни от наблюдаемых переменных, ни от ненаблюдаемых параметров, представляющих интерес, и происходят полностью случайно. [5] Когда данные являются MCAR, анализ, выполняемый над данными, является беспристрастным; однако данные редко являются MCAR.
В случае MCAR отсутствие данных не связано с какой-либо переменной исследования: таким образом, участники с полностью наблюдаемыми данными фактически являются случайной выборкой всех участников, которым назначено определенное вмешательство. При MCAR предполагается, что случайное назначение лечения сохраняется, но на практике это обычно нереалистично сильное предположение. [6]
Случайные пропуски (MAR) возникают, когда пропуски не случайны, но когда пропуски могут быть полностью учтены переменными, где есть полная информация. [7] Поскольку MAR является предположением, которое невозможно проверить статистически, мы должны полагаться на его содержательную обоснованность. [8] Примером может служить то, что мужчины с меньшей вероятностью заполняют опросник по депрессии, но это не имеет никакого отношения к их уровню депрессии после учета мужского пола. В зависимости от метода анализа эти данные все еще могут вызывать смещение параметров в анализах из-за условной пустоты ячеек (мужчина, очень высокая депрессия может иметь нулевые записи). Однако, если параметр оценивается с помощью максимальной вероятности полной информации, MAR предоставит асимптотически несмещенные оценки. [ необходима цитата ]
Пропущенные неслучайно данные (MNAR) (также известные как неигнорируемые неответы) — это данные, которые не являются ни MAR, ни MCAR (т. е. значение пропущенной переменной связано с причиной ее отсутствия). [5] Если расширить предыдущий пример, это могло бы произойти, если бы мужчины не заполнили опросник по депрессии из-за своего уровня депрессии.
Сэмюэлсон и Спирер (1992) обсуждали, как отсутствующие и/или искаженные данные о демографии, правоохранительных органах и здравоохранении могут быть индикаторами закономерностей нарушений прав человека. Они привели несколько довольно хорошо документированных примеров. [9]
Пропущенные данные могут также возникать тонкими способами, которые не очень хорошо учитываются в классической теории. Все чаще встречается проблема, в которой данные могут не быть MAR, но пропущенные значения демонстрируют связь или структуру, явно или неявно. Такие пропуски были описаны как «структурированные пропуски». [10]
Структурированные пропуски обычно возникают при объединении информации из нескольких исследований, каждое из которых может отличаться по своему дизайну и набору измерений и, следовательно, содержать только подмножество переменных из объединения модальностей измерений. В этих ситуациях пропущенные значения могут относиться к различным методологиям выборки, используемым для сбора данных, или отражать характеристики более широкой группы населения, представляющей интерес, и, таким образом, могут давать полезную информацию. Например, в контексте здравоохранения структурированные пропуски наблюдались как следствие связывания клинических, геномных и визуализированных данных. [10]
Наличие структурированных пропусков может быть препятствием для эффективного использования данных в масштабе, в том числе с помощью как классических статистических, так и современных методов машинного обучения. Например, может быть смещение, присущее причинам, по которым некоторые данные могут отсутствовать в шаблонах, что может иметь последствия для прогностической справедливости для моделей машинного обучения. Кроме того, устоявшиеся методы работы с отсутствующими данными, такие как импутация , обычно не учитывают структуру отсутствующих данных, и поэтому необходима разработка новых формулировок для надлежащего или эффективного решения проблемы структурированных пропусков. Наконец, характеристика структурированных пропусков в классических рамках MCAR, MAR и MNAR находится в процессе разработки. [11]
Отсутствующие данные снижают репрезентативность выборки и, следовательно, могут искажать выводы о популяции. В общем, существует три основных подхода к обработке отсутствующих данных: (1) вменение — когда значения заполняются вместо отсутствующих данных, (2) пропуск — когда образцы с недействительными данными отбрасываются из дальнейшего анализа и (3) анализ — путем прямого применения методов, не затронутых отсутствующими значениями. В одном систематическом обзоре, посвященном предотвращению и обработке отсутствующих данных для исследований результатов, ориентированных на пациента, было выявлено 10 стандартов, необходимых для предотвращения и обработки отсутствующих данных. К ним относятся стандарты для дизайна исследования, проведения исследования, анализа и отчетности. [12]
В некоторых практических приложениях экспериментаторы могут контролировать уровень пропусков и предотвращать пропуски значений до сбора данных. Например, в компьютерных анкетах часто невозможно пропустить вопрос. На вопрос нужно ответить, иначе нельзя перейти к следующему. Поэтому пропущенные значения, обусловленные участником, устраняются этим типом анкеты, хотя этот метод может быть не разрешен этическим советом, контролирующим исследование. В исследовании опроса принято прилагать многочисленные усилия, чтобы связаться с каждым человеком в выборке, часто отправляя письма, чтобы попытаться убедить тех, кто решил не участвовать, изменить свое мнение. [13] : 161–187 Однако такие методы могут как помочь, так и навредить с точки зрения снижения негативных выводных эффектов от пропущенных данных, поскольку тип людей, которых можно убедить участвовать после первоначального отказа или отсутствия дома, вероятно, будет существенно отличаться от типа людей, которые все равно откажутся или останутся недоступными после дополнительных усилий. [13] : 188–198
В ситуациях, когда вероятны пропуски значений, исследователю часто советуют планировать использование методов анализа данных, которые устойчивы к пропускам. Анализ является устойчивым, когда мы уверены, что легкие или умеренные нарушения ключевых предположений методики не приведут к небольшому смещению или искажению выводов, сделанных относительно популяции.
Некоторые методы анализа данных не являются устойчивыми к пропускам и требуют «заполнения» или вменения пропущенных данных. Рубин (1987) утверждал, что повторение вменения даже несколько раз (5 или меньше) значительно улучшает качество оценки. [2] Для многих практических целей 2 или 3 вменения охватывают большую часть относительной эффективности, которая могла бы быть охвачена большим числом вменений. Однако слишком малое число вменений может привести к существенной потере статистической мощности , и некоторые ученые теперь рекомендуют от 20 до 100 или больше. [14] Любой анализ данных с множественным вменением должен быть повторен для каждого из наборов вмененных данных, и в некоторых случаях соответствующие статистические данные должны быть объединены относительно сложным способом. [2] Множественное вменение не проводится в определенных дисциплинах, поскольку существует недостаток обучения или неправильные представления о них. [15] Такие методы, как списочное удаление, использовались для вменения данных, но было обнаружено, что они вносят дополнительное смещение. [16] Существует руководство для начинающих, которое содержит пошаговые инструкции по вменению данных. [17]
Алгоритм максимизации ожиданий — это подход, в котором значения статистик, которые были бы вычислены, если бы был доступен полный набор данных, оцениваются (вменяются) с учетом закономерности пропущенных данных. В этом подходе значения для отдельных пропущенных элементов данных обычно не вменяются.
В математической области численного анализа интерполяция — это метод построения новых точек данных в пределах дискретного набора известных точек данных.
При сравнении двух парных выборок с отсутствующими данными тестовая статистика, которая использует все доступные данные без необходимости вменения, представляет собой t-тест для частично перекрывающихся выборок. [18] Это справедливо при нормальном распределении и предположении MCAR
Методы, которые предполагают сокращение имеющихся данных до набора данных, не имеющего пропущенных значений, включают:
Методы, которые полностью учитывают всю доступную информацию, без искажений, возникающих в результате использования вмененных значений, как если бы они были фактически наблюдаемыми:
Могут также использоваться методы частичной идентификации . [21]
Методы на основе моделей, часто использующие графики, предлагают дополнительные инструменты для проверки типов отсутствующих данных (MCAR, MAR, MNAR) и для оценки параметров в условиях отсутствующих данных. Например, тест для опровержения MAR/MCAR выглядит следующим образом:
Для любых трех переменных X, Y и Z , где Z полностью наблюдается, а X и Y наблюдаются частично, данные должны удовлетворять: .
Другими словами, наблюдаемая часть X должна быть независимой от статуса отсутствия Y, обусловленного каждым значением Z. Невыполнение этого условия указывает на то, что проблема относится к категории MNAR. [22]
(Примечание: эти тесты необходимы для MAR на основе переменных, которая является небольшой вариацией MAR на основе событий. [23] [24] [25] )
Когда данные попадают в категорию MNAR, доступны методы для последовательной оценки параметров, когда в модели выполняются определенные условия. [3] Например, если Y объясняет причину отсутствия в X , а сам Y имеет отсутствующие значения, совместное распределение вероятностей X и Y все еще может быть оценено , если отсутствие Y является случайным. Оценка в этом случае будет:
где и обозначают наблюдаемые доли соответствующих им переменных.
Различные структуры модели могут давать различные оценки и различные процедуры оценки, когда возможна согласованная оценка. Предыдущая оценка требует первой оценки из полных данных и умножения ее на оценку из случаев, в которых Y наблюдается независимо от статуса X . Более того, для получения согласованной оценки важно, чтобы первый член был противоположен .
Во многих случаях методы, основанные на моделях, позволяют подвергать структуру модели тестам на опровержение. [25] Любая модель, которая подразумевает независимость между частично наблюдаемой переменной X и индикатором отсутствия другой переменной Y (т.е. ), при условии, может быть подвергнута следующему тесту на опровержение: .
Наконец, оценки, которые возникают с помощью этих методов, выводятся в замкнутой форме и не требуют итеративных процедур, таких как максимизация ожидания, которые восприимчивы к локальным оптимумам. [26]
Особый класс задач возникает, когда вероятность пропуска зависит от времени. Например, в базах данных травм вероятность потери данных об исходе травмы зависит от дня после травмы. В этих случаях применяются различные нестационарные модели цепей Маркова . [27]