Качество данных относится к состоянию качественных или количественных фрагментов информации. Существует множество определений качества данных, но данные обычно считаются высококачественными, если они «пригодны для предполагаемого использования в операциях , принятии решений и планировании ». [1] [2] [3] Более того, данные считаются высококачественными, если они правильно представляют реальную конструкцию, к которой они относятся. Кроме того, помимо этих определений, по мере увеличения количества источников данных вопрос внутренней согласованности данных становится значимым, независимо от пригодности для использования в какой-либо конкретной внешней цели. Мнения людей о качестве данных часто могут расходиться, даже при обсуждении одного и того же набора данных, используемых для одной и той же цели. В этом случае управление данными используется для формирования согласованных определений и стандартов качества данных. В таких случаях может потребоваться очистка данных , включая стандартизацию , для обеспечения качества данных. [4]
Определение качества данных затруднено из-за множества контекстов, в которых используются данные, а также из-за различных точек зрения среди конечных пользователей, производителей и хранителей данных. [5]
С точки зрения потребителя качество данных — это: [5]
С точки зрения бизнеса качество данных — это:
С точки зрения стандартов качество данных — это:
Можно утверждать, что во всех этих случаях «качество данных» представляет собой сравнение фактического состояния определенного набора данных с желаемым состоянием, при этом желаемое состояние обычно называют «пригодным для использования», «соответствующим спецификации», «удовлетворяющим ожиданиям потребителей», «без дефектов» или «удовлетворяющим требованиям». Эти ожидания, спецификации и требования обычно определяются одним или несколькими лицами или группами, организациями по стандартизации, законами и правилами, бизнес-политикой или политикой разработки программного обеспечения. [5]
При дальнейшем рассмотрении эти ожидания, спецификации и требования излагаются в терминах характеристик или измерений данных, таких как: [5] [6] [7] [8] [11]
Систематический обзор литературы показывает, что измерения и методы качества данных не соответствуют реальным данным в литературе, и в результате оценка качества затруднена из-за сложной и неоднородной природы этих данных. [11]
До появления недорогих компьютерных хранилищ данных , массивные мэйнфреймы использовались для хранения данных об именах и адресах для служб доставки. Это было сделано для того, чтобы почта могла быть правильно направлена к месту назначения. Мэйнфреймы использовали бизнес-правила для исправления распространенных опечаток и типографских ошибок в данных об именах и адресах, а также для отслеживания клиентов, которые переехали, умерли, попали в тюрьму, поженились, развелись или пережили другие события, изменившие жизнь. Правительственные учреждения начали предоставлять почтовые данные нескольким сервисным компаниям для перекрестных ссылок на данные клиентов с Национальным реестром смены адресов (NCOA) . Эта технология сэкономила крупным компаниям миллионы долларов по сравнению с ручным исправлением данных клиентов. Крупные компании экономили на почтовых расходах, поскольку счета и материалы прямого маркетинга доставлялись предполагаемому клиенту более точно. Первоначально продаваемые как услуга, качество данных переместилось в стены корпораций, поскольку стали доступны недорогие и мощные серверные технологии. [ необходима цитата ]
Компании, делающие упор на маркетинг, часто сосредотачивают свои усилия по обеспечению качества на информации об имени и адресе, но качество данных признано [ кем? ] важным свойством всех типов данных. Принципы качества данных могут применяться к данным цепочки поставок, транзакционным данным и почти к любой другой категории найденных данных. Например, приведение данных цепочки поставок в соответствие с определенным стандартом имеет ценность для организации, поскольку: 1) позволяет избежать затоваривания схожими, но немного отличающимися запасами; 2) позволяет избежать ложного дефицита; 3) улучшает понимание закупок поставщиков для согласования скидок за объем; и 4) позволяет избежать логистических затрат при складировании и доставке деталей в рамках крупной организации. [ требуется ссылка ]
Для компаний, проводящих значительные исследовательские работы, качество данных может включать разработку протоколов для методов исследования, снижение погрешности измерений , проверку границ данных, перекрестное табуляция , моделирование и обнаружение выбросов , проверку целостности данных и т. д. [ необходима ссылка ]
Существует ряд теоретических рамок для понимания качества данных. Системно-теоретический подход, на который повлиял американский прагматизм, расширяет определение качества данных, включая качество информации, и подчеркивает инклюзивность фундаментальных измерений точности и достоверности на основе теории науки (Иванов, 1972). Одна рамочная концепция, получившая название «Данные без дефектов» (Хансен, 1991), адаптирует принципы статистического управления процессами к качеству данных. Другая рамочная концепция стремится интегрировать перспективу продукта (соответствие спецификациям) и перспективу обслуживания (удовлетворение ожиданий потребителей) (Кан и др., 2002). Другая рамочная концепция основана на семиотике для оценки качества формы, значения и использования данных (Прайс и Шэнкс, 2004). Один в высшей степени теоретический подход анализирует онтологическую природу информационных систем для строгого определения качества данных (Ванд и Ванг, 1996).
Значительное количество исследований качества данных включает изучение и описание различных категорий желаемых атрибутов (или измерений) данных. Было выявлено около 200 таких терминов, и мало кто согласен относительно их природы (являются ли они концепциями, целями или критериями?), их определений или мер (Wang et al., 1993). Инженеры-программисты могут распознать в этом проблему, схожую с « ilities ».
В MIT есть программа Information Quality (MITIQ), которую возглавляет профессор Ричард Ванг, выпускающая большое количество публикаций и проводящая важную международную конференцию в этой области (International Conference on Information Quality, ICIQ). Эта программа выросла из работы, проделанной Хансеном над структурой "Zero Defect Data" (Hansen, 1991).
На практике качество данных является проблемой для профессионалов, работающих с широким спектром информационных систем, от хранилищ данных и бизнес-аналитики до управления взаимоотношениями с клиентами и управления цепочками поставок . Одно отраслевое исследование оценило общую стоимость проблем с качеством данных для экономики США в более чем 600 миллиардов долларов США в год (Экерсон, 2002). Неверные данные, включающие недействительную и устаревшую информацию, могут возникать из разных источников данных — через ввод данных или проекты по миграции и преобразованию данных . [12]
В 2002 году USPS и PricewaterhouseCoopers опубликовали отчет, в котором говорилось, что 23,6 процента всей отправляемой в США почты имеют неправильный адрес. [13]
Одна из причин, по которой контактные данные в средней базе данных устаревают очень быстро, — более 45 миллионов американцев меняют свой адрес каждый год. [14]
На самом деле, проблема настолько серьезна, что компании начинают создавать команду по управлению данными , чья единственная роль в корпорации — отвечать за качество данных. В некоторых [ кто? ] организациях эта функция управления данными была создана как часть более крупной функции соответствия нормативным требованиям — признание важности качества данных/информации для организаций.
Проблемы с качеством данных возникают не только из-за неверных данных; несогласованные данные также являются проблемой. Устранение систем теневого копирования данных и централизация данных в хранилище — одна из инициатив, которую компания может предпринять для обеспечения согласованности данных.
Предприятия, ученые и исследователи начинают участвовать в сообществах по курированию данных, чтобы улучшить качество своих общих данных. [15]
Рынок движется в сторону обеспечения качества данных. Ряд поставщиков создают инструменты для анализа и исправления некачественных данных на месте , поставщики услуг могут очищать данные на контрактной основе, а консультанты могут консультировать по исправлению процессов или систем, чтобы изначально избежать проблем с качеством данных. Большинство инструментов качества данных предлагают ряд инструментов для улучшения данных, которые могут включать некоторые или все из следующих:
ISO 8000 — международный стандарт качества данных. [16]
Обеспечение качества данных — это процесс профилирования данных для обнаружения несоответствий и других аномалий в данных, а также выполнение действий по очистке данных [17] [18] (например, удаление выбросов , интерполяция отсутствующих данных ) для улучшения качества данных.
Эти действия могут быть выполнены как часть хранилища данных или как часть администрирования базы данных существующего прикладного программного обеспечения . [19]
Контроль качества данных — это процесс контроля использования данных для приложения или процесса. Этот процесс выполняется как до, так и после процесса обеспечения качества данных (QA), который заключается в обнаружении несоответствий данных и их исправлении.
До:
После процесса обеспечения качества собираются следующие статистические данные для руководства процессом контроля качества (КК):
Процесс контроля качества данных использует информацию из процесса контроля качества для принятия решения об использовании данных для анализа или в приложении или бизнес-процессе. Общий пример: если процесс контроля качества данных обнаруживает, что данные содержат слишком много ошибок или несоответствий, то он предотвращает использование этих данных в предполагаемом процессе, что может вызвать сбой. Конкретный пример: предоставление недействительных измерений с нескольких датчиков для функции автоматического пилота на самолете может привести к его крушению. Таким образом, установление процесса контроля качества обеспечивает защиту использования данных. [ необходима цитата ]
Качество данных (DQ) — это нишевая область, необходимая для целостности управления данными путем покрытия пробелов в проблемах с данными. Это одна из ключевых функций, которая помогает управлению данными путем мониторинга данных для поиска исключений, не обнаруженных текущими операциями по управлению данными. Проверки качества данных могут быть определены на уровне атрибутов для полного контроля над этапами его исправления. [ необходима цитата ]
Проверки DQ и бизнес-правила могут легко перекрываться, если организация не следит за своей областью DQ. Бизнес-команды должны полностью понимать область DQ, чтобы избежать перекрытия. Проверки качества данных излишни, если бизнес-логика охватывает ту же функциональность и выполняет ту же цель, что и DQ. Область DQ организации должна быть определена в стратегии DQ и хорошо реализована. Некоторые проверки качества данных могут быть переведены в бизнес-правила после повторных случаев исключений в прошлом. [ необходима цитата ]
Ниже приведены несколько областей потоков данных, которые могут нуждаться в постоянных проверках DQ:
Полнота и точность DQ-проверок всех данных могут выполняться в точке входа для каждого обязательного атрибута из каждой исходной системы. Немногие значения атрибутов создаются намного позже первоначального создания транзакции; в таких случаях администрирование этих проверок становится сложным и должно выполняться немедленно после определенного события источника этого атрибута и выполнения других основных условий атрибута транзакции.
Все данные, имеющие атрибуты, ссылающиеся на справочные данные в организации, могут быть проверены на соответствие набору четко определенных допустимых значений справочных данных для обнаружения новых или противоречивых значений посредством проверки валидности DQ. Результаты могут быть использованы для обновления справочных данных , администрируемых в рамках управления основными данными (MDM) .
Все данные, полученные от третьей стороны для внутренних групп организации, могут пройти проверку точности (DQ) по отношению к данным третьей стороны. Эти результаты проверки DQ представляют ценность при применении к данным, которые совершили несколько переходов после точки ввода этих данных, но до того, как эти данные были авторизованы или сохранены для корпоративной разведки.
Все столбцы данных, которые ссылаются на Master Data, могут быть проверены на предмет проверки согласованности . Проверка DQ, проводимая на данных в точке входа, обнаруживает новые данные для процесса MDM, но проверка DQ, проводимая после точки входа, обнаруживает сбой (не исключения) согласованности.
По мере преобразования данных фиксируются несколько временных меток и их позиции, которые можно сравнивать друг с другом и их запасом для проверки их значения, ухудшения и эксплуатационной значимости в соответствии с определенным SLA (соглашением об уровне обслуживания). Эта проверка своевременности DQ может использоваться для снижения скорости ухудшения значений данных и оптимизации политик временной шкалы перемещения данных.
В организации сложная логика обычно разделяется на более простую логику в нескольких процессах. Проверки разумности DQ такой сложной логики, приводящей к логическому результату в определенном диапазоне значений или статических взаимосвязей (агрегированные бизнес-правила), могут быть проверены для обнаружения сложных, но важных бизнес-процессов и выбросов данных, их отклонения от ожиданий BAU (бизнес как обычно) и могут предоставить возможные исключения, в конечном итоге приводящие к проблемам с данными. Эта проверка может быть простым общим правилом агрегации, охваченным большим куском данных, или это может быть сложная логика для группы атрибутов транзакции, относящейся к основному бизнесу организации. Эта проверка DQ требует высокой степени деловых знаний и проницательности. Обнаружение проблем разумности может помочь в изменении политики и стратегии либо со стороны бизнеса, либо со стороны управления данными, либо и того, и другого.
Проверки соответствия и проверки целостности не обязательно должны охватывать все потребности бизнеса, это строго по усмотрению архитектуры базы данных.
Есть много мест в перемещении данных, где проверки DQ могут не потребоваться. Например, проверка DQ на полноту и точность непустых столбцов является избыточной для данных, полученных из базы данных. Аналогично, данные должны быть проверены на точность с учетом времени, когда данные сшиваются между разрозненными источниками. Однако это бизнес-правило, и оно не должно быть в области DQ. [ необходима цитата ]
К сожалению, с точки зрения разработки программного обеспечения DQ часто рассматривается как нефункциональное требование. И как таковые, ключевые проверки/процессы качества данных не учитываются в окончательном программном решении. В здравоохранении носимые технологии или сети Body Area Networks генерируют большие объемы данных. [20] Уровень детализации, необходимый для обеспечения качества данных, чрезвычайно высок и часто недооценивается. Это также верно для подавляющего большинства приложений mHealth , EHR и других программных решений, связанных со здоровьем. Однако существуют некоторые инструменты с открытым исходным кодом, которые проверяют качество данных. [21] Основная причина этого заключается в дополнительных затратах, которые добавляют более высокую степень строгости в архитектуру программного обеспечения.
Использование мобильных устройств в здравоохранении, или mHealth, создает новые проблемы для безопасности и конфиденциальности данных о здоровье , способами, которые напрямую влияют на качество данных. [2] mHealth становится все более важной стратегией для предоставления медицинских услуг в странах с низким и средним уровнем дохода. [22] Мобильные телефоны и планшеты используются для сбора, отчетности и анализа данных в режиме, близком к реальному времени. Однако эти мобильные устройства обычно используются и для личных целей, что делает их более уязвимыми для рисков безопасности, которые могут привести к утечкам данных. Без надлежащих мер безопасности такое личное использование может поставить под угрозу качество, безопасность и конфиденциальность данных о здоровье . [23]
Качество данных стало основным направлением программ общественного здравоохранения в последние годы, особенно по мере роста спроса на подотчетность. [24] Работа по достижению амбициозных целей, связанных с борьбой с такими заболеваниями, как СПИД, туберкулез и малярия, должна основываться на надежных системах мониторинга и оценки, которые производят качественные данные, связанные с реализацией программ. [25] Эти программы и аудиторы программ все чаще ищут инструменты для стандартизации и оптимизации процесса определения качества данных, [26] проверки качества сообщаемых данных и оценки базовых систем управления данными и отчетности по показателям. [27] Примером является инструмент проверки качества данных ВОЗ и MEASURE Evaluation . [28] ВОЗ, Глобальный фонд, ГАВИ и MEASURE Evaluation объединили усилия для разработки согласованного подхода к обеспечению качества данных по различным заболеваниям и программам. [29]
Существует ряд научных работ, посвященных анализу качества данных в открытых источниках данных, таких как Wikipedia , Wikidata , DBpedia и других. В случае с Wikipedia анализ качества может касаться всей статьи [30] . Моделирование качества там осуществляется с помощью различных методов. Некоторые из них используют алгоритмы машинного обучения , в том числе Random Forest , [31] Support Vector Machine , [32] и другие. Методы оценки качества данных в Wikidata, DBpedia и других источниках LOD различаются. [33]
Ассоциация управления кодами электронной коммерции (ECCMA) — это основанная на членстве международная некоммерческая ассоциация, которая стремится улучшить качество данных путем внедрения международных стандартов. ECCMA является текущим лидером проекта по разработке ISO 8000 и ISO 22745, которые являются международными стандартами качества данных и обмена основными данными материалов и услуг соответственно. ECCMA предоставляет платформу для сотрудничества между экспертами по вопросам качества данных и управления данными по всему миру для создания и поддержки глобальных открытых стандартных словарей, которые используются для однозначной маркировки информации. Существование этих словарей меток позволяет передавать информацию из одной компьютерной системы в другую без потери смысла. [35]
Наличие стандартизированной программы управления данными означает очистку поврежденных или дублированных данных и предоставление пользователям чистых, точных данных в качестве основы для приложений бизнес-программ и для аналитики поддержки принятия решений в приложениях бизнес-аналитики (BI).
{{cite book}}
: CS1 maint: несколько имен: список авторов ( ссылка ){{cite book}}
: CS1 maint: несколько имен: список авторов ( ссылка )Под валидностью понимают полезность, точность и правильность данных для их применения. Традиционно это называют качеством данных.