Качество данных относится к состоянию качественных или количественных фрагментов информации. Существует множество определений качества данных, но данные обычно считаются высококачественными, если они «пригодны для [своего] предполагаемого использования в операциях , принятии решений и планировании ». [1] [2] [3] Более того, данные считаются высококачественными, если они правильно представляют реальную конструкцию, к которой они относятся. Кроме того, помимо этих определений, по мере увеличения количества источников данных становится важным вопрос внутренней согласованности данных , независимо от их пригодности для использования для какой-либо конкретной внешней цели. Мнения людей о качестве данных часто могут расходиться, даже если обсуждается один и тот же набор данных, используемый для одной и той же цели. В этом случае управление данными используется для формирования согласованных определений и стандартов качества данных. В таких случаях может потребоваться очистка данных , включая стандартизацию , для обеспечения качества данных. [4]
Определить качество данных сложно из-за множества контекстов, в которых они используются, а также из-за различий в точках зрения конечных пользователей, производителей и хранителей данных. [5]
С точки зрения потребителя качество данных – это: [5]
С точки зрения бизнеса качество данных – это:
С точки зрения стандартов качество данных – это:
Можно утверждать, что во всех этих случаях «качество данных» — это сравнение фактического состояния конкретного набора данных с желаемым состоянием, при этом желаемое состояние обычно называют «пригодным для использования», «соответствующим спецификации». отвечающий ожиданиям потребителя», «без дефектов» или «соответствующий требованиям». Эти ожидания, спецификации и требования обычно определяются одним или несколькими отдельными лицами или группами, организациями по стандартизации, законами и постановлениями, бизнес-политикой или политикой разработки программного обеспечения. [5]
Если углубляться дальше, эти ожидания, спецификации и требования излагаются в терминах характеристик или размеров данных, например: [5] [6] [7] [8] [11]
Систематический обзор литературы показывает, что параметры качества данных и методы с реальными данными не согласуются в литературе, и в результате оценка качества затруднена из-за сложной и неоднородной природы этих данных. [11]
До появления недорогих компьютерных систем хранения данных для хранения данных об именах и адресах служб доставки использовались массивные мэйнфреймы . Это было сделано для того, чтобы почта могла быть правильно перенаправлена к месту назначения. Мэйнфреймы использовали бизнес-правила для исправления типичных орфографических и опечаток в именах и адресах, а также для отслеживания клиентов, которые переехали, умерли, попали в тюрьму, женились, развелись или пережили другие события, изменившие жизнь. Правительственные учреждения начали предоставлять почтовые данные нескольким сервисным компаниям для сопоставления данных о клиентах с Национальным реестром смены адресов (NCOA) . Эта технология сэкономила крупным компаниям миллионы долларов по сравнению с ручной коррекцией данных клиентов. Крупные компании экономили на почтовых расходах, поскольку счета и материалы прямого маркетинга быстрее добирались до предполагаемого клиента. Первоначально продававшаяся как услуга, качество данных переместилось в стены корпораций, когда стали доступны недорогие и мощные серверные технологии. [ нужна цитата ]
Компании, уделяющие особое внимание маркетингу, часто сосредотачивают свои усилия по обеспечению качества на информации об имени и адресе, но качество данных признается [ кем? ] как важное свойство всех типов данных. Принципы качества данных могут применяться к данным о цепочке поставок, данным о транзакциях и почти к любой другой категории найденных данных. Например, приведение данных о цепочке поставок в соответствие с определенным стандартом имеет ценность для организации, поскольку: 1) позволяет избежать затоваривания аналогичных, но немного отличающихся запасов; 2) избежание ложного дефицита; 3) улучшение понимания закупок у поставщиков для согласования оптовых скидок; и 4) избежать затрат на логистику при хранении и доставке деталей в крупную организацию. [ нужна цитата ]
Для компаний, прилагающих значительные исследовательские усилия, качество данных может включать разработку протоколов для методов исследования, уменьшение ошибок измерения , проверку границ данных, перекрестное составление таблиц , моделирование и обнаружение выбросов , проверку целостности данных и т. д. [ нужна ссылка ]
Существует ряд теоретических основ для понимания качества данных. Теоретико-системный подход, находящийся под влиянием американского прагматизма, расширяет определение качества данных, включив в него качество информации, и подчеркивает инклюзивность фундаментальных измерений точности и прецизионности на основе теории науки (Иванов, 1972). Одна структура, получившая название «Данные с нулевым дефектом» (Hansen, 1991), адаптирует принципы статистического управления процессами к качеству данных. Другая структура стремится объединить перспективу продукта (соответствие спецификациям) и перспективу обслуживания (соответствие ожиданиям потребителей) (Kahn et al. 2002). Другая основа основана на семиотике и предназначена для оценки качества формы, значения и использования данных (Прайс и Шэнкс, 2004). Один высокотеоретический подход анализирует онтологическую природу информационных систем для строгого определения качества данных (Wand and Wang, 1996).
Значительный объем исследований качества данных включает изучение и описание различных категорий желаемых атрибутов (или измерений) данных. Было идентифицировано около 200 таких терминов, и существует мало согласия по их природе (концепции, цели или критерии?), их определениям или показателям (Wang et al., 1993). Инженеры-программисты могут признать это проблемой, похожей на « способности ».
В Массачусетском технологическом институте действует программа качества информации (MITIQ), возглавляемая профессором Ричардом Вангом, которая выпускает большое количество публикаций и проводит значительную международную конференцию в этой области (International Conference on Information Quality, ICIQ). Эта программа выросла из работы Хансена над структурой «Ноль данных о дефектах» (Hansen, 1991).
На практике качество данных вызывает беспокойство у специалистов, работающих с широким спектром информационных систем, от хранилищ данных и бизнес-аналитики до управления взаимоотношениями с клиентами и управления цепочками поставок . По оценкам одного отраслевого исследования, общий ущерб для экономики США от проблем с качеством данных составляет более 600 миллиардов долларов США в год (Eckerson, 2002). Неправильные данные, в том числе недействительная и устаревшая информация, могут поступать из разных источников данных – в результате ввода данных или проектов миграции и преобразования данных . [12]
В 2002 году USPS и PricewaterhouseCoopers опубликовали отчет, в котором говорилось, что 23,6 процента всей отправляемой почты в США адресуются неправильно. [13]
Одна из причин, по которой контактные данные в средней базе данных очень быстро устаревают: более 45 миллионов американцев меняют свой адрес каждый год. [14]
Фактически, проблема настолько серьезна, что компании начинают создавать команду по управлению данными , единственная роль которой в корпорации — отвечать за качество данных. В некоторых [ кто? ] организаций, эта функция управления данными была создана как часть более широкой функции обеспечения соответствия нормативным требованиям – признание важности качества данных/информации для организаций.
Проблемы с качеством данных возникают не только из-за неправильных данных; противоречивые данные также являются проблемой. Устранение теневых систем данных и централизация данных в хранилище — одна из инициатив, которую компания может предпринять для обеспечения согласованности данных.
Предприятия, ученые и исследователи начинают участвовать в сообществах по курированию данных, чтобы улучшить качество своих общих данных. [15]
Рынок движется к обеспечению качества данных. Ряд поставщиков создают инструменты для анализа и исправления данных низкого качества на месте , поставщики услуг могут очищать данные на контрактной основе, а консультанты могут давать советы по исправлению процессов или систем, чтобы в первую очередь избежать проблем с качеством данных. Большинство инструментов обеспечения качества данных предлагают ряд инструментов для улучшения данных, которые могут включать некоторые или все из следующих элементов:
Есть несколько известных авторов и самозваных экспертов, среди которых Ларри Инглиш, пожалуй, самый популярный гуру . Кроме того, в 2004 году была создана IQ International — Международная ассоциация по качеству информации и данных, призванная стать координационным центром для профессионалов и исследователей в этой области.
ISO 8000 — международный стандарт качества данных. [16]
Обеспечение качества данных — это процесс профилирования данных для обнаружения несоответствий и других аномалий в данных, а также выполнения действий по очистке данных [17] [18] (например, удаление выбросов , интерполяция отсутствующих данных ) для улучшения качества данных.
Эти действия могут осуществляться как часть хранилища данных или как часть администрирования базы данных существующего прикладного программного обеспечения . [19]
Контроль качества данных — это процесс контроля использования данных приложением или процессом. Этот процесс выполняется как до, так и после процесса обеспечения качества данных (QA), который состоит из обнаружения несогласованности данных и их исправления.
До:
После процесса контроля качества собираются следующие статистические данные для управления процессом контроля качества (КК):
Процесс контроля качества данных использует информацию из процесса контроля качества для принятия решения об использовании данных для анализа, приложения или бизнес-процесса. Общий пример: если процесс контроля качества данных обнаруживает, что данные содержат слишком много ошибок или несоответствий, он предотвращает использование этих данных для запланированного процесса, что может привести к сбоям. Конкретный пример: предоставление неверных измерений от нескольких датчиков функции автопилота на самолете может привести к его крушению. Таким образом, установление процесса контроля качества обеспечивает защиту использования данных. [ нужна цитата ]
Качество данных (DQ) — это нишевая область, необходимая для обеспечения целостности управления данными путем устранения пробелов в данных. Это одна из ключевых функций, которые помогают управлять данными, отслеживая данные и находя исключения, не обнаруженные текущими операциями по управлению данными. Проверки качества данных могут быть определены на уровне атрибутов, чтобы иметь полный контроль над этапами исправления. [ нужна цитата ]
Проверки DQ и бизнес-правила могут легко перекрываться, если организация не уделяет внимания объему DQ. Бизнес-команды должны тщательно понимать объем DQ, чтобы избежать дублирования. Проверки качества данных излишни, если бизнес-логика охватывает те же функции и выполняет ту же цель, что и DQ. Объем DQ организации должен быть определен в стратегии DQ и хорошо реализован. Некоторые проверки качества данных могут быть преобразованы в бизнес-правила после неоднократных исключений в прошлом. [ нужна цитата ]
Ниже приведены несколько областей потоков данных, которые могут нуждаться в постоянных проверках DQ:
Проверки полноты и точности DQ для всех данных могут выполняться в точке ввода для каждого обязательного атрибута из каждой исходной системы. Немногие значения атрибутов создаются после первоначального создания транзакции; в таких случаях администрирование этих проверок становится сложным и должно выполняться сразу после определенного события источника этого атрибута и выполнения других основных условий атрибута транзакции.
Все данные, имеющие атрибуты, относящиеся к справочным данным в организации, могут быть проверены на соответствие набору четко определенных допустимых значений справочных данных для обнаружения новых или несоответствующих значений посредством проверки достоверности DQ. Результаты могут использоваться для обновления справочных данных , администрируемых в рамках управления основными данными (MDM) .
Все данные, полученные от третьей стороны внутренним командам организации, могут пройти проверку точности (DQ) по данным третьих сторон. Результаты проверки DQ полезны при администрировании данных, которые прошли несколько переходов после точки входа этих данных, но до того, как эти данные будут авторизованы или сохранены для корпоративной аналитики.
Все столбцы данных, которые относятся к основным данным, могут быть проверены на предмет их согласованности . Проверка DQ, проводимая для данных в точке входа, обнаруживает новые данные для процесса MDM, но проверка DQ, проводимая после точки входа, обнаруживает нарушение (а не исключения) согласованности.
По мере преобразования данных фиксируются несколько временных меток и положения этих временных меток, которые можно сравнивать друг с другом, а также с возможностью проверки их значения, затухания и эксплуатационной значимости в соответствии с определенным SLA (соглашением об уровне обслуживания). Эту проверку своевременности DQ можно использовать для уменьшения скорости затухания значений данных и оптимизации политики временной шкалы перемещения данных.
В организации сложная логика обычно разделяется на более простую логику нескольких процессов. Разумность DQ-проверки такой сложной логики, приводящей к логическому результату в определенном диапазоне значений или статических взаимосвязей (агрегированных бизнес-правил), могут быть проверены для обнаружения сложных, но важных бизнес-процессов и выбросов данных, их отклонения от BAU (обычный бизнес). ) ожидания и могут содержать возможные исключения, которые в конечном итоге приводят к проблемам с данными. Эта проверка может представлять собой простое общее правило агрегирования, охватываемое большим объемом данных, или сложную логику для группы атрибутов транзакции, относящейся к основному бизнесу организации. Эта проверка DQ требует высокого уровня деловых знаний и сообразительности. Обнаружение проблем разумности может помочь в изменении политики и стратегии либо в сфере управления бизнесом, либо в управлении данными, либо в обоих случаях.
Проверки соответствия и проверки целостности не обязательно должны охватывать все потребности бизнеса, это исключительно на усмотрение архитектуры базы данных.
В процессе перемещения данных существует множество мест, где проверки DQ могут не потребоваться. Например, проверка DQ на полноту и точность столбцов, отличных от NULL, является избыточной для данных, полученных из базы данных. Точно так же данные должны быть проверены на предмет их точности по времени, когда данные объединяются из разных источников. Однако это бизнес-правило, и оно не должно входить в область действия DQ. [ нужна цитата ]
К сожалению, с точки зрения разработки программного обеспечения DQ часто рассматривается как нефункциональное требование. Таким образом, ключевые проверки/процессы качества данных не учитываются в окончательном программном решении. В сфере здравоохранения носимые технологии или сети Body Area Network генерируют большие объемы данных. [20] Уровень детализации, необходимый для обеспечения качества данных, чрезвычайно высок и часто недооценивается. Это также верно для подавляющего большинства приложений мобильного здравоохранения , электронных медицинских документов и других программных решений, связанных со здоровьем. Однако существуют некоторые инструменты с открытым исходным кодом, которые проверяют качество данных. [21] Основная причина этого связана с дополнительными затратами, которые добавляются к более высокой степени строгости в архитектуре программного обеспечения.
Использование мобильных устройств в здравоохранении, или мобильном здравоохранении, создает новые проблемы для безопасности и конфиденциальности медицинских данных , что напрямую влияет на качество данных. [2] Мобильное здравоохранение становится все более важной стратегией предоставления медицинских услуг в странах с низким и средним уровнем дохода. [22] Мобильные телефоны и планшеты используются для сбора, отчетности и анализа данных практически в реальном времени. Однако эти мобильные устройства обычно используются и для личной деятельности, что делает их более уязвимыми для угроз безопасности, которые могут привести к утечке данных. Без надлежащих мер безопасности такое личное использование может поставить под угрозу качество, безопасность и конфиденциальность медицинских данных . [23]
В последние годы качество данных стало основным направлением программ общественного здравоохранения, особенно по мере того, как растет спрос на подотчетность. [24] Работа по достижению амбициозных целей, связанных с борьбой с такими заболеваниями, как СПИД, туберкулез и малярия, должна основываться на надежных системах мониторинга и оценки, которые производят качественные данные, связанные с реализацией программ. [25] Эти программы и аудиторы программ все чаще ищут инструменты для стандартизации и оптимизации процесса определения качества данных, [26] проверки качества сообщаемых данных и оценки основных систем управления данными и отчетности по показателям. [27] Примером может служить Инструмент проверки качества данных ВОЗ и MEASURE Evaluation. [28] ВОЗ, Глобальный фонд, ГАВИ и MEASURE Evaluation сотрудничали для разработки гармонизированного подхода к обеспечению качества данных по различным заболеваниям и программам. [29]
Существует ряд научных работ, посвященных анализу качества данных в открытых источниках данных, таких как Wikipedia , Wikidata , DBpedia и других. В случае с Википедией анализ качества может относиться ко всей статье [30] Моделирование качества там осуществляется различными методами. Некоторые из них используют алгоритмы машинного обучения , в том числе Random Forest , [31] Support Vector Machine , [32] и другие. Методы оценки качества данных в Викиданных, DBpedia и других источниках LOD различаются. [33]
Ассоциация управления кодами электронной коммерции (ECCMA) — это международная некоммерческая ассоциация, основанная на членах и стремящаяся улучшить качество данных посредством внедрения международных стандартов. ECCMA в настоящее время является руководителем проекта по разработке ISO 8000 и ISO 22745, которые являются международными стандартами качества данных и обмена основными данными о материалах и услугах соответственно. ECCMA предоставляет платформу для сотрудничества экспертов по качеству данных и управлению данными по всему миру для создания и поддержки глобальных словарей открытых стандартов, которые используются для однозначной маркировки информации. Существование этих словарей меток позволяет передавать информацию из одной компьютерной системы в другую без потери смысла. [35]
Наличие стандартизированной программы управления данными означает очистку поврежденных или дублированных данных и предоставление пользователям чистых и точных данных в качестве основы для бизнес-приложений и для аналитики поддержки принятия решений в приложениях бизнес-аналитики (BI).
{{cite book}}
: CS1 maint: несколько имен: список авторов ( ссылка ){{cite book}}
: CS1 maint: несколько имен: список авторов ( ссылка )Валидность означает полезность, точность и правильность данных для их применения.
Традиционно это называется качеством данных.