Добыча данных — это процесс извлечения и обнаружения закономерностей в больших наборах данных , включающий методы на стыке машинного обучения , статистики и систем баз данных . [1] Добыча данных — это междисциплинарная подобласть компьютерной науки и статистики , общей целью которой является извлечение информации (с помощью интеллектуальных методов) из набора данных и преобразование ее в понятную структуру для дальнейшего использования. [1] [2] [3] [4] Добыча данных — это этап анализа процесса « обнаружения знаний в базах данных » или KDD. [5] Помимо этапа сырого анализа, он также включает аспекты управления базами данных и данными , предварительную обработку данных , рассмотрение моделей и выводов , метрики интересности, рассмотрение сложности , постобработку обнаруженных структур, визуализацию и онлайн-обновление . [1]
Термин «интеллектуальный анализ данных» является неправильным, поскольку его целью является извлечение закономерностей и знаний из больших объемов данных, а не извлечение ( интеллектуальный анализ ) самих данных . [6] Это также модное слово [7] и часто применяется к любой форме крупномасштабной обработки данных или информации ( сбор , извлечение , хранение , анализ и статистика), а также к любому применению компьютерной системы поддержки принятия решений , включая искусственный интеллект (например, машинное обучение) и бизнес-аналитику . Часто более уместны более общие термины ( масштабный ) анализ данных и аналитика — или, когда речь идет о фактических методах, искусственный интеллект и машинное обучение .
Фактическая задача интеллектуального анализа данных — это полуавтоматический или автоматический анализ больших объемов данных для извлечения ранее неизвестных интересных закономерностей, таких как группы записей данных ( кластерный анализ ), необычные записи ( обнаружение аномалий ) и зависимости ( интеллектуальный анализ правил ассоциации , последовательный интеллектуальный анализ закономерностей ). Обычно это включает использование методов баз данных, таких как пространственные индексы . Затем эти закономерности можно рассматривать как своего рода резюме входных данных и использовать в дальнейшем анализе или, например, в машинном обучении и предиктивной аналитике . Например, этап интеллектуального анализа данных может идентифицировать несколько групп в данных, которые затем можно использовать для получения более точных результатов прогнозирования с помощью системы поддержки принятия решений . Ни сбор данных, ни подготовка данных, ни интерпретация результатов и отчетность не являются частью этапа интеллектуального анализа данных, хотя они относятся к общему процессу KDD как дополнительные шаги.
Разница между анализом данных и добычей данных заключается в том, что анализ данных используется для проверки моделей и гипотез на основе набора данных, например, анализа эффективности маркетинговой кампании , независимо от объема данных. Напротив, добыча данных использует машинное обучение и статистические модели для выявления скрытых закономерностей в большом объеме данных. [8]
Связанные термины data dredging , data fishing и data snooping относятся к использованию методов добычи данных для выборки частей более крупного набора данных популяции, которые являются (или могут быть) слишком малыми для надежных статистических выводов о достоверности любых обнаруженных закономерностей. Однако эти методы могут использоваться для создания новых гипотез для проверки на более крупных популяциях данных.
В 1960-х годах статистики и экономисты использовали такие термины, как «выуживание данных» или «выемка данных» , чтобы обозначить то, что они считали плохой практикой анализа данных без априорной гипотезы. Термин «выуживание данных» был использован в аналогичном критическом смысле экономистом Майклом Ловеллом в статье, опубликованной в Review of Economic Studies в 1983 году. [9] [10] Ловелл указывает, что эта практика «маскируется под множество псевдонимов, начиная от «экспериментирования» (положительного) до «выучивания» или «шпионажа» (отрицательного).
Термин « интеллектуальный анализ данных » появился около 1990 года в сообществе баз данных, в целом с положительными коннотациями. В течение короткого времени в 1980-х годах использовалась фраза «database mining»™, но с тех пор, как она была зарегистрирована как торговая марка HNC, компании из Сан-Диего , для продвижения своей рабочей станции по интеллектуальному анализу данных; [11] исследователи впоследствии обратились к интеллектуальному анализу данных . Другие используемые термины включают археологию данных , сбор информации , обнаружение информации , извлечение знаний и т. д. Грегори Пятецкий-Шапиро ввел термин «обнаружение знаний в базах данных» для первого семинара по той же теме (KDD-1989), и этот термин стал более популярным в сообществах искусственного интеллекта и машинного обучения . Однако термин «интеллектуальный анализ данных» стал более популярным в деловых и пресс-сообществах. [12] В настоящее время термины « интеллектуальный анализ данных» и «обнаружение знаний» используются взаимозаменяемо.
Ручное извлечение закономерностей из данных происходило на протяжении столетий. Ранние методы выявления закономерностей в данных включают теорему Байеса (1700-е годы) и регрессионный анализ (1800-е годы). [13] Распространение, повсеместность и растущая мощность компьютерных технологий резко увеличили возможности сбора, хранения и обработки данных. По мере того, как наборы данных росли в размерах и сложности, прямой «практический» анализ данных все больше дополнялся косвенной, автоматизированной обработкой данных, чему способствовали другие открытия в области компьютерной науки, особенно в области машинного обучения, такие как нейронные сети , кластерный анализ , генетические алгоритмы (1950-е годы), деревья решений и правила принятия решений (1960-е годы) и машины опорных векторов (1990-е годы). Интеллектуальный анализ данных — это процесс применения этих методов с целью выявления скрытых закономерностей. [14] в больших наборах данных. Он устраняет разрыв между прикладной статистикой и искусственным интеллектом (которые обычно обеспечивают математическую основу) и управлением базами данных , используя способ хранения и индексации данных в базах данных для более эффективного выполнения реальных алгоритмов обучения и обнаружения, что позволяет применять такие методы к все большим наборам данных.
Процесс обнаружения знаний в базах данных (KDD) обычно определяется следующими этапами:
Однако существует множество вариаций на эту тему, например, межотраслевой стандартный процесс интеллектуального анализа данных (CRISP-DM), который определяет шесть фаз:
или упрощенный процесс, такой как (1) предварительная обработка, (2) сбор данных и (3) проверка результатов.
Опросы, проведенные в 2002, 2004, 2007 и 2014 годах, показывают, что методология CRISP-DM является ведущей методологией, используемой специалистами по сбору данных. [15] [16] [17] [18]
Единственным другим стандартом добычи данных, названным в этих опросах, был SEMMA . Однако в 3–4 раза больше людей сообщили об использовании CRISP-DM. Несколько групп исследователей опубликовали обзоры моделей процесса добычи данных, [19] а Азеведо и Сантос провели сравнение CRISP-DM и SEMMA в 2008 году. [20]
Перед использованием алгоритмов добычи данных необходимо собрать целевой набор данных. Поскольку добыча данных может выявить только закономерности, фактически присутствующие в данных, целевой набор данных должен быть достаточно большим, чтобы содержать эти закономерности, оставаясь при этом достаточно кратким, чтобы его можно было добыть в приемлемые сроки. Распространенным источником данных является киоск данных или хранилище данных . Предварительная обработка необходима для анализа многомерных наборов данных перед добычей данных. Затем целевой набор очищается. Очистка данных удаляет наблюдения, содержащие шум , и наблюдения с отсутствующими данными .
Анализ данных включает шесть общих классов задач: [5]
Интеллектуальный анализ данных может непреднамеренно использоваться не по назначению, давая результаты, которые кажутся значимыми, но которые на самом деле не предсказывают будущее поведение и не могут быть воспроизведены на новой выборке данных, поэтому приносят мало пользы. Иногда это происходит из-за исследования слишком большого количества гипотез и невыполнения надлежащей статистической проверки гипотез . Простая версия этой проблемы в машинном обучении известна как переобучение , но та же проблема может возникнуть на разных этапах процесса, и поэтому разделение на обучение и тестирование — если оно вообще применимо — может оказаться недостаточным для предотвращения этого. [21]
Последним шагом обнаружения знаний из данных является проверка того, что шаблоны, созданные алгоритмами добычи данных, встречаются в более широком наборе данных. Не все шаблоны, найденные алгоритмами, обязательно являются действительными. Алгоритмы добычи данных часто находят шаблоны в обучающем наборе, которых нет в общем наборе данных. Это называется переобучением . Чтобы преодолеть это, оценка использует тестовый набор данных, на котором алгоритм добычи данных не был обучен. Изученные шаблоны применяются к этому тестовому набору, и полученный результат сравнивается с желаемым результатом. Например, алгоритм добычи данных, пытающийся отличить «спам» от «законных» писем, будет обучен на обучающем наборе образцов писем. После обучения изученные шаблоны будут применены к тестовому набору писем, на котором он не был обучен. Затем точность шаблонов можно измерить по тому, сколько писем они правильно классифицируют. Для оценки алгоритма можно использовать несколько статистических методов, таких как кривые ROC .
Если изученные шаблоны не соответствуют желаемым стандартам, необходимо переоценить и изменить шаги предварительной обработки и добычи данных. Если изученные шаблоны соответствуют желаемым стандартам, то последний шаг — интерпретировать изученные шаблоны и превратить их в знания.
Ведущим профессиональным органом в этой области является Специальная группа по изучению знаний и интеллектуальному анализу данных ( SIGKDD ) Ассоциации вычислительной техники (ACM) . [22] [23] С 1989 года эта Специальная группа по изучению знаний и интеллектуальному анализу данных ACM проводит ежегодную международную конференцию и публикует ее материалы, [24] а с 1999 года она издает двухгодичный академический журнал под названием «Исследования SIGKDD». [25]
Конференции по информатике и интеллектуальному анализу данных включают:
Темы интеллектуального анализа данных также присутствуют на многих конференциях по управлению данными/базам данных, таких как конференция ICDE, конференция SIGMOD и Международная конференция по очень большим базам данных .
Были предприняты некоторые попытки определить стандарты для процесса добычи данных, например, Европейский межотраслевой стандарт процесса добычи данных 1999 года (CRISP-DM 1.0) и стандарт добычи данных Java 2004 года (JDM 1.0). Разработка преемников этих процессов (CRISP-DM 2.0 и JDM 2.0) была активна в 2006 году, но с тех пор застопорилась. JDM 2.0 был отозван, не достигнув окончательного варианта.
Для обмена извлеченными моделями, в частности для использования в предиктивной аналитике , ключевым стандартом является Predictive Model Markup Language (PMML), который является языком на основе XML , разработанным Data Mining Group (DMG) и поддерживаемым в качестве формата обмена многими приложениями добычи данных. Как следует из названия, он охватывает только модели прогнозирования, конкретную задачу добычи данных, имеющую большое значение для бизнес-приложений. Однако расширения для покрытия (например) кластеризации подпространства были предложены независимо от DMG. [26]
Интеллектуальный анализ данных используется везде, где доступны цифровые данные. Известные примеры интеллектуального анализа данных можно найти в бизнесе, медицине, науке, финансах, строительстве и надзоре.
Хотя сам термин «интеллектуальный анализ данных» может не иметь этических последствий, его часто ассоциируют с извлечением информации относительно поведения пользователя (этичного и иного). [27]
Способы, которыми может использоваться интеллектуальный анализ данных, в некоторых случаях и контекстах могут вызывать вопросы относительно конфиденциальности , законности и этики . [28] В частности, интеллектуальный анализ данных государственных или коммерческих наборов данных для целей национальной безопасности или обеспечения соблюдения закона , например, в программе Total Information Awareness Program или в ADVISE , вызвал обеспокоенность по поводу конфиденциальности. [29] [30]
Для добычи данных требуется подготовка данных, которая раскрывает информацию или закономерности, которые ставят под угрозу конфиденциальность и обязательства по защите частной жизни . Распространенным способом для этого является агрегация данных . Агрегация данных включает в себя объединение данных (возможно, из разных источников) таким образом, который облегчает анализ (но это также может сделать идентификацию частных, индивидуальных данных выводимой или иным образом очевидной). [31] Это не добыча данных как таковая , а результат подготовки данных до — и для целей — анализа. Угроза конфиденциальности отдельного лица вступает в игру, когда данные, будучи скомпилированными, заставляют добытчика данных или любого, кто имеет доступ к недавно скомпилированному набору данных, иметь возможность идентифицировать конкретных лиц, особенно если данные изначально были анонимными. [32]
Рекомендуется [ по мнению кого? ] знать следующее перед сбором данных: [31]
Данные также могут быть изменены таким образом, чтобы стать анонимными, так что личности не будут легко идентифицированы. [31] Однако даже « анонимные » наборы данных могут потенциально содержать достаточно информации, чтобы позволить идентификацию личности, как это произошло, когда журналисты смогли найти нескольких лиц на основе набора историй поиска, которые были непреднамеренно опубликованы AOL. [33]
Непреднамеренное раскрытие персонально идентифицируемой информации , ведущее к поставщику, нарушает принципы честной информационной практики. Такая неосмотрительность может нанести финансовый, эмоциональный или физический вред указанному лицу. В одном случае нарушения конфиденциальности клиенты Walgreens подали иск против компании в 2011 году за продажу информации о рецептах компаниям по добыче данных, которые в свою очередь предоставляли эти данные фармацевтическим компаниям. [34]
В Европе действуют довольно строгие законы о конфиденциальности, и предпринимаются усилия по дальнейшему укреплению прав потребителей. Однако принципы «безопасной гавани» США–ЕС , разработанные в период с 1998 по 2000 год, в настоящее время фактически подвергают европейских пользователей риску эксплуатации конфиденциальности американскими компаниями. В результате раскрытия Эдвардом Сноуденом информации о глобальном наблюдении усилились дискуссии об отмене этого соглашения, поскольку, в частности, данные будут полностью раскрыты Агентству национальной безопасности , а попытки достичь соглашения с Соединенными Штатами провалились. [35]
В частности, в Соединенном Королевстве были случаи, когда корпорации использовали интеллектуальный анализ данных как способ нацеливания на определенные группы клиентов, заставляя их платить несправедливо высокие цены. Эти группы, как правило, состоят из людей с более низким социально-экономическим статусом, которые не подкованы в способах их эксплуатации на цифровых рынках. [36]
В Соединенных Штатах проблемы конфиденциальности были решены Конгрессом США посредством принятия нормативных актов, таких как Закон о переносимости и подотчетности медицинского страхования (HIPAA). HIPAA требует, чтобы люди давали свое «осознанное согласие» относительно информации, которую они предоставляют, и ее предполагаемого настоящего и будущего использования. Согласно статье в Biotech Business Week , «[на] практике HIPAA не может обеспечить большую защиту, чем давние правила в области исследований», — говорит AAHC. Что еще более важно, цель правила защиты посредством осознанного согласия — приблизиться к уровню непостижимости для обычных людей». [37] Это подчеркивает необходимость анонимности данных в практиках агрегации и добычи данных.
Законодательство США о конфиденциальности информации, такое как HIPAA и Закон о правах и неприкосновенности частной жизни в сфере образования (FERPA), применяется только к конкретным областям, которые затрагивает каждый такой закон. Использование интеллектуального анализа данных большинством предприятий в США не контролируется никаким законодательством.
Согласно европейским законам об авторских правах , добыча работ, защищенных авторским правом (например, с помощью веб-майнинга ), без разрешения владельца авторских прав незаконна. Если база данных представляет собой чистые данные в Европе, может оказаться, что авторских прав нет, но права на базу данных могут существовать, поэтому добыча данных становится предметом прав владельцев интеллектуальной собственности , которые защищены Директивой о базах данных . По рекомендации обзора Харгривза это привело к тому, что правительство Великобритании в 2014 году внесло поправки в свой закон об авторских правах, чтобы разрешить добычу контента в качестве ограничения и исключения . [38] Великобритания стала второй страной в мире, сделавшей это после Японии, которая ввела исключение в 2009 году для добычи данных. Однако из-за ограничения Директивы об информационном обществе (2001) исключение Великобритании разрешает добычу контента только в некоммерческих целях. Закон об авторском праве Великобритании также не позволяет отменять это положение договорными условиями. С 2020 года Швейцария также регулирует добычу данных, разрешая ее в области исследований при определенных условиях, изложенных в статье. 24d Закона Швейцарии об авторском праве. Эта новая статья вступила в силу 1 апреля 2020 года. [39]
Европейская комиссия организовала обсуждение с заинтересованными сторонами по вопросам интеллектуального анализа текста и данных в 2013 году под названием «Лицензии для Европы». [40] Сосредоточение внимания на решении этой юридической проблемы, такой как лицензирование, а не ограничения и исключения, привело к тому, что представители университетов, исследователей, библиотек, групп гражданского общества и издателей открытого доступа покинули диалог с заинтересованными сторонами в мае 2013 года. [41]
Закон США об авторском праве , и в частности его положение о добросовестном использовании , поддерживает законность добычи контента в Америке и других странах добросовестного использования, таких как Израиль, Тайвань и Южная Корея. Поскольку добыча контента является преобразующей, то есть она не заменяет оригинальную работу, она рассматривается как законная при добросовестном использовании. Например, в рамках урегулирования Google Book председательствующий судья по делу постановил, что проект Google по оцифровке книг, защищенных авторским правом, был законным, отчасти из-за преобразующих видов использования, которые демонстрировал проект оцифровки — одним из которых был анализ текста и данных. [42]
Следующие приложения доступны по бесплатным/открытым лицензиям. Также доступен публичный доступ к исходному коду приложения.
Следующие приложения доступны по проприетарным лицензиям.
Дополнительную информацию об извлечении информации из данных (в отличие от анализа данных) см. в следующих источниках:
Таким образом, интеллектуальный анализ данных правильнее было бы назвать «извлечением знаний из данных», что, к сожалению, несколько длинновато.
6 октября 2015 г.
Суд ЕС
... вынес решение, которое аннулировало Safe Harbor (вступило в силу немедленно), как это было реализовано в настоящее время.