Сбор данных

Добыча данных — это процесс извлечения и обнаружения закономерностей в больших наборах данных , включающий методы на стыке машинного обучения , статистики и систем баз данных . ^[1] Добыча данных — это междисциплинарная подобласть компьютерной науки и статистики , общей целью которой является извлечение информации (с помощью интеллектуальных методов) из набора данных и преобразование ее в понятную структуру для дальнейшего использования. ^[1]^[2]^[3]^[4] Добыча данных — это этап анализа процесса « обнаружения знаний в базах данных » или KDD. ^[5] Помимо этапа сырого анализа, он также включает аспекты управления базами данных и данными , предварительную обработку данных , рассмотрение моделей и выводов , метрики интересности, рассмотрение сложности , постобработку обнаруженных структур, визуализацию и онлайн-обновление . ^[1]

Термин «интеллектуальный анализ данных» является неправильным, поскольку его целью является извлечение закономерностей и знаний из больших объемов данных, а не извлечение ( интеллектуальный анализ ) самих данных . ^[6] Это также модное слово ^[7] и часто применяется к любой форме крупномасштабной обработки данных или информации ( сбор , извлечение , хранение , анализ и статистика), а также к любому применению компьютерной системы поддержки принятия решений , включая искусственный интеллект (например, машинное обучение) и бизнес-аналитику . Часто более уместны более общие термины ( масштабный ) анализ данных и аналитика — или, когда речь идет о фактических методах, искусственный интеллект и машинное обучение .

Фактическая задача интеллектуального анализа данных — это полуавтоматический или автоматический анализ больших объемов данных для извлечения ранее неизвестных интересных закономерностей, таких как группы записей данных ( кластерный анализ ), необычные записи ( обнаружение аномалий ) и зависимости ( интеллектуальный анализ правил ассоциации , последовательный интеллектуальный анализ закономерностей ). Обычно это включает использование методов баз данных, таких как пространственные индексы . Затем эти закономерности можно рассматривать как своего рода резюме входных данных и использовать в дальнейшем анализе или, например, в машинном обучении и предиктивной аналитике . Например, этап интеллектуального анализа данных может идентифицировать несколько групп в данных, которые затем можно использовать для получения более точных результатов прогнозирования с помощью системы поддержки принятия решений . Ни сбор данных, ни подготовка данных, ни интерпретация результатов и отчетность не являются частью этапа интеллектуального анализа данных, хотя они относятся к общему процессу KDD как дополнительные шаги.

Разница между анализом данных и добычей данных заключается в том, что анализ данных используется для проверки моделей и гипотез на основе набора данных, например, анализа эффективности маркетинговой кампании , независимо от объема данных. Напротив, добыча данных использует машинное обучение и статистические модели для выявления скрытых закономерностей в большом объеме данных. ^[8]

Связанные термины data dredging , data fishing и data snooping относятся к использованию методов добычи данных для выборки частей более крупного набора данных популяции, которые являются (или могут быть) слишком малыми для надежных статистических выводов о достоверности любых обнаруженных закономерностей. Однако эти методы могут использоваться для создания новых гипотез для проверки на более крупных популяциях данных.

Этимология

В 1960-х годах статистики и экономисты использовали такие термины, как «выуживание данных» или «выемка данных» , чтобы обозначить то, что они считали плохой практикой анализа данных без априорной гипотезы. Термин «выуживание данных» был использован в аналогичном критическом смысле экономистом Майклом Ловеллом в статье, опубликованной в Review of Economic Studies в 1983 году. ^[9]^[10] Ловелл указывает, что эта практика «маскируется под множество псевдонимов, начиная от «экспериментирования» (положительного) до «выучивания» или «шпионажа» (отрицательного).

Термин « интеллектуальный анализ данных » появился около 1990 года в сообществе баз данных, в целом с положительными коннотациями. В течение короткого времени в 1980-х годах использовалась фраза «database mining»™, но с тех пор, как она была зарегистрирована как торговая марка HNC, компании из Сан-Диего , для продвижения своей рабочей станции по интеллектуальному анализу данных; ^[11] исследователи впоследствии обратились к интеллектуальному анализу данных . Другие используемые термины включают археологию данных , сбор информации , обнаружение информации , извлечение знаний и т. д. Грегори Пятецкий-Шапиро ввел термин «обнаружение знаний в базах данных» для первого семинара по той же теме (KDD-1989), и этот термин стал более популярным в сообществах искусственного интеллекта и машинного обучения . Однако термин «интеллектуальный анализ данных» стал более популярным в деловых и пресс-сообществах. ^[12] В настоящее время термины « интеллектуальный анализ данных» и «обнаружение знаний» используются взаимозаменяемо.

Фон

Ручное извлечение закономерностей из данных происходило на протяжении столетий. Ранние методы выявления закономерностей в данных включают теорему Байеса (1700-е годы) и регрессионный анализ (1800-е годы). ^[13] Распространение, повсеместность и растущая мощность компьютерных технологий резко увеличили возможности сбора, хранения и обработки данных. По мере того, как наборы данных росли в размерах и сложности, прямой «практический» анализ данных все больше дополнялся косвенной, автоматизированной обработкой данных, чему способствовали другие открытия в области компьютерной науки, особенно в области машинного обучения, такие как нейронные сети , кластерный анализ , генетические алгоритмы (1950-е годы), деревья решений и правила принятия решений (1960-е годы) и машины опорных векторов (1990-е годы). Интеллектуальный анализ данных — это процесс применения этих методов с целью выявления скрытых закономерностей. ^[14] в больших наборах данных. Он устраняет разрыв между прикладной статистикой и искусственным интеллектом (которые обычно обеспечивают математическую основу) и управлением базами данных , используя способ хранения и индексации данных в базах данных для более эффективного выполнения реальных алгоритмов обучения и обнаружения, что позволяет применять такие методы к все большим наборам данных.

Процесс

Процесс обнаружения знаний в базах данных (KDD) обычно определяется следующими этапами:

Выбор
Предварительная обработка
Трансформация
Сбор данных
Интерпретация/оценка. ^[5]

Однако существует множество вариаций на эту тему, например, межотраслевой стандартный процесс интеллектуального анализа данных (CRISP-DM), который определяет шесть фаз:

Понимание бизнеса
Понимание данных
Подготовка данных
Моделирование
Оценка
Развертывание

или упрощенный процесс, такой как (1) предварительная обработка, (2) сбор данных и (3) проверка результатов.

Опросы, проведенные в 2002, 2004, 2007 и 2014 годах, показывают, что методология CRISP-DM является ведущей методологией, используемой специалистами по сбору данных. ^[15]^[16]^[17]^[18]

Единственным другим стандартом добычи данных, названным в этих опросах, был SEMMA . Однако в 3–4 раза больше людей сообщили об использовании CRISP-DM. Несколько групп исследователей опубликовали обзоры моделей процесса добычи данных, ^[19] а Азеведо и Сантос провели сравнение CRISP-DM и SEMMA в 2008 году. ^[20]

Предварительная обработка

Перед использованием алгоритмов добычи данных необходимо собрать целевой набор данных. Поскольку добыча данных может выявить только закономерности, фактически присутствующие в данных, целевой набор данных должен быть достаточно большим, чтобы содержать эти закономерности, оставаясь при этом достаточно кратким, чтобы его можно было добыть в приемлемые сроки. Распространенным источником данных является киоск данных или хранилище данных . Предварительная обработка необходима для анализа многомерных наборов данных перед добычей данных. Затем целевой набор очищается. Очистка данных удаляет наблюдения, содержащие шум , и наблюдения с отсутствующими данными .

Сбор данных

Анализ данных включает шесть общих классов задач: ^[5]

Обнаружение аномалий (выбросов/изменений/отклонений) — выявление необычных записей данных, которые могут представлять интерес, или ошибок данных, требующих дальнейшего изучения из-за выхода за пределы стандартного диапазона.
Изучение правил ассоциации (моделирование зависимости) – Поиск связей между переменными. Например, супермаркет может собирать данные о привычках покупателей. Используя изучение правил ассоциации, супермаркет может определить, какие продукты часто покупаются вместе, и использовать эту информацию в маркетинговых целях. Иногда это называют анализом рыночной корзины.
Кластеризация – это задача обнаружения в данных групп и структур, которые в той или иной степени «похожи», без использования известных структур в данных.
Классификация – это задача обобщения известной структуры для применения к новым данным. Например, программа электронной почты может попытаться классифицировать электронное письмо как «легитимное» или как «спам».
Регрессия — попытка найти функцию, которая моделирует данные с наименьшей ошибкой, то есть для оценки взаимосвязей между данными или наборами данных.
Обобщение — обеспечение более компактного представления набора данных, включая визуализацию и создание отчетов.

Проверка результатов

Интеллектуальный анализ данных может непреднамеренно использоваться не по назначению, давая результаты, которые кажутся значимыми, но которые на самом деле не предсказывают будущее поведение и не могут быть воспроизведены на новой выборке данных, поэтому приносят мало пользы. Иногда это происходит из-за исследования слишком большого количества гипотез и невыполнения надлежащей статистической проверки гипотез . Простая версия этой проблемы в машинном обучении известна как переобучение , но та же проблема может возникнуть на разных этапах процесса, и поэтому разделение на обучение и тестирование — если оно вообще применимо — может оказаться недостаточным для предотвращения этого. ^[21]

Последним шагом обнаружения знаний из данных является проверка того, что шаблоны, созданные алгоритмами добычи данных, встречаются в более широком наборе данных. Не все шаблоны, найденные алгоритмами, обязательно являются действительными. Алгоритмы добычи данных часто находят шаблоны в обучающем наборе, которых нет в общем наборе данных. Это называется переобучением . Чтобы преодолеть это, оценка использует тестовый набор данных, на котором алгоритм добычи данных не был обучен. Изученные шаблоны применяются к этому тестовому набору, и полученный результат сравнивается с желаемым результатом. Например, алгоритм добычи данных, пытающийся отличить «спам» от «законных» писем, будет обучен на обучающем наборе образцов писем. После обучения изученные шаблоны будут применены к тестовому набору писем, на котором он не был обучен. Затем точность шаблонов можно измерить по тому, сколько писем они правильно классифицируют. Для оценки алгоритма можно использовать несколько статистических методов, таких как кривые ROC .

Если изученные шаблоны не соответствуют желаемым стандартам, необходимо переоценить и изменить шаги предварительной обработки и добычи данных. Если изученные шаблоны соответствуют желаемым стандартам, то последний шаг — интерпретировать изученные шаблоны и превратить их в знания.

Исследовать

Ведущим профессиональным органом в этой области является Специальная группа по изучению знаний и интеллектуальному анализу данных ( SIGKDD ) Ассоциации вычислительной техники (ACM) . ^[22]^[23] С 1989 года эта Специальная группа по изучению знаний и интеллектуальному анализу данных ACM проводит ежегодную международную конференцию и публикует ее материалы, ^[24] а с 1999 года она издает двухгодичный академический журнал под названием «Исследования SIGKDD». ^[25]

Конференции по информатике и интеллектуальному анализу данных включают:

Темы интеллектуального анализа данных также присутствуют на многих конференциях по управлению данными/базам данных, таких как конференция ICDE, конференция SIGMOD и Международная конференция по очень большим базам данных .

Стандарты

Были предприняты некоторые попытки определить стандарты для процесса добычи данных, например, Европейский межотраслевой стандарт процесса добычи данных 1999 года (CRISP-DM 1.0) и стандарт добычи данных Java 2004 года (JDM 1.0). Разработка преемников этих процессов (CRISP-DM 2.0 и JDM 2.0) была активна в 2006 году, но с тех пор застопорилась. JDM 2.0 был отозван, не достигнув окончательного варианта.

Для обмена извлеченными моделями, в частности для использования в предиктивной аналитике , ключевым стандартом является Predictive Model Markup Language (PMML), который является языком на основе XML , разработанным Data Mining Group (DMG) и поддерживаемым в качестве формата обмена многими приложениями добычи данных. Как следует из названия, он охватывает только модели прогнозирования, конкретную задачу добычи данных, имеющую большое значение для бизнес-приложений. Однако расширения для покрытия (например) кластеризации подпространства были предложены независимо от DMG. ^[26]

Известные применения

Интеллектуальный анализ данных используется везде, где доступны цифровые данные. Известные примеры интеллектуального анализа данных можно найти в бизнесе, медицине, науке, финансах, строительстве и надзоре.

Вопросы конфиденциальности и этики

Хотя сам термин «интеллектуальный анализ данных» может не иметь этических последствий, его часто ассоциируют с извлечением информации относительно поведения пользователя (этичного и иного). ^[27]

Способы, которыми может использоваться интеллектуальный анализ данных, в некоторых случаях и контекстах могут вызывать вопросы относительно конфиденциальности , законности и этики . ^[28] В частности, интеллектуальный анализ данных государственных или коммерческих наборов данных для целей национальной безопасности или обеспечения соблюдения закона , например, в программе Total Information Awareness Program или в ADVISE , вызвал обеспокоенность по поводу конфиденциальности. ^[29]^[30]

Для добычи данных требуется подготовка данных, которая раскрывает информацию или закономерности, которые ставят под угрозу конфиденциальность и обязательства по защите частной жизни . Распространенным способом для этого является агрегация данных . Агрегация данных включает в себя объединение данных (возможно, из разных источников) таким образом, который облегчает анализ (но это также может сделать идентификацию частных, индивидуальных данных выводимой или иным образом очевидной). ^[31] Это не добыча данных как таковая , а результат подготовки данных до — и для целей — анализа. Угроза конфиденциальности отдельного лица вступает в игру, когда данные, будучи скомпилированными, заставляют добытчика данных или любого, кто имеет доступ к недавно скомпилированному набору данных, иметь возможность идентифицировать конкретных лиц, особенно если данные изначально были анонимными. ^[32]

Рекомендуется ^{[ по мнению кого? ]} знать следующее перед сбором данных: ^[31]

Цель сбора данных и любые (известные) проекты по интеллектуальному анализу данных.
Как будут использоваться данные.
Кто сможет добывать данные и использовать их и производные?
Состояние безопасности доступа к данным.
Как можно обновить собранные данные.

Данные также могут быть изменены таким образом, чтобы стать анонимными, так что личности не будут легко идентифицированы. ^[31] Однако даже « анонимные » наборы данных могут потенциально содержать достаточно информации, чтобы позволить идентификацию личности, как это произошло, когда журналисты смогли найти нескольких лиц на основе набора историй поиска, которые были непреднамеренно опубликованы AOL. ^[33]

Непреднамеренное раскрытие персонально идентифицируемой информации , ведущее к поставщику, нарушает принципы честной информационной практики. Такая неосмотрительность может нанести финансовый, эмоциональный или физический вред указанному лицу. В одном случае нарушения конфиденциальности клиенты Walgreens подали иск против компании в 2011 году за продажу информации о рецептах компаниям по добыче данных, которые в свою очередь предоставляли эти данные фармацевтическим компаниям. ^[34]

Ситуация в Европе

В Европе действуют довольно строгие законы о конфиденциальности, и предпринимаются усилия по дальнейшему укреплению прав потребителей. Однако принципы «безопасной гавани» США–ЕС , разработанные в период с 1998 по 2000 год, в настоящее время фактически подвергают европейских пользователей риску эксплуатации конфиденциальности американскими компаниями. В результате раскрытия Эдвардом Сноуденом информации о глобальном наблюдении усилились дискуссии об отмене этого соглашения, поскольку, в частности, данные будут полностью раскрыты Агентству национальной безопасности , а попытки достичь соглашения с Соединенными Штатами провалились. ^[35]

В частности, в Соединенном Королевстве были случаи, когда корпорации использовали интеллектуальный анализ данных как способ нацеливания на определенные группы клиентов, заставляя их платить несправедливо высокие цены. Эти группы, как правило, состоят из людей с более низким социально-экономическим статусом, которые не подкованы в способах их эксплуатации на цифровых рынках. ^[36]

Ситуация в Соединенных Штатах

В Соединенных Штатах проблемы конфиденциальности были решены Конгрессом США посредством принятия нормативных актов, таких как Закон о переносимости и подотчетности медицинского страхования (HIPAA). HIPAA требует, чтобы люди давали свое «осознанное согласие» относительно информации, которую они предоставляют, и ее предполагаемого настоящего и будущего использования. Согласно статье в Biotech Business Week , «[на] практике HIPAA не может обеспечить большую защиту, чем давние правила в области исследований», — говорит AAHC. Что еще более важно, цель правила защиты посредством осознанного согласия — приблизиться к уровню непостижимости для обычных людей». ^[37] Это подчеркивает необходимость анонимности данных в практиках агрегации и добычи данных.

Законодательство США о конфиденциальности информации, такое как HIPAA и Закон о правах и неприкосновенности частной жизни в сфере образования (FERPA), применяется только к конкретным областям, которые затрагивает каждый такой закон. Использование интеллектуального анализа данных большинством предприятий в США не контролируется никаким законодательством.

Закон об авторском праве

Ситуация в Европе

Согласно европейским законам об авторских правах , добыча работ, защищенных авторским правом (например, с помощью веб-майнинга ), без разрешения владельца авторских прав незаконна. Если база данных представляет собой чистые данные в Европе, может оказаться, что авторских прав нет, но права на базу данных могут существовать, поэтому добыча данных становится предметом прав владельцев интеллектуальной собственности , которые защищены Директивой о базах данных . По рекомендации обзора Харгривза это привело к тому, что правительство Великобритании в 2014 году внесло поправки в свой закон об авторских правах, чтобы разрешить добычу контента в качестве ограничения и исключения . ^[38] Великобритания стала второй страной в мире, сделавшей это после Японии, которая ввела исключение в 2009 году для добычи данных. Однако из-за ограничения Директивы об информационном обществе (2001) исключение Великобритании разрешает добычу контента только в некоммерческих целях. Закон об авторском праве Великобритании также не позволяет отменять это положение договорными условиями. С 2020 года Швейцария также регулирует добычу данных, разрешая ее в области исследований при определенных условиях, изложенных в статье. 24d Закона Швейцарии об авторском праве. Эта новая статья вступила в силу 1 апреля 2020 года. ^[39]

Европейская комиссия организовала обсуждение с заинтересованными сторонами по вопросам интеллектуального анализа текста и данных в 2013 году под названием «Лицензии для Европы». ^[40] Сосредоточение внимания на решении этой юридической проблемы, такой как лицензирование, а не ограничения и исключения, привело к тому, что представители университетов, исследователей, библиотек, групп гражданского общества и издателей открытого доступа покинули диалог с заинтересованными сторонами в мае 2013 года. ^[41]

Ситуация в Соединенных Штатах

Закон США об авторском праве , и в частности его положение о добросовестном использовании , поддерживает законность добычи контента в Америке и других странах добросовестного использования, таких как Израиль, Тайвань и Южная Корея. Поскольку добыча контента является преобразующей, то есть она не заменяет оригинальную работу, она рассматривается как законная при добросовестном использовании. Например, в рамках урегулирования Google Book председательствующий судья по делу постановил, что проект Google по оцифровке книг, защищенных авторским правом, был законным, отчасти из-за преобразующих видов использования, которые демонстрировал проект оцифровки — одним из которых был анализ текста и данных. ^[42]

Программное обеспечение

Бесплатное программное обеспечение и приложения с открытым исходным кодом для анализа данных

Следующие приложения доступны по бесплатным/открытым лицензиям. Также доступен публичный доступ к исходному коду приложения.

Carrot2 : Фреймворк кластеризации текста и результатов поиска.
Chemicalize.org : программа для анализа химической структуры и поисковая система в Интернете.
ELKI : университетский исследовательский проект с передовыми методами кластерного анализа и обнаружения выбросов, написанный на языке Java .
GATE : инструмент обработки естественного языка и языковой инженерии.
KNIME : Konstanz Information Miner, удобная и комплексная среда анализа данных.
Массовый онлайн-анализ (MOA) : анализ больших потоков данных в режиме реального времени с помощью инструмента концептуального дрейфа на языке программирования Java .
MEPX : кроссплатформенный инструмент для решения задач регрессии и классификации на основе варианта генетического программирования.
mlpack : набор готовых к использованию алгоритмов машинного обучения, написанных на языке C++ .
NLTK ( Natural Language Toolkit ): набор библиотек и программ для символьной и статистической обработки естественного языка (NLP) для языка Python .
OpenNN : Открытая библиотека нейронных сетей .
Orange : программный пакет для анализа данных и машинного обучения на основе компонентов, написанный на языке Python .
PSPP : программное обеспечение для анализа данных и статистики в рамках проекта GNU, аналогичное SPSS
R : Язык программирования и программная среда для статистических вычислений, добычи данных и графики. Является частью проекта GNU .
scikit-learn : библиотека машинного обучения с открытым исходным кодом для языка программирования Python;
Torch : библиотека глубокого обучения с открытым исходным кодом для языка программирования Lua и фреймворка научных вычислений с широкой поддержкой алгоритмов машинного обучения .
UIMA : UIMA (архитектура управления неструктурированной информацией) — это компонентная структура для анализа неструктурированного контента, такого как текст, аудио и видео, изначально разработанная IBM.
Weka : набор программных приложений для машинного обучения, написанных на языке программирования Java .

Запатентованное программное обеспечение и приложения для интеллектуального анализа данных

Следующие приложения доступны по проприетарным лицензиям.

Angoss KnowledgeSTUDIO: инструмент для анализа данных
LIONsolver : интегрированное программное приложение для интеллектуального анализа данных, бизнес-аналитики и моделирования, реализующее подход Learning and Intelligent OptimizatioN (LION).
PolyAnalyst : программное обеспечение для интеллектуального анализа данных и текста от Megaputer Intelligence.
Microsoft Analysis Services : программное обеспечение для анализа данных, предоставляемое корпорацией Microsoft .
NetOwl : набор многоязычных продуктов для анализа текста и сущностей, которые позволяют проводить интеллектуальный анализ данных.
Oracle Data Mining : программное обеспечение для интеллектуального анализа данных от корпорации Oracle .
PSeven : платформа для автоматизации инженерного моделирования и анализа, междисциплинарной оптимизации и интеллектуального анализа данных, предоставляемая DATADVANCE .
Qlucore Omics Explorer: программное обеспечение для интеллектуального анализа данных.
RapidMiner : среда для экспериментов по машинному обучению и анализу данных.
SAS Enterprise Miner : программное обеспечение для интеллектуального анализа данных, предоставленное Институтом SAS .
SPSS Modeler : программное обеспечение для интеллектуального анализа данных, предоставленное IBM .
STATISTICA Data Miner: программное обеспечение для интеллектуального анализа данных, предоставляемое StatSoft .
Tanagra : Программное обеспечение для визуализации данных, также предназначенное для обучения.
Vertica : программное обеспечение для интеллектуального анализа данных, предоставленное Hewlett-Packard .
Google Cloud Platform : автоматизированные пользовательские модели машинного обучения, управляемые Google .
Amazon SageMaker : управляемый сервис, предоставляемый Amazon для создания и производства пользовательских моделей машинного обучения.

Смотрите также

Методы

Домены приложений

Примеры применения

Похожие темы

Дополнительную информацию об извлечении информации из данных (в отличие от анализа данных) см. в следующих источниках:

Другие ресурсы

Международный журнал по хранению и анализу данных

Ссылки

^ abc "Data Mining Curriculum". ACM SIGKDD . 2006-04-30. Архивировано из оригинала 2013-10-14 . Получено 2014-01-27 .
^ Клифтон, Кристофер (2010). "Encyclopaedia Britannica: Definition of Data Mining". Архивировано из оригинала 2011-02-05 . Получено 2010-12-09 .
^ Хасти, Тревор ; Тибширани, Роберт ; Фридман, Джером (2009). «Элементы статистического обучения: добыча данных, вывод и прогнозирование». Архивировано из оригинала 10.11.2009 . Получено 07.08.2012 .
^ Хан, Джайвэй ; Камбер, Мишлин; Пей, Цзянь (2011). Data Mining: Concepts and Techniques (3-е изд.). Morgan Kaufmann. ISBN 978-0-12-381479-1.
^ abc Fayyad, Usama ; Piatetsky-Shapiro, Gregory ; Smyth, Padhraic (1996). "From Data Mining to Knowledge Discovery in Databases" (PDF) . Архивировано (PDF) из оригинала 2022-10-09 . Получено 17 декабря 2008 .
^ Хан, Цзявэй ; Камбер, Мишлин (2001). Интеллектуальный анализ данных: концепции и методы . Морган Кауфманн . п. 5. ISBN 978-1-55860-489-6. Таким образом, интеллектуальный анализ данных правильнее было бы назвать «извлечением знаний из данных», что, к сожалению, несколько длинновато.
^ OKAIRP 2005 Осенняя конференция, Университет штата Аризона Архивировано 2014-02-01 в Wayback Machine
^ Олсон, ДЛ (2007). Интеллектуальный анализ данных в сфере бизнес-услуг. Service Business , 1 (3), 181–193. doi :10.1007/s11628-006-0014-7
^ Ловелл, Майкл С. (1983). «Data Mining». Обзор экономики и статистики . 65 (1): 1–12. doi :10.2307/1924403. JSTOR 1924403.
^ Charemza, Wojciech W.; Deadman, Derek F. (1992). «Data Mining». Новые направления в эконометрической практике . Aldershot: Edward Elgar. стр. 14–31. ISBN 1-85278-461-X.
^ Мена, Хесус (2011). Машинное обучение криминалистики для правоохранительных органов, безопасности и разведки . Бока-Ратон, Флорида: CRC Press (Taylor & Francis Group). ISBN 978-1-4398-6069-4.
^ Piatetsky-Shapiro, Gregory ; Parker, Gary (2011). "Lesson: Data Mining, and Knowledge Discovery: An Introduction". Введение в Data Mining . KD Nuggets. Архивировано из оригинала 30 августа 2012 г. Получено 30 августа 2012 г.
^ Coenen, Frans (2011-02-07). «Data mining: past, present and future» (Инженерный анализ данных: прошлое, настоящее и будущее). The Knowledge Engineering Review . 26 (1): 25–29. doi :10.1017/S0269888910000378. ISSN 0269-8889. S2CID 6487637. Архивировано из оригинала 2023-07-02 . Получено 2021-09-04 .
^ Кантарджич, Мехмед (2003). Data Mining: Concepts, Models, Methods, and Algorithms . John Wiley & Sons. ISBN 978-0-471-22852-3. OCLC 50055336.
^ «Какую основную методологию вы используете для интеллектуального анализа данных (2002)?». KDnuggets . 2002. Архивировано из оригинала 16 января 2017 г. Получено 29 декабря 2023 г.
^ «Какую основную методологию вы используете для интеллектуального анализа данных (2004)?». KDnuggets . 2004. Архивировано из оригинала 8 февраля 2017 г. Получено 29 декабря 2023 г.
^ «Какую основную методологию вы используете для интеллектуального анализа данных (2007)?». KDnuggets . 2007. Архивировано из оригинала 17 ноября 2012 г. Получено 29 декабря 2023 г.
^ «Какую основную методологию вы используете для интеллектуального анализа данных (2014)?». KDnuggets . 2014. Архивировано из оригинала 1 августа 2016 года . Получено 29 декабря 2023 года .
^ Лукаш Курган и Петр Мусилек: «Обзор моделей процессов обнаружения знаний и добычи данных» Архивировано 26 мая 2013 г. в Wayback Machine . Обзор инженерии знаний . Том 21, выпуск 1, март 2006 г., стр. 1–24, Cambridge University Press, Нью-Йорк, doi :10.1017/S0269888906000737
^ Azevedo, A. и Santos, MF KDD, SEMMA и CRISP-DM: параллельный обзор Архивировано 2013-01-09 в Wayback Machine . В трудах Европейской конференции IADIS по интеллектуальному анализу данных 2008 г., стр. 182–185.
^ Хокинс, Дуглас М. (2004). «Проблема переобучения». Журнал химической информации и компьютерных наук . 44 (1): 1–12. doi :10.1021/ci0342472. PMID 14741005. S2CID 12440383.
^ "Microsoft Academic Search: Лучшие конференции по интеллектуальному анализу данных". Microsoft Academic Search . Архивировано из оригинала 2014-11-19 . Получено 2014-06-13 .
^ "Google Scholar: Лучшие публикации - Data Mining & Analysis". Google Scholar . Архивировано из оригинала 2023-02-10 . Получено 2022-06-11 .
↑ Труды заархивированы 30 апреля 2010 г. в Wayback Machine , Международные конференции по обнаружению знаний и интеллектуальному анализу данных, ACM, Нью-Йорк.
↑ Исследования SIGKDD. Архивировано 29 июля 2010 г. в Wayback Machine , ACM, Нью-Йорк.
^ Гюннеманн, Стефан; Кремер, Харди; Зайдль, Томас (2011). «Расширение стандарта PMML для моделей кластеризации подпространств». Труды семинара 2011 года по моделированию языка предиктивной разметки . стр. 48. doi :10.1145/2023598.2023605. ISBN 978-1-4503-0837-3. S2CID 14967969.
^ Сельцер, Уильям (2005). «Перспективы и подводные камни интеллектуального анализа данных: этические вопросы» (PDF) . Секция ASA по государственной статистике . Американская статистическая ассоциация. Архивировано (PDF) из оригинала 2022-10-09.
↑ Питтс, Чип (15 марта 2007 г.). «Конец незаконного внутреннего шпионажа? Не рассчитывайте на него». Washington Spectator . Архивировано из оригинала 28.11.2007.
^ Taipale, Kim A. (15 декабря 2003 г.). «Data Mining and Domestic Security: Connecting the Dots to Make Sense of Data». Columbia Science and Technology Law Review . 5 (2). OCLC 45263753. SSRN 546782. Архивировано из оригинала 5 ноября 2014 г. Получено 21 апреля 2004 г.
^ Резиг, Джон. "Структура для майнинга служб мгновенного обмена сообщениями" (PDF) . Архивировано (PDF) из оригинала 2022-10-09 . Получено 16 марта 2018 .
^ abc Подумайте, прежде чем копать: Последствия для конфиденциальности при добыче и агрегации данных Архивировано 17 декабря 2008 г. в Wayback Machine , краткий обзор исследований NASCIO, сентябрь 2004 г.
^ Ом, Пол. «Не создавайте базу данных о разорении». Harvard Business Review .
^ Данные поиска AOL идентифицировали лиц. Архивировано 06.01.2010 в Wayback Machine , SecurityFocus, август 2006 г.
^ Кшетри, Нир (2014). «Влияние больших данных на конфиденциальность, безопасность и благосостояние потребителей» (PDF) . Политика в области телекоммуникаций . 38 (11): 1134–1145. doi :10.1016/j.telpol.2014.10.002. Архивировано (PDF) из оригинала 19.06.2018 . Получено 20.04.2018 .
^ Weiss, Martin A.; Archick, Kristin (19 мая 2016 г.). «Конфиденциальность данных между США и ЕС: от Safe Harbor к Privacy Shield». Исследовательская служба Конгресса США, Вашингтон, округ Колумбия. стр. 6. R44257. Архивировано из оригинала (PDF) 9 апреля 2020 г. . Получено 9 апреля 2020 г. 6 октября 2015 г. Суд ЕС ... вынес решение, которое аннулировало Safe Harbor (вступило в силу немедленно), как это было реализовано в настоящее время.
^ Паркер, Джордж (2018-09-30). «Британские компании подвергаются нападкам за использование больших данных для эксплуатации клиентов». Financial Times . Архивировано из оригинала 2022-12-10 . Получено 2022-12-04 .
^ Редакторы Biotech Business Week (30 июня 2008 г.); БИОМЕДИЦИНА; Правило конфиденциальности HIPAA препятствует биомедицинским исследованиям , Biotech Business Week, получено 17 ноября 2009 г. из LexisNexis Academic
^ Британские исследователи получили право на интеллектуальный анализ данных в соответствии с новыми законами Великобритании об авторском праве. Архивировано 9 июня 2014 г. на Wayback Machine Out-Law.com. Получено 14 ноября 2014 г.
^ "Fedlex". Архивировано из оригинала 2021-12-16 . Получено 2021-12-16 .
^ "Лицензии для Европы – Структурированный диалог заинтересованных сторон 2013". Европейская комиссия . Архивировано из оригинала 23 марта 2013 года . Получено 14 ноября 2014 года .
^ "Text and Data Mining:Its important and the need for change in Europe". Ассоциация европейских исследовательских библиотек . Архивировано из оригинала 29 ноября 2014 года . Получено 14 ноября 2014 года .
^ «Судья выносит решение в порядке упрощенного судопроизводства в пользу Google Books – победа в деле о добросовестном использовании». Lexology.com . Antonelli Law Ltd. 19 ноября 2013 г. Архивировано из оригинала 29 ноября 2014 г. Получено 14 ноября 2014 г.

Дальнейшее чтение

Кабена, Питер; Хаджниан, Пабло; Стадлер, Рольф; Верхеес, Яап; Занаси, Алессандро (1997); Открытие интеллектуального анализа данных: от концепции к реализации , Прентис Холл , ISBN 0-13-743980-6
MS Chen, J. Han, PS Yu (1996) "Data mining: an overview through a database perspective Архивировано 2016-03-03 в Wayback Machine ". Knowledge and data Engineering, IEEE Transactions on 8 (6), 866–883
Фельдман, Ронен; Сэнгер, Джеймс (2007); Справочник по интеллектуальному анализу текста , Cambridge University Press , ISBN 978-0-521-83657-9
Го, Йик; и Гроссман, Роберт (редакторы) (1999); Высокопроизводительный интеллектуальный анализ данных: алгоритмы масштабирования, приложения и системы , Kluwer Academic Publishers
Хан, Цзявэй , Мишлин Камбер и Цзянь Пэй. Интеллектуальный анализ данных: концепции и методы . Морган Кауфманн, 2006.
Хасти, Тревор , Тибширани, Роберт и Фридман, Джером (2001); Элементы статистического обучения: добыча данных, вывод и прогнозирование , Springer, ISBN 0-387-95284-5
Лю, Бин (2007, 2011); Интеллектуальный анализ веб-данных: изучение гиперссылок, содержимого и данных об использовании , Springer , ISBN 3-540-37881-2
Мерфи, Крис (16 мая 2011 г.). «Является ли интеллектуальный анализ данных свободой слова?». InformationWeek : 12.
Нисбет, Роберт; Элдер, Джон; Майнер, Гэри (2009); Справочник по статистическому анализу и приложениям для интеллектуального анализа данных , Academic Press /Elsevier, ISBN 978-0-12-374765-5
Понселе, Паскаль; Масселья, Флоран; и Тейссер, Магелон (редакторы) (октябрь 2007 г.); «Шаблоны интеллектуального анализа данных: новые методы и приложения», Справочник по информационным наукам , ISBN 978-1-59904-162-9
Тан, Пан-Нин; Штайнбах, Майкл; и Кумар, Випин (2005); Введение в интеллектуальный анализ данных , ISBN 0-321-32136-7
Теодоридис, Сергиос; и Кутрумбас, Константинос (2009); Распознавание образов , 4-е издание, Academic Press, ISBN 978-1-59749-272-0
Вайс, Шолом М.; и Индуркхья, Нитин (1998); Предиктивный анализ данных , Морган Кауфманн
Witten, Ian H .; Frank, Eibe; Hall, Mark A. (30 января 2011 г.). Data Mining: Practical Machine Learning Tools and Techniques (3-е изд.). Elsevier. ISBN 978-0-12-374856-0.(См. также Бесплатное программное обеспечение Weka )
Йе, Нонг (2003); Справочник по интеллектуальному анализу данных , Махвах, Нью-Джерси: Лоуренс Эрлбаум

Внешние ссылки

На Викискладе есть медиафайлы по теме «Интеллектуальная обработка данных» .