Сбор данных

Интеллектуальный анализ данных — это процесс извлечения и обнаружения закономерностей в больших наборах данных с использованием методов на стыке машинного обучения , статистики и систем баз данных . ^[1] Интеллектуальный анализ данных — это междисциплинарная область информатики и статистики , общей целью которой является извлечение информации (с помощью интеллектуальных методов) из набора данных и преобразование информации в понятную структуру для дальнейшего использования. ^[1]^[2]^[3]^[4] Интеллектуальный анализ данных — это этап анализа процесса « обнаружения знаний в базах данных », или KDD. ^[5] Помимо этапа необработанного анализа, он также включает в себя аспекты управления базами данных и данными , предварительную обработку данных , соображения модели и вывода , показатели интересности, соображения сложности , постобработку обнаруженных структур, визуализацию и онлайн-обновление . ^[1]

Термин «интеллектуальный анализ данных» является неправильным , поскольку целью является извлечение закономерностей и знаний из больших объемов данных, а не извлечение ( добыча ) самих данных . ^[6] Это также модное слово ^[7] и часто применяется к любой форме крупномасштабной обработки данных или информации ( сбор , извлечение , складирование , анализ и статистика), а также к любому применению компьютерной системы поддержки принятия решений , включая искусственный интеллект (например, машинное обучение) и бизнес-аналитика . Часто более подходящими являются более общие термины ( крупномасштабный ) анализ данных и аналитика — или, если говорить о реальных методах, искусственный интеллект и машинное обучение .

Фактическая задача интеллектуального анализа данных — это полуавтоматический или автоматический анализ больших объемов данных для извлечения ранее неизвестных интересных закономерностей, таких как группы записей данных ( кластерный анализ ), необычные записи ( обнаружение аномалий ) и зависимости ( интеллектуальный анализ правил ассоциации , последовательный анализ шаблонов ). Обычно это предполагает использование методов работы с базами данных, таких как пространственные индексы . Эти шаблоны затем можно рассматривать как своего рода сводку входных данных и использовать в дальнейшем анализе или, например, в машинном обучении и прогнозной аналитике . Например, на этапе интеллектуального анализа данных можно идентифицировать несколько групп в данных, которые затем можно использовать для получения более точных результатов прогнозирования с помощью системы поддержки принятия решений . Ни сбор данных, их подготовка, ни интерпретация результатов и отчетность не являются частью этапа интеллектуального анализа данных, хотя они и входят в общий процесс KDD в качестве дополнительных этапов.

Разница между анализом данных и интеллектуальным анализом данных заключается в том, что анализ данных используется для проверки моделей и гипотез на наборе данных, например, для анализа эффективности маркетинговой кампании , независимо от объема данных. Напротив, интеллектуальный анализ данных использует машинное обучение и статистические модели для выявления тайных или скрытых закономерностей в большом объеме данных. ^[8]

Сопутствующие термины «выемка данных» , «ловля данных » и «отслеживание данных» относятся к использованию методов интеллектуального анализа данных для выборки частей более крупного набора данных о населении, которые (или могут быть) слишком малы для того, чтобы можно было сделать надежные статистические выводы о достоверности каких-либо данных. обнаружены закономерности. Однако эти методы можно использовать при создании новых гипотез для проверки на более крупных совокупностях данных.

Этимология

В 1960-х годах статистики и экономисты использовали такие термины, как вылов данных или сбор данных , чтобы обозначить то, что они считали плохой практикой анализа данных без априорной гипотезы. Термин «интеллектуальный анализ данных» столь же критично использовал экономист Майкл Ловелл в статье, опубликованной в « Обзоре экономических исследований» в 1983 году. ^[9]^[10] Ловелл указывает, что эта практика «маскируется под различными псевдонимами, начиная от от «экспериментирования» (положительный) до «рыбалки» или «выслеживания» (отрицательный).

Термин интеллектуальный анализ данных появился примерно в 1990 году в сообществе баз данных и имел в целом положительный оттенок. В течение короткого времени в 1980-х годах использовалась фраза «интеллектуальный анализ баз данных»™, но поскольку она была зарегистрирована как торговая марка компании HNC, базирующейся в Сан-Диего , для продвижения своей рабочей станции для интеллектуального анализа данных; ^[11] исследователи впоследствии обратились к интеллектуальному анализу данных . Другие используемые термины включают археологию данных , сбор информации , обнаружение информации , извлечение знаний и т. д . Грегори Пятецкий-Шапиро придумал термин «обнаружение знаний в базах данных» для первого семинара по той же теме (KDD-1989), и этот термин стал более популярным. в сообществах искусственного интеллекта и машинного обучения . Однако термин интеллектуальный анализ данных стал более популярным в деловых кругах и прессе. ^[12] В настоящее время термины «добыча данных» и «обнаружение знаний» используются как синонимы.

Фон

Ручное извлечение закономерностей из данных происходило на протяжении веков. Ранние методы выявления закономерностей в данных включают теорему Байеса (1700-е годы) и регрессионный анализ (1800-е годы). ^[13] Распространение, повсеместное распространение и растущая мощь компьютерных технологий резко увеличили возможности сбора, хранения и манипулирования данными. По мере увеличения размера и сложности наборов данных прямой «практический» анализ данных все чаще дополняется косвенной автоматизированной обработкой данных, чему способствуют другие открытия в области информатики, особенно в области машинного обучения, такие как нейронные сети . кластерный анализ , генетические алгоритмы (1950-е годы), деревья решений и правила принятия решений (1960-е годы) и машины опорных векторов (1990-е годы). Интеллектуальный анализ данных — это процесс применения этих методов с целью выявления скрытых закономерностей. ^[14] в больших наборах данных. Он устраняет разрыв между прикладной статистикой и искусственным интеллектом (который обычно обеспечивает математическую основу) для управления базами данных , используя способ хранения и индексации данных в базах данных для более эффективного выполнения реальных алгоритмов обучения и обнаружения, позволяя применять такие методы для все большие наборы данных.

Процесс

Процесс обнаружения знаний в базах данных (KDD) обычно определяется этапами:

Выбор
Предварительная обработка
Трансформация
Сбор данных
Интерпретация/оценка. ^[5]

Однако он существует во многих вариациях на эту тему, например, в Межотраслевом стандартном процессе интеллектуального анализа данных (CRISP-DM), который определяет шесть этапов:

Понимание бизнеса
Понимание данных
Подготовка данных
Моделирование
Оценка
Развертывание

или упрощенный процесс, такой как (1) предварительная обработка, (2) интеллектуальный анализ данных и (3) проверка результатов.

Опросы, проведенные в 2002, 2004, 2007 и 2014 годах, показывают, что методология CRISP-DM является ведущей методологией, используемой майнерами данных. ^[15]^[16]^[17]^[18]

Единственным другим стандартом интеллектуального анализа данных, упомянутым в этих опросах, был SEMMA . Однако об использовании CRISP-DM сообщили в 3–4 раза больше людей. Несколько групп исследователей опубликовали обзоры моделей процессов интеллектуального анализа данных ^[19] , а Азеведо и Сантос провели сравнение CRISP-DM и SEMMA в 2008 году. ^[20]

Предварительная обработка

Прежде чем использовать алгоритмы интеллектуального анализа данных, необходимо собрать целевой набор данных. Поскольку интеллектуальный анализ данных может выявить только закономерности, действительно присутствующие в данных, целевой набор данных должен быть достаточно большим, чтобы содержать эти закономерности, оставаясь при этом достаточно кратким, чтобы его можно было проанализировать в течение приемлемого срока. Распространенным источником данных является витрина данных или хранилище данных . Предварительная обработка необходима для анализа многомерных наборов данных перед интеллектуальным анализом данных. Затем целевой набор очищается. Очистка данных удаляет наблюдения, содержащие шум , и наблюдения с отсутствующими данными .

Сбор данных

Интеллектуальный анализ данных включает в себя шесть распространенных классов задач: ^[5]

Обнаружение аномалий (обнаружение выбросов/изменений/отклонений). Идентификация необычных записей данных, которые могут представлять интерес, или ошибок данных, которые требуют дальнейшего изучения из-за того, что они выходят за пределы стандартного диапазона.
Изучение правил ассоциации (моделирование зависимостей). Поиск связей между переменными. Например, супермаркет может собирать данные о покупательских привычках клиентов. Используя изучение ассоциативных правил, супермаркет может определить, какие продукты часто покупаются вместе, и использовать эту информацию в маркетинговых целях. Иногда это называют анализом рыночной корзины.
Кластеризация – это задача обнаружения в данных групп и структур, которые так или иначе «похожи», без использования известных структур в данных.
Классификация – это задача обобщения известной структуры для применения к новым данным. Например, программа электронной почты может попытаться классифицировать электронное письмо как «законное» или как «спам».
Регрессия – попытка найти функцию, которая моделирует данные с наименьшей ошибкой, то есть для оценки связей между данными или наборами данных.
Суммирование – обеспечение более компактного представления набора данных, включая визуализацию и создание отчетов.

Проверка результатов

Интеллектуальный анализ данных может быть использован непреднамеренно неправильно, что приведет к получению результатов, которые кажутся значительными, но на самом деле не предсказывают будущее поведение и не могут быть воспроизведены на новой выборке данных, поэтому от них мало пользы. Иногда это вызвано исследованием слишком большого количества гипотез и невыполнением надлежащей статистической проверки гипотез . Простая версия этой проблемы в машинном обучении известна как переоснащение , но одна и та же проблема может возникнуть на разных этапах процесса, и, таким образом, разделения обучения и тестирования — если оно вообще применимо — может быть недостаточно, чтобы предотвратить это. ^[21]

Последним шагом извлечения знаний из данных является проверка того, что закономерности, создаваемые алгоритмами интеллектуального анализа данных, встречаются в более широком наборе данных. Не все закономерности, найденные алгоритмами, обязательно действительны. Алгоритмы интеллектуального анализа данных обычно находят в обучающем наборе шаблоны, которых нет в общем наборе данных. Это называется переоснащением . Чтобы преодолеть эту проблему, при оценке используется тестовый набор данных, на котором алгоритм интеллектуального анализа данных не обучался. Изученные шаблоны применяются к этому набору тестов, а полученный результат сравнивается с желаемым результатом. Например, алгоритм интеллектуального анализа данных, пытающийся отличить «спам» от «законных» электронных писем, будет обучаться на обучающем наборе образцов электронных писем. После обучения изученные шаблоны будут применены к тестовому набору электронных писем, на которых они не были обучены. Затем точность шаблонов можно измерить по тому, сколько электронных писем они правильно классифицируют. Для оценки алгоритма можно использовать несколько статистических методов, например кривые ROC .

Если изученные закономерности не соответствуют желаемым стандартам, необходимо переоценить и изменить этапы предварительной обработки и интеллектуального анализа данных. Если изученные закономерности действительно соответствуют желаемым стандартам, то последним шагом является интерпретация изученных закономерностей и превращение их в знания.

Исследовать

Ведущей профессиональной организацией в этой области является Специальная группа по интересам (SIG) по обнаружению знаний и интеллектуальному анализу данных ( SIGKDD ) Ассоциации вычислительной техники (ACM ). ^[22]^[23] С 1989 года этот ACM SIG проводит ежегодную международную конференцию и публикует ее материалы, ^[24] а с 1999 года он издает выходящий два раза в год академический журнал под названием «SIGKDD Explorations». ^[25]

Конференции по информатике, посвященные интеллектуальному анализу данных, включают:

Темы интеллектуального анализа данных также присутствуют на многих конференциях по управлению данными/базам данных, таких как конференция ICDE, конференция SIGMOD и международная конференция по очень большим базам данных .

Стандарты

Предпринимались некоторые попытки определить стандарты процесса интеллектуального анализа данных, например, Европейский межотраслевой стандарт процесса интеллектуального анализа данных 1999 года (CRISP-DM 1.0) и стандарт интеллектуального анализа данных Java 2004 года (JDM 1.0). Разработка преемников этих процессов (CRISP-DM 2.0 и JDM 2.0) велась активно в 2006 году, но с тех пор застопорилась. JDM 2.0 был отозван, так и не дойдя до окончательного проекта.

Для обмена извлеченными моделями, в частности для использования в прогнозной аналитике , ключевым стандартом является язык разметки прогнозных моделей (PMML), который представляет собой язык на основе XML , разработанный Data Mining Group (DMG) и поддерживаемый многими в качестве формата обмена. приложения для интеллектуального анализа данных. Как следует из названия, он охватывает только модели прогнозирования — конкретную задачу интеллектуального анализа данных, имеющую большое значение для бизнес-приложений. Однако расширения для охвата (например) кластеризации подпространств были предложены независимо от DMG. ^[26]

Известные применения

Интеллектуальный анализ данных используется везде, где есть цифровые данные. Яркие примеры интеллектуального анализа данных можно найти в бизнесе, медицине, науке, финансах, строительстве и надзоре.

Проблемы конфиденциальности и этика

Хотя сам термин «интеллектуальный анализ данных» может не иметь этических последствий, он часто ассоциируется со сбором информации о поведении пользователей (этическом и ином). ^[27]

Способы использования интеллектуального анализа данных в некоторых случаях и контекстах могут вызывать вопросы относительно конфиденциальности , законности и этики . ^[28] В частности, сбор данных правительственных или коммерческих наборов данных для целей национальной безопасности или правоохранительных органов , например, в программе Total Information Awareness Program или в ADVISE , вызвал проблемы конфиденциальности. ^[29]^[30]

Интеллектуальный анализ данных требует подготовки данных, которая раскрывает информацию или закономерности, которые ставят под угрозу обязательства по конфиденциальности и неприкосновенности частной жизни . Распространенным способом достижения этой цели является агрегирование данных . Агрегация данных предполагает объединение данных (возможно, из различных источников) таким образом, чтобы облегчить анализ (но это также может сделать идентификацию частных данных индивидуального уровня выводимыми или иным образом очевидными). ^[31] Это не интеллектуальный анализ данных как таковой , а результат подготовки данных до и для целей анализа. Угроза конфиденциальности человека возникает, когда данные после компиляции позволяют сборщику данных или любому, кто имеет доступ к вновь скомпилированному набору данных, иметь возможность идентифицировать конкретных людей, особенно если данные изначально были анонимными. ^[32]

Рекомендуется ^{[ по мнению кого? ]}перед сбором данных необходимо учитывать следующее : ^[31]

Цель сбора данных и любые (известные) проекты интеллектуального анализа данных.
Как данные будут использоваться.
Кто сможет добывать данные и использовать их и их производные.
Статус безопасности доступа к данным.
Как можно обновить собранные данные.

Данные также могут быть изменены таким образом, чтобы стать анонимными, чтобы людей было трудно идентифицировать. ^[31] Однако даже « анонимизированные » наборы данных потенциально могут содержать достаточно информации, позволяющей идентифицировать отдельных лиц, как это произошло, когда журналистам удалось найти нескольких человек на основе набора историй поиска, которые были случайно опубликованы AOL. ^[33]

Непреднамеренное раскрытие личной информации, ведущей к поставщику, нарушает правила добросовестной обработки информации. Такая неосмотрительность может нанести финансовый, эмоциональный или телесный вред указанному лицу. В одном случае нарушения конфиденциальности покровители Walgreens подали иск против компании в 2011 году за продажу информации о рецептах компаниям, занимающимся сбором данных, которые, в свою очередь, предоставили данные фармацевтическим компаниям. ^[34]

Ситуация в Европе

В Европе действуют довольно строгие законы о конфиденциальности, и предпринимаются усилия по дальнейшему укреплению прав потребителей. Однако «Принципы безопасной гавани» США и ЕС , разработанные в период с 1998 по 2000 год, в настоящее время фактически подвергают европейских пользователей эксплуатации конфиденциальности со стороны американских компаний. В результате раскрытия информации о глобальной слежке Эдварда Сноудена усилились дискуссии об отмене этого соглашения, поскольку, в частности, данные будут полностью раскрыты Агентству национальной безопасности , а попытки достичь соглашения с Соединенными Штатами потерпели неудачу. ^[35]

В Соединенном Королевстве, в частности, были случаи, когда корпорации использовали интеллектуальный анализ данных как способ нацелиться на определенные группы клиентов, вынуждая их платить несправедливо высокие цены. Эти группы, как правило, представляют собой людей с более низким социально-экономическим статусом, которые не понимают, как их можно эксплуатировать на цифровых рынках. ^[36]

Ситуация в США

В Соединенных Штатах проблемы конфиденциальности были решены Конгрессом США посредством принятия нормативного контроля, такого как Закон о переносимости и подотчетности медицинского страхования (HIPAA). HIPAA требует, чтобы люди давали «информированное согласие» в отношении предоставляемой ими информации и ее предполагаемого использования в настоящем и будущем. Согласно статье в журнале Biotech Business Week , «на практике HIPAA не может предложить большей защиты, чем давние правила в сфере исследований», — говорится в AAHC. Что еще более важно, цель этого правила — защита посредством информированного согласия. приблизиться к уровню непостижимости для обычных людей». ^[37] Это подчеркивает необходимость анонимности данных в практиках агрегирования и анализа данных.

Законодательство США о конфиденциальности информации, такое как HIPAA и Закон о правах семьи на образование и конфиденциальность (FERPA), применяется только к конкретным областям, которые затрагивает каждый из таких законов. Использование интеллектуального анализа данных большинством предприятий в США не контролируется никаким законодательством.

авторское право

Ситуация в Европе

В соответствии с европейскими законами о базах данных об авторских правах , майнинг произведений, защищенных авторскими правами (например, веб-майнинг ) без разрешения владельца авторских прав не является законным. Если в Европе база данных представляет собой чистые данные, авторские права могут отсутствовать, но права на базу данных могут существовать, поэтому интеллектуальный анализ данных становится предметом прав владельцев интеллектуальной собственности , которые защищены Директивой о базах данных . По рекомендации обзора Харгривса это привело к тому, что правительство Великобритании в 2014 году внесло поправки в свой закон об авторском праве, разрешив добычу контента в качестве ограничения и исключения . ^[38] Великобритания стала второй страной в мире, сделавшей это после Японии, которая в 2009 году ввела исключение для интеллектуального анализа данных. Однако из-за ограничений Директивы об информационном обществе (2001 г.) исключение для Великобритании разрешает добычу контента только в некоммерческих целях. Закон Великобритании об авторском праве также не позволяет отменять это положение договорными условиями. С 2020 года Швейцария также регулирует интеллектуальный анализ данных, разрешая его использование в исследовательской сфере при определенных условиях, предусмотренных ст. 24d Швейцарского закона об авторском праве. Эта новая статья вступила в силу 1 апреля 2020 года. ^[39]

Европейская комиссия способствовала обсуждению заинтересованных сторон по интеллектуальному анализу текста и данных в 2013 году под названием «Лицензии для Европы». ^[40] Акцент на решении этого юридического вопроса, такого как лицензирование, а не ограничения и исключения, привел к тому, что представители университетов, исследователей, библиотек, групп гражданского общества и издателей открытого доступа покинули диалог с заинтересованными сторонами в мае 2013 года. ^{[41] ]}

Ситуация в США

Закон США об авторском праве и, в частности, его положения о добросовестном использовании , поддерживают законность добычи контента в Америке и других странах добросовестного использования, таких как Израиль, Тайвань и Южная Корея. Поскольку интеллектуальный анализ контента является преобразующим, то есть не заменяет оригинальную работу, он считается законным при добросовестном использовании. Например, в рамках мирового соглашения по Google Book председательствующий судья постановил, что проект Google по оцифровке книг, защищенных авторскими правами, был законным, отчасти из-за преобразующего использования, которое продемонстрировал проект оцифровки, — одним из которых является интеллектуальный анализ текста и данных. ^[42]

Программное обеспечение

Бесплатное программное обеспечение и приложения для анализа данных с открытым исходным кодом

Следующие приложения доступны по бесплатным лицензиям или лицензиям с открытым исходным кодом. Также доступен публичный доступ к исходному коду приложения.

Carrot2 : структура кластеризации текста и результатов поиска.
Chemicalize.org : программа для анализа химических структур и поисковая система в Интернете.
ELKI : университетский исследовательский проект с расширенным кластерным анализом и методами обнаружения выбросов , написанный на языке Java .
GATE : инструмент обработки естественного языка и языковой инженерии.
KNIME : Konstanz Information Miner, удобная и комплексная платформа для анализа данных.
Массовый онлайн-анализ (MOA) : анализ больших потоков данных в реальном времени с помощью инструмента смещения концепций на языке программирования Java .
MEPX : кроссплатформенный инструмент для решения задач регрессии и классификации, основанный на варианте генетического программирования.
mlpack : набор готовых к использованию алгоритмов машинного обучения, написанных на языке C++ .
NLTK ( Набор инструментов естественного языка ): набор библиотек и программ для символьной и статистической обработки естественного языка (NLP) для языка Python .
OpenNN : открытая библиотека нейронных сетей .
Orange : пакет программного обеспечения для анализа данных и машинного обучения на основе компонентов, написанный на языке Python .
PSPP : программное обеспечение для интеллектуального анализа данных и статистики в рамках проекта GNU, аналогичное SPSS.
R : язык программирования и программная среда для статистических вычислений, интеллектуального анализа данных и графики. Это часть проекта GNU .
scikit-learn : библиотека машинного обучения с открытым исходным кодом для языка программирования Python;
Torch : библиотека глубокого обучения с открытым исходным кодом для языка программирования Lua и среды научных вычислений с широкой поддержкой алгоритмов машинного обучения .
UIMA : UIMA (архитектура управления неструктурированной информацией) — это компонентная среда для анализа неструктурированного контента, такого как текст, аудио и видео, первоначально разработанная IBM.
Weka : набор программных приложений для машинного обучения, написанных на языке программирования Java .

Запатентованное программное обеспечение и приложения для интеллектуального анализа данных

Следующие приложения доступны по проприетарным лицензиям.

Angoss KnowledgeSTUDIO: инструмент интеллектуального анализа данных
LIONsolver : интегрированное программное приложение для интеллектуального анализа данных, бизнес-аналитики и моделирования, реализующее подход обучения и интеллектуальной оптимизации (LION).
PolyAnalyst : программное обеспечение для анализа данных и текста от Megaputer Intelligence.
Microsoft Analysis Services : программное обеспечение для интеллектуального анализа данных, предоставляемое Microsoft .
NetOwl : набор многоязычных продуктов для анализа текста и объектов, которые позволяют осуществлять интеллектуальный анализ данных.
Oracle Data Mining : программное обеспечение для интеллектуального анализа данных от корпорации Oracle .
PSeven : платформа для автоматизации инженерного моделирования и анализа, междисциплинарной оптимизации и интеллектуального анализа данных, предоставляемая DATADVANCE .
Qlucore Omics Explorer: программное обеспечение для интеллектуального анализа данных.
RapidMiner : среда для экспериментов по машинному обучению и интеллектуальному анализу данных.
SAS Enterprise Miner : программное обеспечение для интеллектуального анализа данных, предоставленное Институтом SAS .
SPSS Modeler : программное обеспечение для интеллектуального анализа данных, предоставленное IBM .
STATISTICA Data Miner: программное обеспечение для интеллектуального анализа данных, предоставленное StatSoft .
Танагра : программное обеспечение для анализа данных, ориентированное на визуализацию, в том числе для обучения.
Vertica : программное обеспечение для интеллектуального анализа данных, предоставленное Hewlett-Packard .
Google Cloud Platform : автоматизированные пользовательские модели машинного обучения, управляемые Google .
Amazon SageMaker : управляемый сервис Amazon для создания и производства пользовательских моделей машинного обучения.

Смотрите также

Методы

Домены приложений

Примеры применения

похожие темы

Для получения дополнительной информации об извлечении информации из данных (в отличие от анализа данных) см.:

Другие источники

Международный журнал по хранению данных и майнингу

дальнейшее чтение

Кабена, Питер; Хаджниан, Пабло; Стадлер, Рольф; Верхеес, Яап; Занаси, Алессандро (1997); Открытие интеллектуального анализа данных: от концепции к реализации , Прентис Холл , ISBN 0-13-743980-6
М. С. Чен, Дж. Хан, П. С. Ю (1996) «Интеллектуальный анализ данных: обзор с точки зрения базы данных. Архивировано 3 марта 2016 г. на Wayback Machine ». Инженерия знаний и данных, транзакции IEEE на 8 (6), 866–883
Фельдман, Ронен; Сэнгер, Джеймс (2007); Справочник по анализу текста , издательство Кембриджского университета , ISBN 978-0-521-83657-9
Го, Йике; и Гроссман, Роберт (редакторы) (1999); Высокопроизводительный интеллектуальный анализ данных: алгоритмы масштабирования, приложения и системы , Kluwer Academic Publishers
Хан, Цзявэй , Мишлин Камбер и Цзянь Пей. Интеллектуальный анализ данных: концепции и методы . Морган Кауфманн, 2006.
Хасти, Тревор , Тибширани, Роберт и Фридман, Джером (2001); Элементы статистического обучения: интеллектуальный анализ данных, логический вывод и прогнозирование , Springer, ISBN 0-387-95284-5
Лю, Бин (2007, 2011); Интеллектуальный анализ веб-данных: изучение гиперссылок, содержимого и данных об использовании , Springer , ISBN 3-540-37881-2
Мерфи, Крис (16 мая 2011 г.). «Является ли интеллектуальный анализ данных свободой слова?». Информационная неделя : 12.
Нисбет, Роберт; Старейшина, Джон; Майнер, Гэри (2009); Справочник по приложениям статистического анализа и интеллектуального анализа данных , Academic Press / Elsevier, ISBN 978-0-12-374765-5
Понселе, Паскаль; Масселья, Флоран; и Тейссейр, Магелон (редакторы) (октябрь 2007 г.); «Шаблоны интеллектуального анализа данных: новые методы и приложения», Справочник по информатике , ISBN 978-1-59904-162-9
Тан, Пан-Нин; Штайнбах, Майкл; и Кумар, Випин (2005); Введение в интеллектуальный анализ данных , ISBN 0-321-32136-7
Теодоридис, Сергий; и Кутрумбас, Константинос (2009); Распознавание образов , 4-е издание, Academic Press, ISBN 978-1-59749-272-0
Вайс, Шолом М.; и Индурхья, Нитин (1998); Прогнозный анализ данных , Морган Кауфманн
Виттен, Ян Х .; Фрэнк, Эйбе; Холл, Марк А. (30 января 2011 г.). Интеллектуальный анализ данных: практические инструменты и методы машинного обучения (3-е изд.). Эльзевир. ISBN 978-0-12-374856-0.(См. также Бесплатное программное обеспечение Weka )
Йе, Нонг (2003); Справочник по интеллектуальному анализу данных , Махва, Нью-Джерси: Лоуренс Эрлбаум

Внешние ссылки

Викискладе есть медиафайлы, связанные с интеллектуальным анализом данных .

Программное обеспечение для поиска знаний в Curlie
Поставщики инструментов интеллектуального анализа данных в Curlie

Сбор данных

Этимология

Фон

Процесс

Предварительная обработка

Сбор данных

Проверка результатов

Исследовать

Стандарты

Известные применения

Проблемы конфиденциальности и этика

Ситуация в Европе

Ситуация в США

авторское право

Ситуация в Европе

Ситуация в США

Программное обеспечение

Бесплатное программное обеспечение и приложения для анализа данных с открытым исходным кодом

Запатентованное программное обеспечение и приложения для интеллектуального анализа данных

Смотрите также

Рекомендации

дальнейшее чтение

Внешние ссылки