stringtranslate.com

Сбор данных

Интеллектуальный анализ данных — это процесс извлечения и обнаружения закономерностей в больших наборах данных с использованием методов на стыке машинного обучения , статистики и систем баз данных . [1] Интеллектуальный анализ данных — это междисциплинарная область информатики и статистики , общей целью которой является извлечение информации (с помощью интеллектуальных методов) из набора данных и преобразование информации в понятную структуру для дальнейшего использования. [1] [2] [3] [4] Интеллектуальный анализ данных — это этап анализа процесса « обнаружения знаний в базах данных », или KDD. [5] Помимо этапа необработанного анализа, он также включает в себя аспекты управления базами данных и данными , предварительную обработку данных , соображения модели и вывода , показатели интересности, соображения сложности , постобработку обнаруженных структур, визуализацию и онлайн-обновление . [1]

Термин «интеллектуальный анализ данных» является неправильным , поскольку целью является извлечение закономерностей и знаний из больших объемов данных, а не извлечение ( добыча ) самих данных . [6] Это также модное слово [7] и часто применяется к любой форме крупномасштабной обработки данных или информации ( сбор , извлечение , складирование , анализ и статистика), а также к любому применению компьютерной системы поддержки принятия решений , включая искусственный интеллект (например, машинное обучение) и бизнес-аналитика . Часто более подходящими являются более общие термины ( крупномасштабный ) анализ данных и аналитика — или, если говорить о реальных методах, искусственный интеллект и машинное обучение .

Фактическая задача интеллектуального анализа данных — это полуавтоматический или автоматический анализ больших объемов данных для извлечения ранее неизвестных интересных закономерностей, таких как группы записей данных ( кластерный анализ ), необычные записи ( обнаружение аномалий ) и зависимости ( интеллектуальный анализ правил ассоциации , последовательный анализ шаблонов ). Обычно это предполагает использование методов работы с базами данных, таких как пространственные индексы . Эти шаблоны затем можно рассматривать как своего рода сводку входных данных и использовать в дальнейшем анализе или, например, в машинном обучении и прогнозной аналитике . Например, на этапе интеллектуального анализа данных можно идентифицировать несколько групп в данных, которые затем можно использовать для получения более точных результатов прогнозирования с помощью системы поддержки принятия решений . Ни сбор данных, их подготовка, ни интерпретация результатов и отчетность не являются частью этапа интеллектуального анализа данных, хотя они и входят в общий процесс KDD в качестве дополнительных этапов.

Разница между анализом данных и интеллектуальным анализом данных заключается в том, что анализ данных используется для проверки моделей и гипотез на наборе данных, например, для анализа эффективности маркетинговой кампании , независимо от объема данных. Напротив, интеллектуальный анализ данных использует машинное обучение и статистические модели для выявления тайных или скрытых закономерностей в большом объеме данных. [8]

Сопутствующие термины «выемка данных» , «ловля данных » и «отслеживание данных» относятся к использованию методов интеллектуального анализа данных для выборки частей более крупного набора данных о населении, которые (или могут быть) слишком малы для того, чтобы можно было сделать надежные статистические выводы о достоверности каких-либо данных. обнаружены закономерности. Однако эти методы можно использовать при создании новых гипотез для проверки на более крупных совокупностях данных.

Этимология

В 1960-х годах статистики и экономисты использовали такие термины, как вылов данных или сбор данных , чтобы обозначить то, что они считали плохой практикой анализа данных без априорной гипотезы. Термин «интеллектуальный анализ данных» столь же критично использовал экономист Майкл Ловелл в статье, опубликованной в « Обзоре экономических исследований» в 1983 году. [9] [10] Ловелл указывает, что эта практика «маскируется под различными псевдонимами, начиная от от «экспериментирования» (положительный) до «рыбалки» или «выслеживания» (отрицательный).

Термин интеллектуальный анализ данных появился примерно в 1990 году в сообществе баз данных и имел в целом положительный оттенок. В течение короткого времени в 1980-х годах использовалась фраза «интеллектуальный анализ баз данных»™, но поскольку она была зарегистрирована как торговая марка компании HNC, базирующейся в Сан-Диего , для продвижения своей рабочей станции для интеллектуального анализа данных; [11] исследователи впоследствии обратились к интеллектуальному анализу данных . Другие используемые термины включают археологию данных , сбор информации , обнаружение информации , извлечение знаний и т. д . Грегори Пятецкий-Шапиро придумал термин «обнаружение знаний в базах данных» для первого семинара по той же теме (KDD-1989), и этот термин стал более популярным. в сообществах искусственного интеллекта и машинного обучения . Однако термин интеллектуальный анализ данных стал более популярным в деловых кругах и прессе. [12] В настоящее время термины «добыча данных» и «обнаружение знаний» используются как синонимы.

Фон

Ручное извлечение закономерностей из данных происходило на протяжении веков. Ранние методы выявления закономерностей в данных включают теорему Байеса (1700-е годы) и регрессионный анализ (1800-е годы). [13] Распространение, повсеместное распространение и растущая мощь компьютерных технологий резко увеличили возможности сбора, хранения и манипулирования данными. По мере увеличения размера и сложности наборов данных прямой «практический» анализ данных все чаще дополняется косвенной автоматизированной обработкой данных, чему способствуют другие открытия в области информатики, особенно в области машинного обучения, такие как нейронные сети . кластерный анализ , генетические алгоритмы (1950-е годы), деревья решений и правила принятия решений (1960-е годы) и машины опорных векторов (1990-е годы). Интеллектуальный анализ данных — это процесс применения этих методов с целью выявления скрытых закономерностей. [14] в больших наборах данных. Он устраняет разрыв между прикладной статистикой и искусственным интеллектом (который обычно обеспечивает математическую основу) для управления базами данных , используя способ хранения и индексации данных в базах данных для более эффективного выполнения реальных алгоритмов обучения и обнаружения, позволяя применять такие методы для все большие наборы данных.

Процесс

Процесс обнаружения знаний в базах данных (KDD) обычно определяется этапами:

  1. Выбор
  2. Предварительная обработка
  3. Трансформация
  4. Сбор данных
  5. Интерпретация/оценка. [5]

Однако он существует во многих вариациях на эту тему, например, в Межотраслевом стандартном процессе интеллектуального анализа данных (CRISP-DM), который определяет шесть этапов:

  1. Понимание бизнеса
  2. Понимание данных
  3. Подготовка данных
  4. Моделирование
  5. Оценка
  6. Развертывание

или упрощенный процесс, такой как (1) предварительная обработка, (2) интеллектуальный анализ данных и (3) проверка результатов.

Опросы, проведенные в 2002, 2004, 2007 и 2014 годах, показывают, что методология CRISP-DM является ведущей методологией, используемой майнерами данных. [15] [16] [17] [18]

Единственным другим стандартом интеллектуального анализа данных, упомянутым в этих опросах, был SEMMA . Однако об использовании CRISP-DM сообщили в 3–4 раза больше людей. Несколько групп исследователей опубликовали обзоры моделей процессов интеллектуального анализа данных [19] , а Азеведо и Сантос провели сравнение CRISP-DM и SEMMA в 2008 году. [20]

Предварительная обработка

Прежде чем использовать алгоритмы интеллектуального анализа данных, необходимо собрать целевой набор данных. Поскольку интеллектуальный анализ данных может выявить только закономерности, действительно присутствующие в данных, целевой набор данных должен быть достаточно большим, чтобы содержать эти закономерности, оставаясь при этом достаточно кратким, чтобы его можно было проанализировать в течение приемлемого срока. Распространенным источником данных является витрина данных или хранилище данных . Предварительная обработка необходима для анализа многомерных наборов данных перед интеллектуальным анализом данных. Затем целевой набор очищается. Очистка данных удаляет наблюдения, содержащие шум , и наблюдения с отсутствующими данными .

Сбор данных

Интеллектуальный анализ данных включает в себя шесть распространенных классов задач: [5]

Проверка результатов

Пример данных, полученных в результате сбора данных с помощью бота, которым управляет статистик Тайлер Виген, по-видимому, демонстрирующий тесную связь между лучшим словом, выигравшим конкурс по правописанию, и количеством людей в Соединенных Штатах, убитых ядовитыми пауками.

Интеллектуальный анализ данных может быть использован непреднамеренно неправильно, что приведет к получению результатов, которые кажутся значительными, но на самом деле не предсказывают будущее поведение и не могут быть воспроизведены на новой выборке данных, поэтому от них мало пользы. Иногда это вызвано исследованием слишком большого количества гипотез и невыполнением надлежащей статистической проверки гипотез . Простая версия этой проблемы в машинном обучении известна как переоснащение , но одна и та же проблема может возникнуть на разных этапах процесса, и, таким образом, разделения обучения и тестирования — если оно вообще применимо — может быть недостаточно, чтобы предотвратить это. [21]

Последним шагом извлечения знаний из данных является проверка того, что закономерности, создаваемые алгоритмами интеллектуального анализа данных, встречаются в более широком наборе данных. Не все закономерности, найденные алгоритмами, обязательно действительны. Алгоритмы интеллектуального анализа данных обычно находят в обучающем наборе шаблоны, которых нет в общем наборе данных. Это называется переоснащением . Чтобы преодолеть эту проблему, при оценке используется тестовый набор данных, на котором алгоритм интеллектуального анализа данных не обучался. Изученные шаблоны применяются к этому набору тестов, а полученный результат сравнивается с желаемым результатом. Например, алгоритм интеллектуального анализа данных, пытающийся отличить «спам» от «законных» электронных писем, будет обучаться на обучающем наборе образцов электронных писем. После обучения изученные шаблоны будут применены к тестовому набору электронных писем, на которых они не были обучены. Затем точность шаблонов можно измерить по тому, сколько электронных писем они правильно классифицируют. Для оценки алгоритма можно использовать несколько статистических методов, например кривые ROC .

Если изученные закономерности не соответствуют желаемым стандартам, необходимо переоценить и изменить этапы предварительной обработки и интеллектуального анализа данных. Если изученные закономерности действительно соответствуют желаемым стандартам, то последним шагом является интерпретация изученных закономерностей и превращение их в знания.

Исследовать

Ведущей профессиональной организацией в этой области является Специальная группа по интересам (SIG) по обнаружению знаний и интеллектуальному анализу данных ( SIGKDD ) Ассоциации вычислительной техники (ACM ). [22] [23] С 1989 года этот ACM SIG проводит ежегодную международную конференцию и публикует ее материалы, [24] а с 1999 года он издает выходящий два раза в год академический журнал под названием «SIGKDD Explorations». [25]

Конференции по информатике, посвященные интеллектуальному анализу данных, включают:

Темы интеллектуального анализа данных также присутствуют на многих конференциях по управлению данными/базам данных, таких как конференция ICDE, конференция SIGMOD и международная конференция по очень большим базам данных .

Стандарты

Предпринимались некоторые попытки определить стандарты процесса интеллектуального анализа данных, например, Европейский межотраслевой стандарт процесса интеллектуального анализа данных 1999 года (CRISP-DM 1.0) и стандарт интеллектуального анализа данных Java 2004 года (JDM 1.0). Разработка преемников этих процессов (CRISP-DM 2.0 и JDM 2.0) велась активно в 2006 году, но с тех пор застопорилась. JDM 2.0 был отозван, так и не дойдя до окончательного проекта.

Для обмена извлеченными моделями, в частности для использования в прогнозной аналитике , ключевым стандартом является язык разметки прогнозных моделей (PMML), который представляет собой язык на основе XML , разработанный Data Mining Group (DMG) и поддерживаемый многими в качестве формата обмена. приложения для интеллектуального анализа данных. Как следует из названия, он охватывает только модели прогнозирования — конкретную задачу интеллектуального анализа данных, имеющую большое значение для бизнес-приложений. Однако расширения для охвата (например) кластеризации подпространств были предложены независимо от DMG. [26]

Известные применения

Интеллектуальный анализ данных используется везде, где есть цифровые данные. Яркие примеры интеллектуального анализа данных можно найти в бизнесе, медицине, науке, финансах, строительстве и надзоре.

Проблемы конфиденциальности и этика

Хотя сам термин «интеллектуальный анализ данных» может не иметь этических последствий, он часто ассоциируется со сбором информации о поведении пользователей (этическом и ином). [27]

Способы использования интеллектуального анализа данных в некоторых случаях и контекстах могут вызывать вопросы относительно конфиденциальности , законности и этики . [28] В частности, сбор данных правительственных или коммерческих наборов данных для целей национальной безопасности или правоохранительных органов , например, в программе Total Information Awareness Program или в ADVISE , вызвал проблемы конфиденциальности. [29] [30]

Интеллектуальный анализ данных требует подготовки данных, которая раскрывает информацию или закономерности, которые ставят под угрозу обязательства по конфиденциальности и неприкосновенности частной жизни . Распространенным способом достижения этой цели является агрегирование данных . Агрегация данных предполагает объединение данных (возможно, из различных источников) таким образом, чтобы облегчить анализ (но это также может сделать идентификацию частных данных индивидуального уровня выводимыми или иным образом очевидными). [31] Это не интеллектуальный анализ данных как таковой , а результат подготовки данных до и для целей анализа. Угроза конфиденциальности человека возникает, когда данные после компиляции позволяют сборщику данных или любому, кто имеет доступ к вновь скомпилированному набору данных, иметь возможность идентифицировать конкретных людей, особенно если данные изначально были анонимными. [32]

Рекомендуется [ по мнению кого? ] перед сбором данных необходимо учитывать следующее : [31]

Данные также могут быть изменены таким образом, чтобы стать анонимными, чтобы людей было трудно идентифицировать. [31] Однако даже « анонимизированные » наборы данных потенциально могут содержать достаточно информации, позволяющей идентифицировать отдельных лиц, как это произошло, когда журналистам удалось найти нескольких человек на основе набора историй поиска, которые были случайно опубликованы AOL. [33]

Непреднамеренное раскрытие личной информации, ведущей к поставщику, нарушает правила добросовестной обработки информации. Такая неосмотрительность может нанести финансовый, эмоциональный или телесный вред указанному лицу. В одном случае нарушения конфиденциальности покровители Walgreens подали иск против компании в 2011 году за продажу информации о рецептах компаниям, занимающимся сбором данных, которые, в свою очередь, предоставили данные фармацевтическим компаниям. [34]

Ситуация в Европе

В Европе действуют довольно строгие законы о конфиденциальности, и предпринимаются усилия по дальнейшему укреплению прав потребителей. Однако «Принципы безопасной гавани» США и ЕС , разработанные в период с 1998 по 2000 год, в настоящее время фактически подвергают европейских пользователей эксплуатации конфиденциальности со стороны американских компаний. В результате раскрытия информации о глобальной слежке Эдварда Сноудена усилились дискуссии об отмене этого соглашения, поскольку, в частности, данные будут полностью раскрыты Агентству национальной безопасности , а попытки достичь соглашения с Соединенными Штатами потерпели неудачу. [35]

В Соединенном Королевстве, в частности, были случаи, когда корпорации использовали интеллектуальный анализ данных как способ нацелиться на определенные группы клиентов, вынуждая их платить несправедливо высокие цены. Эти группы, как правило, представляют собой людей с более низким социально-экономическим статусом, которые не понимают, как их можно эксплуатировать на цифровых рынках. [36]

Ситуация в США

В Соединенных Штатах проблемы конфиденциальности были решены Конгрессом США посредством принятия нормативного контроля, такого как Закон о переносимости и подотчетности медицинского страхования (HIPAA). HIPAA требует, чтобы люди давали «информированное согласие» в отношении предоставляемой ими информации и ее предполагаемого использования в настоящем и будущем. Согласно статье в журнале Biotech Business Week , «на практике HIPAA не может предложить большей защиты, чем давние правила в сфере исследований», — говорится в AAHC. Что еще более важно, цель этого правила — защита посредством информированного согласия. приблизиться к уровню непостижимости для обычных людей». [37] Это подчеркивает необходимость анонимности данных в практиках агрегирования и анализа данных.

Законодательство США о конфиденциальности информации, такое как HIPAA и Закон о правах семьи на образование и конфиденциальность (FERPA), применяется только к конкретным областям, которые затрагивает каждый из таких законов. Использование интеллектуального анализа данных большинством предприятий в США не контролируется никаким законодательством.

авторское право

Ситуация в Европе

В соответствии с европейскими законами о базах данных об авторских правах , майнинг произведений, защищенных авторскими правами (например, веб-майнинг ) без разрешения владельца авторских прав не является законным. Если в Европе база данных представляет собой чистые данные, авторские права могут отсутствовать, но права на базу данных могут существовать, поэтому интеллектуальный анализ данных становится предметом прав владельцев интеллектуальной собственности , которые защищены Директивой о базах данных . По рекомендации обзора Харгривса это привело к тому, что правительство Великобритании в 2014 году внесло поправки в свой закон об авторском праве, разрешив добычу контента в качестве ограничения и исключения . [38] Великобритания стала второй страной в мире, сделавшей это после Японии, которая в 2009 году ввела исключение для интеллектуального анализа данных. Однако из-за ограничений Директивы об информационном обществе (2001 г.) исключение для Великобритании разрешает добычу контента только в некоммерческих целях. Закон Великобритании об авторском праве также не позволяет отменять это положение договорными условиями. С 2020 года Швейцария также регулирует интеллектуальный анализ данных, разрешая его использование в исследовательской сфере при определенных условиях, предусмотренных ст. 24d Швейцарского закона об авторском праве. Эта новая статья вступила в силу 1 апреля 2020 года. [39]

Европейская комиссия способствовала обсуждению заинтересованных сторон по интеллектуальному анализу текста и данных в 2013 году под названием «Лицензии для Европы». [40] Акцент на решении этого юридического вопроса, такого как лицензирование, а не ограничения и исключения, привел к тому, что представители университетов, исследователей, библиотек, групп гражданского общества и издателей открытого доступа покинули диалог с заинтересованными сторонами в мае 2013 года. [41] ]

Ситуация в США

Закон США об авторском праве и, в частности, его положения о добросовестном использовании , поддерживают законность добычи контента в Америке и других странах добросовестного использования, таких как Израиль, Тайвань и Южная Корея. Поскольку интеллектуальный анализ контента является преобразующим, то есть не заменяет оригинальную работу, он считается законным при добросовестном использовании. Например, в рамках мирового соглашения по Google Book председательствующий судья постановил, что проект Google по оцифровке книг, защищенных авторскими правами, был законным, отчасти из-за преобразующего использования, которое продемонстрировал проект оцифровки, — одним из которых является интеллектуальный анализ текста и данных. [42]

Программное обеспечение

Бесплатное программное обеспечение и приложения для анализа данных с открытым исходным кодом

Следующие приложения доступны по бесплатным лицензиям или лицензиям с открытым исходным кодом. Также доступен публичный доступ к исходному коду приложения.

Запатентованное программное обеспечение и приложения для интеллектуального анализа данных

Следующие приложения доступны по проприетарным лицензиям.

Смотрите также

Методы
Домены приложений
Примеры применения
похожие темы

Для получения дополнительной информации об извлечении информации из данных (в отличие от анализа данных) см.:

Другие источники

Рекомендации

  1. ^ abc «Учебная программа по интеллектуальному анализу данных». АСМ СИГКДД . 30 апреля 2006 г. Архивировано из оригинала 14 октября 2013 г. Проверено 27 января 2014 г.
  2. ^ Клифтон, Кристофер (2010). «Британская энциклопедия: определение интеллектуального анализа данных». Архивировано из оригинала 5 февраля 2011 г. Проверено 9 декабря 2010 г.
  3. ^ Хасти, Тревор ; Тибширани, Роберт ; Фридман, Джером (2009). «Элементы статистического обучения: интеллектуальный анализ данных, логический вывод и прогнозирование». Архивировано из оригинала 10 ноября 2009 г. Проверено 7 августа 2012 г.
  4. ^ Хан, Джайвэй ; Камбер, Мишлин; Пей, Цзянь (2011). Интеллектуальный анализ данных: концепции и методы (3-е изд.). Морган Кауфманн. ISBN 978-0-12-381479-1.
  5. ^ abc Файяд, Усама ; Пятецкий-Шапиро, Григорий ; Смит, Падрайк (1996). «От интеллектуального анализа данных к обнаружению знаний в базах данных» (PDF) . Архивировано (PDF) из оригинала 9 октября 2022 г. Проверено 17 декабря 2008 г.
  6. ^ Хан, Цзявэй ; Камбер, Мишлин (2001). Интеллектуальный анализ данных: концепции и методы . Морган Кауфманн . п. 5. ISBN 978-1-55860-489-6. Таким образом, интеллектуальный анализ данных следовало бы назвать «извлечение знаний из данных», что, к сожалению, несколько длинное.
  7. ^ Осенняя конференция OKAIRP 2005 г., Университет штата Аризона. Архивировано 1 февраля 2014 г. в Wayback Machine.
  8. ^ Олсон, DL (2007). Интеллектуальный анализ данных в бизнес-услугах. Сервисное дело , 1 (3), 181–193. дои : 10.1007/s11628-006-0014-7
  9. ^ Ловелл, Майкл К. (1983). "Сбор данных". Обзор экономики и статистики . 65 (1): 1–12. дои : 10.2307/1924403. JSTOR  1924403.
  10. ^ Чаремза, Войцех В.; Мертвец, Дерек Ф. (1992). "Сбор данных". Новые направления в эконометрической практике . Олдершот: Эдвард Элгар. стр. 14–31. ISBN 1-85278-461-Х.
  11. ^ Мена, Хесус (2011). Криминалистика машинного обучения для правоохранительных органов, безопасности и разведки . Бока-Ратон, Флорида: CRC Press (Taylor & Francisco Group). ISBN 978-1-4398-6069-4.
  12. ^ Пятецкий-Шапиро, Григорий ; Паркер, Гэри (2011). «Урок: интеллектуальный анализ данных и обнаружение знаний: введение». Введение в интеллектуальный анализ данных . КД Наггетс. Архивировано из оригинала 30 августа 2012 года . Проверено 30 августа 2012 г.
  13. ^ Коэнен, Франс (7 февраля 2011 г.). «Интеллектуальный анализ данных: прошлое, настоящее и будущее». Обзор инженерии знаний . 26 (1): 25–29. дои : 10.1017/S0269888910000378. ISSN  0269-8889. S2CID  6487637. Архивировано из оригинала 02 июля 2023 г. Проверено 4 сентября 2021 г.
  14. ^ Кантарджич, Мехмед (2003). Интеллектуальный анализ данных: концепции, модели, методы и алгоритмы . Джон Уайли и сыновья. ISBN 978-0-471-22852-3. ОСЛК  50055336.
  15. ^ «Какую основную методологию вы используете для интеллектуального анализа данных (2002)?». КДнаггетс . 2002. Архивировано из оригинала 16 января 2017 года . Проверено 29 декабря 2023 г.
  16. ^ «Какую основную методологию вы используете для интеллектуального анализа данных (2004 г.)?». КДнаггетс . 2004. Архивировано из оригинала 8 февраля 2017 года . Проверено 29 декабря 2023 г.
  17. ^ «Какую основную методологию вы используете для интеллектуального анализа данных (2007)?». КДнаггетс . 2007. Архивировано из оригинала 17 ноября 2012 года . Проверено 29 декабря 2023 г.
  18. ^ «Какую основную методологию вы используете для интеллектуального анализа данных (2014)?». КДнаггетс . 2014. Архивировано из оригинала 1 августа 2016 года . Проверено 29 декабря 2023 г.
  19. ^ Лукаш Курган и Петр Мусилек: «Обзор моделей процессов обнаружения знаний и интеллектуального анализа данных». Архивировано 26 мая 2013 г. в Wayback Machine . Обзор инженерии знаний . Том 21, выпуск 1, март 2006 г., стр. 1–24, Cambridge University Press, Нью-Йорк, doi : 10.1017/S0269888906000737
  20. ^ Азеведо, А. и Сантос, М.Ф. KDD, SEMMA и CRISP-DM: параллельный обзор. Архивировано 9 января 2013 г. в Wayback Machine . В материалах Европейской конференции IADIS по интеллектуальному анализу данных, 2008 г., стр. 182–185.
  21. ^ Хокинс, Дуглас М. (2004). «Проблема переобучения». Журнал химической информации и компьютерных наук . 44 (1): 1–12. дои : 10.1021/ci0342472. PMID  14741005. S2CID  12440383.
  22. ^ «Microsoft Academic Search: Лучшие конференции по интеллектуальному анализу данных» . Академический поиск Microsoft . Архивировано из оригинала 19 ноября 2014 г. Проверено 13 июня 2014 г.
  23. ^ «Академия Google: Лучшие публикации — интеллектуальный анализ и анализ данных» . Google Scholar . Архивировано из оригинала 10 февраля 2023 г. Проверено 11 июня 2022 г.
  24. ^ Материалы, заархивированные 30 апреля 2010 г. на Wayback Machine , Международные конференции по открытию знаний и интеллектуальному анализу данных, ACM, Нью-Йорк.
  25. ^ Исследования SIGKDD. Архивировано 29 июля 2010 г. в Wayback Machine , ACM, Нью-Йорк.
  26. ^ Гюннеманн, Стефан; Кремер, Харди; Зайдль, Томас (2011). «Расширение стандарта PMML на модели подпространственной кластеризации». Материалы семинара 2011 года по прогнозному моделированию языка разметки . п. 48. дои : 10.1145/2023598.2023605. ISBN 978-1-4503-0837-3. S2CID  14967969.
  27. ^ Зельцер, Уильям (2005). «Перспективы и подводные камни интеллектуального анализа данных: этические проблемы» (PDF) . Раздел ASA по государственной статистике . Американская статистическая ассоциация. Архивировано (PDF) из оригинала 9 октября 2022 г.
  28. ^ Питтс, Чип (15 марта 2007 г.). «Конец незаконному внутреннему шпионажу? Не рассчитывайте на это». Вашингтонский зритель . Архивировано из оригинала 28 ноября 2007 г.
  29. Тайпале, Ким А. (15 декабря 2003 г.). «Интеллектуальный анализ данных и внутренняя безопасность: соединить точки, чтобы понять смысл данных». Обзор законодательства Колумбийского университета в области науки и технологий . 5 (2). OCLC  45263753. SSRN  546782. Архивировано из оригинала 5 ноября 2014 года . Проверено 21 апреля 2004 г.
  30. ^ Резиг, Джон. «Структура для майнинга служб обмена мгновенными сообщениями» (PDF) . Архивировано (PDF) из оригинала 9 октября 2022 г. Проверено 16 марта 2018 г.
  31. ^ abc Подумайте, прежде чем копать: последствия интеллектуального анализа и агрегирования данных для конфиденциальности. Архивировано 17 декабря 2008 г. в Wayback Machine , Краткий обзор исследования NASCIO, сентябрь 2004 г.
  32. ^ Ом, Пол. «Не создавайте базу данных разрушений». Гарвардское деловое обозрение .
  33. ^ Данные поиска AOL идентифицировали отдельных лиц. Архивировано 6 января 2010 г. в Wayback Machine , SecurityFocus, август 2006 г.
  34. ^ Кшетри, Нир (2014). «Влияние больших данных на конфиденциальность, безопасность и благосостояние потребителей» (PDF) . Телекоммуникационная политика . 38 (11): 1134–1145. doi :10.1016/j.telpol.2014.10.002. Архивировано (PDF) из оригинала 19 июня 2018 г. Проверено 20 апреля 2018 г.
  35. ^ Вайс, Мартин А.; Арчик, Кристин (19 мая 2016 г.). «Конфиденциальность данных США и ЕС: от безопасной гавани к щиту конфиденциальности». Вашингтон, округ Колумбия Исследовательская служба Конгресса. п. 6. Р44257. Архивировано из оригинала (PDF) 9 апреля 2020 года . Проверено 9 апреля 2020 г. 6 октября 2015 г. СЕС  ... принял решение, которое признало недействительной «Безопасную гавань» (вступившую в силу немедленно) в том виде, в котором она действует в настоящее время.
  36. ^ Паркер, Джордж (30 сентября 2018 г.). «Британские компании нацелены на использование больших данных для эксплуатации клиентов». Файнэншл Таймс . Архивировано из оригинала 10 декабря 2022 г. Проверено 4 декабря 2022 г.
  37. ^ Редакторы Biotech Business Week (30 июня 2008 г.); БИОМЕДИЦИНА; Правило конфиденциальности HIPAA препятствует биомедицинским исследованиям , Biotech Business Week, получено 17 ноября 2009 г. из LexisNexis Academic.
  38. ^ Британские исследователи получили право на интеллектуальный анализ данных в соответствии с новыми законами Великобритании об авторском праве. Архивировано 9 июня 2014 года на сайте Wayback Machine Out-Law.com. Проверено 14 ноября 2014 г.
  39. ^ "Федлекс". Архивировано из оригинала 16 декабря 2021 г. Проверено 16 декабря 2021 г.
  40. ^ «Лицензии для Европы - Структурированный диалог заинтересованных сторон, 2013» . Европейская комиссия . Архивировано из оригинала 23 марта 2013 года . Проверено 14 ноября 2014 г.
  41. ^ «Интеллектуальный анализ текста и данных: его важность и необходимость изменений в Европе». Ассоциация европейских исследовательских библиотек . Архивировано из оригинала 29 ноября 2014 года . Проверено 14 ноября 2014 г.
  42. ^ «Судья выносит решение в порядке упрощенного судопроизводства в пользу Google Книги – победа в области добросовестного использования» . Лексология.com . Antonelli Law Ltd. 19 ноября 2013 г. Архивировано из оригинала 29 ноября 2014 г. . Проверено 14 ноября 2014 г.

дальнейшее чтение

Внешние ссылки