stringtranslate.com

Стандартный межотраслевой процесс добычи данных

Процесс межотраслевого стандарта для добычи данных , известный как CRISP-DM , [1] является открытой стандартной моделью процесса, которая описывает общие подходы, используемые экспертами по добыче данных . Это наиболее широко используемая аналитическая модель. [2]

В 2015 году IBM выпустила новую методологию под названием Analytics Solutions Unified Method for Data Mining/Predictive Analytics [3] [4] (также известную как ASUM-DM), которая совершенствует и расширяет CRISP-DM.

История

CRISP-DM был задуман в 1996 году и стал проектом Европейского Союза в рамках инициативы финансирования ESPRIT в 1997 году. Проект возглавляли пять компаний: Integral Solutions Ltd (ISL), Teradata , Daimler AG , NCR Corporation и страховая компания OHRA.

Этот основной консорциум привнес в проект различный опыт. ISL, позже был приобретен и объединен в SPSS . Компьютерный гигант NCR Corporation создал хранилище данных Teradata и собственное программное обеспечение для интеллектуального анализа данных. У Daimler-Benz была значительная команда по интеллектуальному анализу данных. OHRA начала изучать потенциальное использование интеллектуального анализа данных.

Первая версия методологии была представлена ​​на 4-м семинаре CRISP-DM SIG в Брюсселе в марте 1999 года [5] и опубликована в виде пошагового руководства по интеллектуальному анализу данных позднее в том же году [6] .

В период с 2006 по 2008 год была сформирована группа CRISP-DM 2.0 SIG, и велись обсуждения по поводу обновления модели процесса CRISP-DM. [7] Текущее состояние этих усилий неизвестно. Однако первоначальный веб-сайт crisp-dm.org, упомянутый в обзорах, [8] [9] и веб-сайт CRISP-DM 2.0 SIG больше не активны. [7]

В то время как многие специалисты по добыче данных, не работающие в IBM, используют CRISP-DM, [10] [11] [12] IBM является основной корпорацией, которая в настоящее время использует модель процесса CRISP-DM. Она делает некоторые старые документы CRISP-DM доступными для загрузки и включила их в свой продукт SPSS Modeler . [6]

На основе текущих исследований CRISP-DM является наиболее широко используемой формой модели добычи данных из-за ее различных преимуществ, которые решили существующие проблемы в отраслях добычи данных. Некоторые из недостатков этой модели заключаются в том, что она не выполняет деятельность по управлению проектами. Успех CRISP-DM во многом объясняется тем, что она нейтральна к отрасли, инструментам и приложениям. [13]

Основные фазы

Схема процесса, показывающая взаимосвязь между различными фазами CRISP-DM

CRISP-DM разбивает процесс анализа данных на шесть основных этапов: [14]

Последовательность фаз не является строгой, и обычно требуется перемещение вперед и назад между различными фазами. Стрелки на диаграмме процесса указывают на наиболее важные и частые зависимости между фазами. Внешний круг на диаграмме символизирует циклическую природу самого процесса добычи данных. Процесс добычи данных продолжается после развертывания решения. Уроки, извлеченные в ходе процесса, могут вызвать новые, часто более конкретные бизнес-вопросы, и последующие процессы добычи данных выиграют от опыта предыдущих.

Опросы и альтернативные структуры процесса

Опросы, проведенные на том же сайте ( KDNuggets ) в 2002, 2004, 2007 и 2014 годах, показывают, что это была ведущая методология, используемая отраслевыми майнерами данных, которые решили ответить на опрос. [10] [11] [12] [15] Единственным другим подходом к добыче данных, названным в этих опросах, был SEMMA . Однако SAS Institute четко заявляет, что SEMMA не является методологией добычи данных, а скорее «логической организацией функционального набора инструментов SAS Enterprise Miner». Обзор и критика моделей процессов добычи данных в 2009 году назвали CRISP-DM «фактическим стандартом для разработки проектов добычи данных и обнаружения знаний». [16] Другие обзоры CRISP-DM и моделей процессов добычи данных включают обзор Кургана и Мусилека 2006 года [8] и сравнение CRISP-DM и SEMMA Азеведо и Сантоса 2008 года. [9] Попытки обновить методологию начались в 2006 году, но по состоянию на июнь 2015 года не привели к появлению новой версии, а «специальная группа по интересам» (SIG), ответственная за нее, и веб-сайт давно исчезли (см. Историю CRISP-DM).

В 2024 году Harvard Business Review опубликовал обновленную структуру bizML, которая разработана для большей релевантности для бизнес-персонала и предназначена специально для проектов машинного обучения , а не для проектов аналитики , науки о данных или интеллектуального анализа данных в целом. [17]

Ссылки

  1. ^ Ширер К., Модель CRISP-DM: новый план интеллектуального анализа данных , J Data Warehousing (2000); 5:13—22.
  2. ^ Что ИТ-специалистам необходимо знать о процессе добычи данных. Опубликовано Forbes 29 июля 2015 г., получено 24 июня 2018 г.
  3. ^ Вы видели ASUM-DM?, Джейсон Хаффар, 16 октября 2015 г., SPSS Predictive Analytics, IBM Архивировано 8 марта 2016 г. на Wayback Machine
  4. ^ Унифицированный метод аналитических решений — Реализации с принципами Agile Опубликовано IBM 1 марта 2016 г., получено 5 октября 2018 г.
  5. ^ Пит Чепмен (1999); Руководство пользователя CRISP-DM.
  6. ^ ab Пит Чепмен, Джулиан Клинтон, Рэнди Кербер, Томас Хабаза, Томас Рейнарц, Колин Ширер и Рюдигер Вирт (2000); Руководство пользователя CRISP-DM (статья о семантическом ученом, включая ссылки на PDF-файлы), (PDF-версия с графикой высокого разрешения. Архивировано 12 сентября 2020 г. на Wayback Machine ).
  7. ^ ab Колин Ширер (2006); Проведен первый семинар CRISP-DM 2.0
  8. ^ ab Лукаш Курган и Петр Мусилек (2006); Обзор моделей процессов обнаружения знаний и добычи данных. Обзор инженерии знаний. Том 21, выпуск 1, март 2006 г., стр. 1–24, Cambridge University Press, Нью-Йорк, США, doi: 10.1017/S0269888906000737.
  9. ^ ab Azevedo, A. и Santos, MF (2008); KDD, SEMMA и CRISP-DM: параллельный обзор. В трудах Европейской конференции IADIS по интеллектуальному анализу данных 2008 г., стр. 182–185.
  10. ^ ab Грегори Пятецкий-Шапиро (2002); Методология опроса KDnuggets
  11. ^ ab Грегори Пятецкий-Шапиро (2004); Методология опроса KDnuggets
  12. ^ ab Грегори Пятецкий-Шапиро (2007); Методология опроса KDnuggets
  13. ^ Марискаль, Г., Марбан, О., Фернандес, К. (2010). «Обзор моделей и методологий процесса добычи данных и обнаружения знаний». Обзор инженерии знаний . 25 (2): 137–166. doi :10.1017/S0269888910000032. S2CID  31359633.{{cite journal}}: CS1 maint: несколько имен: список авторов ( ссылка )
  14. ^ Харпер, Гэвин; Стивен Д. Пикетт (август 2006 г.). «Методы добычи данных HTS». Drug Discovery Today . 11 (15–16): 694–699. doi :10.1016/j.drudis.2006.06.006. PMID  16846796.
  15. ^ Григорий Пятецкий-Шапиро (2014); Методологический опрос KDnuggets
  16. ^ Мартинес-Плумед, Фернандо; Контрерас-Очандо, Лидия; Ферри, Сезар; Флах, Питер; Эрнандес-Оралло, Хосе; Кулл, Меэлис; Лашиш, Николя; Рамирес-Кинтана, Мария Хосе (19 сентября 2017 г.). «CASP-DM: Стандартный контекстно-зависимый процесс интеллектуального анализа данных». arXiv : 1709.09003 [cs.DB].
  17. ^ Эрик Сигел (2024); Как реализовать проекты машинного обучения от идеи до реализации