Процесс межотраслевого стандарта для добычи данных , известный как CRISP-DM , [1] является открытой стандартной моделью процесса, которая описывает общие подходы, используемые экспертами по добыче данных . Это наиболее широко используемая аналитическая модель. [2]
В 2015 году IBM выпустила новую методологию под названием Analytics Solutions Unified Method for Data Mining/Predictive Analytics [3] [4] (также известную как ASUM-DM), которая совершенствует и расширяет CRISP-DM.
CRISP-DM был задуман в 1996 году и стал проектом Европейского Союза в рамках инициативы финансирования ESPRIT в 1997 году. Проект возглавляли пять компаний: Integral Solutions Ltd (ISL), Teradata , Daimler AG , NCR Corporation и страховая компания OHRA.
Этот основной консорциум привнес в проект различный опыт. ISL, позже был приобретен и объединен в SPSS . Компьютерный гигант NCR Corporation создал хранилище данных Teradata и собственное программное обеспечение для интеллектуального анализа данных. У Daimler-Benz была значительная команда по интеллектуальному анализу данных. OHRA начала изучать потенциальное использование интеллектуального анализа данных.
Первая версия методологии была представлена на 4-м семинаре CRISP-DM SIG в Брюсселе в марте 1999 года [5] и опубликована в виде пошагового руководства по интеллектуальному анализу данных позднее в том же году [6] .
В период с 2006 по 2008 год была сформирована группа CRISP-DM 2.0 SIG, и велись обсуждения по поводу обновления модели процесса CRISP-DM. [7] Текущее состояние этих усилий неизвестно. Однако первоначальный веб-сайт crisp-dm.org, упомянутый в обзорах, [8] [9] и веб-сайт CRISP-DM 2.0 SIG больше не активны. [7]
В то время как многие специалисты по добыче данных, не работающие в IBM, используют CRISP-DM, [10] [11] [12] IBM является основной корпорацией, которая в настоящее время использует модель процесса CRISP-DM. Она делает некоторые старые документы CRISP-DM доступными для загрузки и включила их в свой продукт SPSS Modeler . [6]
На основе текущих исследований CRISP-DM является наиболее широко используемой формой модели добычи данных из-за ее различных преимуществ, которые решили существующие проблемы в отраслях добычи данных. Некоторые из недостатков этой модели заключаются в том, что она не выполняет деятельность по управлению проектами. Успех CRISP-DM во многом объясняется тем, что она нейтральна к отрасли, инструментам и приложениям. [13]
CRISP-DM разбивает процесс анализа данных на шесть основных этапов: [14]
Последовательность фаз не является строгой, и обычно требуется перемещение вперед и назад между различными фазами. Стрелки на диаграмме процесса указывают на наиболее важные и частые зависимости между фазами. Внешний круг на диаграмме символизирует циклическую природу самого процесса добычи данных. Процесс добычи данных продолжается после развертывания решения. Уроки, извлеченные в ходе процесса, могут вызвать новые, часто более конкретные бизнес-вопросы, и последующие процессы добычи данных выиграют от опыта предыдущих.
Опросы, проведенные на том же сайте ( KDNuggets ) в 2002, 2004, 2007 и 2014 годах, показывают, что это была ведущая методология, используемая отраслевыми майнерами данных, которые решили ответить на опрос. [10] [11] [12] [15] Единственным другим подходом к добыче данных, названным в этих опросах, был SEMMA . Однако SAS Institute четко заявляет, что SEMMA не является методологией добычи данных, а скорее «логической организацией функционального набора инструментов SAS Enterprise Miner». Обзор и критика моделей процессов добычи данных в 2009 году назвали CRISP-DM «фактическим стандартом для разработки проектов добычи данных и обнаружения знаний». [16] Другие обзоры CRISP-DM и моделей процессов добычи данных включают обзор Кургана и Мусилека 2006 года [8] и сравнение CRISP-DM и SEMMA Азеведо и Сантоса 2008 года. [9] Попытки обновить методологию начались в 2006 году, но по состоянию на июнь 2015 года не привели к появлению новой версии, а «специальная группа по интересам» (SIG), ответственная за нее, и веб-сайт давно исчезли (см. Историю CRISP-DM).
В 2024 году Harvard Business Review опубликовал обновленную структуру bizML, которая разработана для большей релевантности для бизнес-персонала и предназначена специально для проектов машинного обучения , а не для проектов аналитики , науки о данных или интеллектуального анализа данных в целом. [17]
{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка )