Изменение статистических свойств с течением времени
В предиктивной аналитике , науке о данных , машинном обучении и смежных областях дрейф концепции или дрейф — это эволюция данных, которая делает модель данных недействительной . Это происходит, когда статистические свойства целевой переменной, которую модель пытается предсказать, со временем изменяются непредвиденным образом. Это вызывает проблемы, поскольку прогнозы становятся менее точными с течением времени. Обнаружение дрейфа и адаптация к дрейфу имеют первостепенное значение в областях, которые включают динамически изменяющиеся данные и модели данных.
Распад прогностической модели
В машинном обучении и предиктивной аналитике это явление дрейфа называется дрейфом концепций. В машинном обучении общим элементом модели данных являются статистические свойства, такие как распределение вероятностей фактических данных. Если они отклоняются от статистических свойств набора обучающих данных , то полученные предсказания могут стать недействительными, если дрейф не устранен. [1] [2] [3] [4]
Ухудшение конфигурации данных
Другой важной областью является программная инженерия , где можно распознать три типа дрейфа данных, влияющих на точность данных . Изменения в программной среде («дрейф инфраструктуры») могут сделать конфигурацию программной инфраструктуры недействительной. «Структурный дрейф» происходит, когда изменяется схема данных , что может сделать базы данных недействительными. «Семантический дрейф» — это изменение смысла данных, при этом структура не меняется. Во многих случаях это может происходить в сложных приложениях, когда многие независимые разработчики вносят изменения без должного понимания последствий своих изменений в других областях программной системы. [5] [6]
Для многих прикладных систем характер данных, с которыми они работают, может меняться по разным причинам, например, из-за изменений в бизнес-модели, обновлений системы или переключения платформы, на которой работает система. [6]
В случае облачных вычислений дрейф инфраструктуры, который может повлиять на приложения, работающие в облаке, может быть вызван обновлениями облачного программного обеспечения. [5]
Существует несколько типов пагубных последствий дрейфа данных для точности данных. Коррозия данных — это передача дрейфованных данных в систему незамеченными. Потеря данных происходит, когда допустимые данные игнорируются из-за несоответствия применяемой схеме. Разбазаривание — это явление, когда новые поля данных вводятся выше по конвейеру обработки данных, но где-то ниже по течению поля данных отсутствуют. [6]
Непоследовательные данные
«Дрейф данных» может относиться к явлению, когда записи базы данных не соответствуют реальным данным из-за изменений в последних с течением времени. Это распространенная проблема с базами данных, включающими людей, таких как клиенты, сотрудники, граждане, жители и т. д. Дрейф данных о людях может быть вызван незарегистрированными изменениями в персональных данных, таких как место жительства или имя, а также ошибками при вводе данных. [7]
«Дрейф данных» может также относиться к несоответствию элементов данных между несколькими репликами базы данных. Причины могут быть трудно определить. Простое обнаружение дрейфа — это регулярный запуск контрольной суммы . Однако средство может быть не таким простым. [8]
Примеры
Поведение покупателей в интернет-магазине может со временем меняться. Например, если нужно спрогнозировать еженедельные продажи товаров, и была разработана прогностическая модель , которая работает удовлетворительно. Модель может использовать такие входные данные, как сумма денег, потраченных на рекламу , проводимые акции и другие показатели, которые могут повлиять на продажи. Модель, скорее всего, будет становиться все менее и менее точной с течением времени — это дрейф концепций. В приложении по продажам товаров одной из причин дрейфа концепций может быть сезонность, что означает, что поведение покупателей меняется сезонно. Возможно, в зимний праздничный сезон продажи будут выше, чем летом, например. Дрейф концепций обычно происходит, когда ковариаты, составляющие набор данных, начинают менее точно объяснять вариацию вашего целевого набора — могут возникнуть некоторые смешивающие переменные, которые просто невозможно учесть, что приводит к постепенному снижению точности модели со временем. Как правило, рекомендуется выполнять проверки работоспособности в рамках постпроизводственного анализа и повторно обучать модель с новыми предположениями при признаках дрейфа концепций.
Возможные средства правовой защиты
Чтобы предотвратить ухудшение точности прогнозирования из-за дрейфа концепций, можно использовать реактивные и отслеживающие решения. Реактивные решения переобучают модель в ответ на триггерный механизм, такой как тест обнаружения изменений, [9] [10] чтобы явно обнаружить дрейф концепций как изменение в статистике процесса генерации данных. Когда обнаруживается дрейф концепций, текущая модель больше не актуальна и должна быть заменена новой для восстановления точности прогнозирования. [11] [12] Недостатком реактивных подходов является то, что производительность может снижаться до тех пор, пока не будет обнаружено изменение. Решения отслеживания стремятся отслеживать изменения в концепции путем постоянного обновления модели. Методы достижения этого включают онлайн-машинное обучение , частое переобучение на самых последних наблюдаемых образцах, [13] и поддержание ансамбля классификаторов, где один новый классификатор обучается на самой последней партии примеров и заменяет самый старый классификатор в ансамбле. [14]
Контекстная информация, если она доступна, может быть использована для лучшего объяснения причин дрейфа концепций: например, в приложении прогнозирования продаж дрейф концепций может быть компенсирован путем добавления в модель информации о сезоне. При предоставлении информации о времени года скорость ухудшения вашей модели, вероятно, уменьшится, но дрейф концепций вряд ли будет полностью устранен. Это связано с тем, что фактическое поведение покупателей не следует какой-либо статической, конечной модели . В любое время могут возникнуть новые факторы, которые повлияют на поведение покупателей, влияние известных факторов или их взаимодействие могут измениться.
Концептуального дрейфа невозможно избежать для сложных явлений, которые не управляются фиксированными законами природы . Все процессы, возникающие в результате человеческой деятельности, такие как социально-экономические процессы и биологические процессы , вероятно, будут испытывать концептуальный дрейф. Поэтому необходима периодическая переподготовка, также известная как обновление, любой модели.
Смотрите также
Дальнейшее чтение
Было опубликовано много статей, описывающих алгоритмы обнаружения дрейфа концепций. Здесь только обзоры, обзоры и обзоры:
Обзоры
- Souza, VMA; Reis, DM; Maletzke, AG; Batista, GEAPA (2020). «Проблемы сравнительного анализа алгоритмов потокового обучения с реальными данными». Data Mining and Knowledge Discovery . 34 (6): 1805–58. arXiv : 2005.00113 . doi : 10.1007/s10618-020-00698-5. S2CID 218470010.
- Кравчик, Б.; Минку, LL; Гама, Дж.; Стефановский, Дж.; Возняк, М. (2017). «Ансамблевое обучение для анализа потоков данных: опрос». Информационный синтез . 37 : 132–156. doi :10.1016/j.inffus.2017.02.004. hdl : 2381/39321 . S2CID 1372281.
- Dal Pozzolo, A.; Boracchi, G.; Caelen, O.; Alippi, C.; Bontempi, G. (2015). «Обнаружение мошенничества с кредитными картами и адаптация дрейфа концепций с отложенной контролируемой информацией» (PDF) . 2015 Международная объединенная конференция по нейронным сетям (IJCNN) . IEEE. стр. 1–8. doi :10.1109/IJCNN.2015.7280527. ISBN 978-1-4799-1960-4. S2CID 3947699.
- Alippi, C. (2014). «Обучение в нестационарных и развивающихся средах». Интеллект для встроенных систем . Springer. стр. 211–247. doi :10.1007/978-3-319-05278-6_9. ISBN 978-3-319-05278-6.
- Gama, J.; Žliobaitė, I.; Bifet, A.; Pechenizkiy, M.; Bouchachia, A. (1 марта 2014 г.), «Обзор адаптации дрейфа концепций» (PDF) , ACM Computing Surveys , 46 (4): 1–37, doi : 10.1145/2523813, ISSN 0360-0300, Zbl 1305.68141, Wikidata Q58204632
- Alippi, C.; Polikar, R. (январь 2014 г.). «Гостевая редакция Learning in Nonstationary and Evolving Environments». IEEE Transactions on Neural Networks and Learning Systems . 25 (1): 9–11. doi :10.1109/TNNLS.2013.2283547. PMID 24806640. S2CID 16547472.
- Dal Pozzolo, A.; Caelen, O.; Le Borgne, YA; Waterschoot, S.; Bontempi, G. (2014). «Извлеченные уроки по обнаружению мошенничества с кредитными картами с точки зрения практика» (PDF) . Expert Systems with Applications . 41 (10): 4915–28. doi :10.1016/j.eswa.2014.02.026. S2CID 12656644.
- Цзян, Дж. (2008). «Обзор литературы по адаптации статистических классификаторов к домену» (PDF) . Факультет вычислительных и информационных систем, Сингапурский университет менеджмента.
- Кунчева, Л.И. (2008). "Ансамбли классификаторов для обнаружения изменения концепта в потоковых данных: обзор и перспективы" (PDF) . Труды 2-го семинара SUEMA 2008 (ECAI 2008) .
- Gaber, MM; Zaslavsky, A.; Krishnaswamy, S. (июнь 2005 г.). «Mining Data Streams: A Review» (PDF) . ACM SIGMOD Record . 34 (2): 18–26. doi :10.1145/1083784.1083789. S2CID 705946.
- Кунчева, ЛИ (2004). "Ансамбли классификаторов для изменяющихся сред" (PDF) . Системы множественных классификаторов. MCS 2004 . Конспект лекций по информатике. Том 3077. Springer. С. 1–15. doi :10.1007/978-3-540-25966-4_1. ISBN 978-3-540-25966-4.
- Цимбал, А. (2004). Проблема дрейфа понятий: определения и связанная с ними работа (PDF) (Технический отчет). Дублин, Ирландия: Кафедра компьютерных наук, Тринити-колледж. TCD-CS-2004-15.
Внешние ссылки
Программное обеспечение
- Frouros: библиотека Python с открытым исходным кодом для обнаружения дрейфа в системах машинного обучения . [15]
- NannyML: библиотека Python с открытым исходным кодом для обнаружения дрейфа одномерного и многомерного распределения и оценки эффективности модели машинного обучения без меток истинности.
- RapidMiner : ранее Yet Another Learning Environment (YALE): бесплатное программное обеспечение с открытым исходным кодом для обнаружения знаний, добычи данных и машинного обучения, также включающее добычу потока данных, изучение изменяющихся во времени концепций и отслеживание дрейфующей концепции. Используется в сочетании с плагином добычи потока данных (ранее плагин дрейфа концепции).
- EDDM (метод раннего обнаружения дрейфа): бесплатная реализация методов обнаружения дрейфа с открытым исходным кодом в Weka .
- MOA (Massive Online Analysis) : бесплатное программное обеспечение с открытым исходным кодом, специально предназначенное для добычи потоков данных с концептуальным дрейфом. Оно содержит метод предварительной оценки, методы концептуального дрейфа EDDM, считыватель реальных наборов данных ARFF и искусственные генераторы потоков, такие как концепции SEA, STAGGER, вращающаяся гиперплоскость, случайное дерево и функции на основе случайного радиуса. MOA поддерживает двунаправленное взаимодействие с Weka .
Наборы данных
Настоящий
- Репозиторий потоков данных USP , 27 наборов данных реальных потоков с концептуальным дрейфом, составленных Соузой и др. (2020). Доступ
- Авиакомпания , около 116 миллионов записей о прибытии и отправлении рейсов (очищенных и отсортированных), собранных Э. Икономовской. Ссылка: Конкурс Data Expo 2009 [1]. Доступ
- Наборы данных Chess.com (онлайн-игры) и Люксембург (социальный опрос), составленные И. Злиобайте. Доступ
- ECUE spam 2 набора данных, каждый из которых состоит из более чем 10 000 писем, собранных за период около 2 лет одним человеком. Доступ с веб-страницы SJDelany
- Elec2 , спрос на электроэнергию, 2 класса, 45 312 экземпляров. Ссылка: M. Harries, Сравнительная оценка Splice-2: ценообразование на электроэнергию, Технический отчет, Университет Южного Уэльса, 1999. Доступ с веб-страницы J.Gama. Комментарий по применимости.
- Данные о конкурсе PAKDD'09 представляют собой задачу оценки кредитоспособности. Они собираются в течение пятилетнего периода. К сожалению, истинные метки раскрываются только для первой части данных. Доступ
- Наборы данных потока датчиков и потока электропитания доступны в репозитории интеллектуального анализа потоковых данных X. Zhu. Доступ
- SMEAR — это эталонный поток данных с большим количеством пропущенных значений. Данные наблюдений за окружающей средой за 7 лет. Прогнозирование облачности. Доступ
- Текстовый интеллектуальный анализ , набор наборов данных текстового интеллектуального анализа с концептуальным дрейфом, поддерживаемый И. Катакисом. Доступ
- Gas Sensor Array Drift Dataset , набор из 13 910 измерений от 16 химических датчиков, используемых для компенсации дрейфа в задаче дискриминации 6 газов на различных уровнях концентрации. Доступ
Другой
- Данные соревнований KDD'99 содержат смоделированные вторжения в военную сетевую среду. Часто используются в качестве эталона для оценки дрейфа концепции обработки. Доступ
Синтетический
- Тест экстремальной задержки проверки Souza, VMA; Silva, DF; Gama, J.; Batista, GEAPA (2015). "Data Stream Classification Guided by Clustering on Nonstationary Environments and Extreme Verification Latency". Труды Международной конференции SIAM 2015 года по интеллектуальному анализу данных (SDM). SIAM. стр. 873–881. doi :10.1137/1.9781611974010.98. ISBN 9781611974010. S2CID 19198944.Доступ из нестационарных сред – Архив.
- Синусоидальные, линейные, плоскостные, круговые и булевы наборы данных Минку, Л. Л.; Уайт, А. П.; Яо, С. (2010). «Влияние разнообразия на ансамблевое онлайн-обучение при наличии дрейфа концепций» (PDF) . Труды IEEE по инжинирингу знаний и данных . 22 (5): 730–742. doi :10.1109/TKDE.2009.156. S2CID 16592739.Доступ с веб-страницы Л.Минку.
- Концепции SEA Street, NW; Kim, Y. (2001). "Потоковый ансамблевый алгоритм (SEA) для крупномасштабной классификации" (PDF) . KDD'01: Труды седьмой международной конференции ACM SIGKDD по обнаружению знаний и добыче данных . стр. 377–382. doi :10.1145/502512.502568. ISBN 978-1-58113-391-2. S2CID 11868540.Доступ с веб-страницы J.Gama.
- STAGGER Шлиммер, Дж. К.; Грейнджер, Р. Х. (1986). «Инкрементальное обучение на основе зашумленных данных». Mach. Learn . 1 (3): 317–354. doi : 10.1007/BF00116895 . S2CID 33776987.
- Смешанный Gama, J.; Medas, P.; Castillo, G.; Rodrigues, P. (2004). «Обучение с обнаружением дрейфа». Бразильский симпозиум по искусственному интеллекту . Springer. стр. 286–295. doi :10.1007/978-3-540-28645-5_29. ISBN 978-3-540-28645-5. S2CID 2606652.
Фреймворки генерации данных
- Минку, Уайт и Яо, 2010 г. Скачать с веб-страницы Л.Минку.
- Линдстром, П.; Делани, С.Дж.; Макнами, Б. (2008). «Автопилот: моделирование изменяющихся концепций в реальных данных» (PDF) . Труды 19-й Ирландской конференции по искусственному интеллекту и когнитивной науке . стр. 272–263.
- Нарасимхамурти, А.; Кунчева, Л.И. (2007). «Структура для генерации данных для моделирования изменяющихся сред». AIAP'07: Труды 25-й Международной мультиконференции IASTED: искусственный интеллект и приложения . С. 384–389.Код
Проекты
- INFER: Платформа вычислительного интеллекта для развивающихся и надежных прогностических систем (2010–2014), Борнмутский университет (Великобритания), Evonik Industries (Германия), Научно-исследовательский и инженерный центр (Польша)
- HaCDAIS: Обработка дрейфа концепций в адаптивных информационных системах (2008–2012), Технический университет Эйндховена (Нидерланды)
- KDUS: Извлечение знаний из вездесущих потоков, INESC Porto и Лаборатория искусственного интеллекта и поддержки принятия решений (Португалия)
- ADEPT: Методы прогнозирования адаптивного динамического ансамбля, Манчестерский университет (Великобритания), Бристольский университет (Великобритания)
- ALADDIN: автономные обучающиеся агенты для децентрализованных сетей данных и информации (2005–2010)
- GAENARI: Алгоритм дерева инкрементных решений C++. Он минимизирует ущерб от дрейфа концепций. (2022)
Показатели
- NAB: The Numenta Anomaly Benchmark, тест для оценки алгоритмов обнаружения аномалий в потоковых приложениях реального времени. (2014–2018)
Встречи
- 2014
- [] Специальная сессия «Дрейф концепций, адаптация доменов и обучение в динамических средах» @IEEE IJCNN 2014
- 2013
- Семинар-обсуждение RealStream «Реальные проблемы интеллектуального анализа потоков данных» на конференции ECML PKDD 2013, Прага, Чешская Республика.
- LEAPS 2013 1-й Международный семинар по стратегиям обучения и обработке данных в нестационарных средах
- 2011
- Специальная сессия LEE 2011 по обучению в изменяющихся условиях и его применению к решению реальных проблем на ICMLA'11
- HaCDAIS 2011 2-й Международный семинар по управлению дрейфом концепций в адаптивных информационных системах
- ICAIS 2011 Трек по постепенному обучению
- Специальная сессия IJCNN 2011 по теме «Концептуальный дрейф и изучение динамических сред»
- Симпозиум CIDUE 2011 по вычислительному интеллекту в динамических и неопределенных средах
- 2010
- Международный семинар HaCDAIS 2010 по управлению дрейфом концепций в адаптивных информационных системах: важность, проблемы и решения
- Специальная сессия ICMLA10 по динамическому обучению в нестационарных средах
- SAC 2010 Data Streams Track на симпозиуме ACM по прикладным вычислениям
- SensorKDD 2010 Международный семинар по извлечению знаний из данных датчиков
- StreamKDD 2010 Новые методы анализа шаблонов потоков данных
- Дрейф концепций и обучение в нестационарных средах на Всемирном конгрессе IEEE по вычислительному интеллекту
- Специальная сессия MLMDS'2010 по методам машинного обучения для потоков данных на 10-й Международной конференции по интеллектуальному проектированию и приложениям, ISDA'10
Ссылки
- ^ Коггалахева, Даршика; Сюй, Юэ; Фу, Эрнест (2021). «Подход на основе иерархического теста с учетом дрейфа для борьбы с социальными спамерами в социальных сетях в Интернете». Интеллектуальный анализ данных . Коммуникации в области компьютерных и информационных наук. Том 1504. С. 47–61. doi : 10.1007/978-981-16-8531-6_4. ISBN 978-981-16-8530-9. S2CID 245009299.
- ^ Видмер, Герхард; Кубат, Мирослав (1996). «Обучение в условиях дрейфа концепций и скрытых контекстов». Машинное обучение . 23 : 69–101. doi : 10.1007/BF00116900 . S2CID 206767784.
- ^ Ся, Юань; Чжао, Юньлун (2020). «Метод обнаружения дрейфа на основе меры разнообразия и неравенства Мак-Диармида в потоках данных». Зеленые, всепроникающие и облачные вычисления . Конспект лекций по информатике. Том 12398. С. 115–122. doi :10.1007/978-3-030-64243-3_9. ISBN 978-3-030-64242-6. S2CID 227275380.
- ^ Лу, Цзе; Лю, Аньцзинь; Дун, Фань; Гу, Фэн; Гама, Жуан; Чжан, Гуанцюань (2018). «Обучение в условиях дрейфа концепций: обзор». Труды IEEE по инжинирингу знаний и данных : 1. arXiv : 2004.05785 . doi : 10.1109/TKDE.2018.2876857. S2CID 69449458.
- ^ ab "Driftctl и Terraform — они два в одном!"
- ^ abc Girish Pancha, Скрытый бич больших данных: дрейф данных, CMSWire , 8 апреля 2016 г.
- ^ Мэтью Магне, «Дрейф данных случается: 7 досадных проблем с данными о людях», InformationWeek , 19 июля 2017 г.
- ^ Дэниел Нихтер, Эффективная производительность MySQL , 2021, ISBN 1098105060 , стр. 299
- ^ Бассвиль, Мишель (1993). Обнаружение резких изменений: теория и применение. Prentice Hall. ISBN 0-13-126780-9. OCLC 876004326.
- ^ Alippi, C.; Roveri, M. (2007). «Адаптивные классификаторы в стационарных условиях». Международная объединенная конференция по нейронным сетям 2007 г. IEEE. стр. 1008–13. doi :10.1109/ijcnn.2007.4371096. ISBN 978-1-4244-1380-5. S2CID 16255206.
- ^ Гама, Дж.; Медас, П.; Кастильо, Г.; Родригес, П. (2004). «Обучение с обнаружением дрейфа». Достижения в области искусственного интеллекта – SBIA 2004 . Спрингер. стр. 286–295. дои : 10.1007/978-3-540-28645-5_29. ISBN 978-3-540-28645-5. S2CID 2606652.
- ^ Alippi, C.; Boracchi, G.; Roveri, M. (2011). «Адаптивная система классификации «точно в срок», основанная на правиле пересечения доверительных интервалов». Neural Networks . 24 (8): 791–800. doi :10.1016/j.neunet.2011.05.012. PMID 21723706.
- ^ Видмер, Г.; Кубат, М. (1996). «Обучение при наличии дрейфа концепций и скрытых контекстов». Машинное обучение . 23 (1): 69–101. doi : 10.1007/bf00116900 . S2CID 206767784.
- ^ Элвелл, Р.; Поликар, Р. (2011). «Инкрементальное обучение дрейфу концепций в нестационарных средах». Труды IEEE по нейронным сетям . 22 (10): 1517–31. doi :10.1109/tnn.2011.2160459. PMID 21824845. S2CID 9136731.
- ^ Сеспедес Сисниега, Хайме; Лопес Гарсиа, Альваро (2024). «Frouros: библиотека Python с открытым исходным кодом для обнаружения дрейфа в системах машинного обучения» (PDF) . Программное обеспечениеX . 26 . Elsevier: 101733. doi : 10.1016/j.softx.2024.101733 . hdl : 10261/358367 .