stringtranslate.com

Дрейф концепции

В предиктивной аналитике , науке о данных , машинном обучении и смежных областях дрейф концепции или дрейф — это эволюция данных, которая делает модель данных недействительной . Это происходит, когда статистические свойства целевой переменной, которую модель пытается предсказать, со временем изменяются непредвиденным образом. Это вызывает проблемы, поскольку прогнозы становятся менее точными с течением времени. Обнаружение дрейфа и адаптация к дрейфу имеют первостепенное значение в областях, которые включают динамически изменяющиеся данные и модели данных.

Распад прогностической модели

В машинном обучении и предиктивной аналитике это явление дрейфа называется дрейфом концепций. В машинном обучении общим элементом модели данных являются статистические свойства, такие как распределение вероятностей фактических данных. Если они отклоняются от статистических свойств набора обучающих данных , то полученные предсказания могут стать недействительными, если дрейф не устранен. [1] [2] [3] [4]

Ухудшение конфигурации данных

Другой важной областью является программная инженерия , где можно распознать три типа дрейфа данных, влияющих на точность данных . Изменения в программной среде («дрейф инфраструктуры») могут сделать конфигурацию программной инфраструктуры недействительной. «Структурный дрейф» происходит, когда изменяется схема данных , что может сделать базы данных недействительными. «Семантический дрейф» — это изменение смысла данных, при этом структура не меняется. Во многих случаях это может происходить в сложных приложениях, когда многие независимые разработчики вносят изменения без должного понимания последствий своих изменений в других областях программной системы. [5] [6]

Для многих прикладных систем характер данных, с которыми они работают, может меняться по разным причинам, например, из-за изменений в бизнес-модели, обновлений системы или переключения платформы, на которой работает система. [6]

В случае облачных вычислений дрейф инфраструктуры, который может повлиять на приложения, работающие в облаке, может быть вызван обновлениями облачного программного обеспечения. [5]

Существует несколько типов пагубных последствий дрейфа данных для точности данных. Коррозия данных — это передача дрейфованных данных в систему незамеченными. Потеря данных происходит, когда допустимые данные игнорируются из-за несоответствия применяемой схеме. Разбазаривание — это явление, когда новые поля данных вводятся выше по конвейеру обработки данных, но где-то ниже по течению поля данных отсутствуют. [6]

Непоследовательные данные

«Дрейф данных» может относиться к явлению, когда записи базы данных не соответствуют реальным данным из-за изменений в последних с течением времени. Это распространенная проблема с базами данных, включающими людей, таких как клиенты, сотрудники, граждане, жители и т. д. Дрейф данных о людях может быть вызван незарегистрированными изменениями в персональных данных, таких как место жительства или имя, а также ошибками при вводе данных. [7]

«Дрейф данных» может также относиться к несоответствию элементов данных между несколькими репликами базы данных. Причины могут быть трудно определить. Простое обнаружение дрейфа — это регулярный запуск контрольной суммы . Однако средство может быть не таким простым. [8]

Примеры

Поведение покупателей в интернет-магазине может со временем меняться. Например, если нужно спрогнозировать еженедельные продажи товаров, и была разработана прогностическая модель , которая работает удовлетворительно. Модель может использовать такие входные данные, как сумма денег, потраченных на рекламу , проводимые акции и другие показатели, которые могут повлиять на продажи. Модель, скорее всего, будет становиться все менее и менее точной с течением времени — это дрейф концепций. В приложении по продажам товаров одной из причин дрейфа концепций может быть сезонность, что означает, что поведение покупателей меняется сезонно. Возможно, в зимний праздничный сезон продажи будут выше, чем летом, например. Дрейф концепций обычно происходит, когда ковариаты, составляющие набор данных, начинают менее точно объяснять вариацию вашего целевого набора — могут возникнуть некоторые смешивающие переменные, которые просто невозможно учесть, что приводит к постепенному снижению точности модели со временем. Как правило, рекомендуется выполнять проверки работоспособности в рамках постпроизводственного анализа и повторно обучать модель с новыми предположениями при признаках дрейфа концепций.

Возможные средства правовой защиты

Чтобы предотвратить ухудшение точности прогнозирования из-за дрейфа концепций, можно использовать реактивные и отслеживающие решения. Реактивные решения переобучают модель в ответ на триггерный механизм, такой как тест обнаружения изменений, [9] [10] чтобы явно обнаружить дрейф концепций как изменение в статистике процесса генерации данных. Когда обнаруживается дрейф концепций, текущая модель больше не актуальна и должна быть заменена новой для восстановления точности прогнозирования. [11] [12] Недостатком реактивных подходов является то, что производительность может снижаться до тех пор, пока не будет обнаружено изменение. Решения отслеживания стремятся отслеживать изменения в концепции путем постоянного обновления модели. Методы достижения этого включают онлайн-машинное обучение , частое переобучение на самых последних наблюдаемых образцах, [13] и поддержание ансамбля классификаторов, где один новый классификатор обучается на самой последней партии примеров и заменяет самый старый классификатор в ансамбле. [14]

Контекстная информация, если она доступна, может быть использована для лучшего объяснения причин дрейфа концепций: например, в приложении прогнозирования продаж дрейф концепций может быть компенсирован путем добавления в модель информации о сезоне. При предоставлении информации о времени года скорость ухудшения вашей модели, вероятно, уменьшится, но дрейф концепций вряд ли будет полностью устранен. Это связано с тем, что фактическое поведение покупателей не следует какой-либо статической, конечной модели . В любое время могут возникнуть новые факторы, которые повлияют на поведение покупателей, влияние известных факторов или их взаимодействие могут измениться.

Концептуального дрейфа невозможно избежать для сложных явлений, которые не управляются фиксированными законами природы . Все процессы, возникающие в результате человеческой деятельности, такие как социально-экономические процессы и биологические процессы , вероятно, будут испытывать концептуальный дрейф. Поэтому необходима периодическая переподготовка, также известная как обновление, любой модели.

Смотрите также

Дальнейшее чтение

Было опубликовано много статей, описывающих алгоритмы обнаружения дрейфа концепций. Здесь только обзоры, обзоры и обзоры:

Обзоры

Внешние ссылки

Программное обеспечение

Наборы данных

Настоящий

Другой

Синтетический

Фреймворки генерации данных

Проекты

Показатели

Встречи

Ссылки

  1. ^ Коггалахева, Даршика; Сюй, Юэ; Фу, Эрнест (2021). «Подход на основе иерархического теста с учетом дрейфа для борьбы с социальными спамерами в социальных сетях в Интернете». Интеллектуальный анализ данных . Коммуникации в области компьютерных и информационных наук. Том 1504. С. 47–61. doi : 10.1007/978-981-16-8531-6_4. ISBN 978-981-16-8530-9. S2CID  245009299.
  2. ^ Видмер, Герхард; Кубат, Мирослав (1996). «Обучение в условиях дрейфа концепций и скрытых контекстов». Машинное обучение . 23 : 69–101. doi : 10.1007/BF00116900 . S2CID  206767784.
  3. ^ Ся, Юань; Чжао, Юньлун (2020). «Метод обнаружения дрейфа на основе меры разнообразия и неравенства Мак-Диармида в потоках данных». Зеленые, всепроникающие и облачные вычисления . Конспект лекций по информатике. Том 12398. С. 115–122. doi :10.1007/978-3-030-64243-3_9. ISBN 978-3-030-64242-6. S2CID  227275380.
  4. ^ Лу, Цзе; Лю, Аньцзинь; Дун, Фань; Гу, Фэн; Гама, Жуан; Чжан, Гуанцюань (2018). «Обучение в условиях дрейфа концепций: обзор». Труды IEEE по инжинирингу знаний и данных : 1. arXiv : 2004.05785 . doi : 10.1109/TKDE.2018.2876857. S2CID  69449458.
  5. ^ ab "Driftctl и Terraform — они два в одном!"
  6. ^ abc Girish Pancha, Скрытый бич больших данных: дрейф данных, CMSWire , 8 апреля 2016 г.
  7. ^ Мэтью Магне, «Дрейф данных случается: 7 досадных проблем с данными о людях», InformationWeek , 19 июля 2017 г.
  8. ^ Дэниел Нихтер, Эффективная производительность MySQL , 2021, ISBN 1098105060 , стр. 299 
  9. ^ Бассвиль, Мишель (1993). Обнаружение резких изменений: теория и применение. Prentice Hall. ISBN 0-13-126780-9. OCLC  876004326.
  10. ^ Alippi, C.; Roveri, M. (2007). «Адаптивные классификаторы в стационарных условиях». Международная объединенная конференция по нейронным сетям 2007 г. IEEE. стр. 1008–13. doi :10.1109/ijcnn.2007.4371096. ISBN 978-1-4244-1380-5. S2CID  16255206.
  11. ^ Гама, Дж.; Медас, П.; Кастильо, Г.; Родригес, П. (2004). «Обучение с обнаружением дрейфа». Достижения в области искусственного интеллекта – SBIA 2004 . Спрингер. стр. 286–295. дои : 10.1007/978-3-540-28645-5_29. ISBN 978-3-540-28645-5. S2CID  2606652.
  12. ^ Alippi, C.; Boracchi, G.; Roveri, M. (2011). «Адаптивная система классификации «точно в срок», основанная на правиле пересечения доверительных интервалов». Neural Networks . 24 (8): 791–800. doi :10.1016/j.neunet.2011.05.012. PMID  21723706.
  13. ^ Видмер, Г.; Кубат, М. (1996). «Обучение при наличии дрейфа концепций и скрытых контекстов». Машинное обучение . 23 (1): 69–101. doi : 10.1007/bf00116900 . S2CID  206767784.
  14. ^ Элвелл, Р.; Поликар, Р. (2011). «Инкрементальное обучение дрейфу концепций в нестационарных средах». Труды IEEE по нейронным сетям . 22 (10): 1517–31. doi :10.1109/tnn.2011.2160459. PMID  21824845. S2CID  9136731.
  15. ^ Сеспедес Сисниега, Хайме; Лопес Гарсиа, Альваро (2024). «Frouros: библиотека Python с открытым исходным кодом для обнаружения дрейфа в системах машинного обучения» (PDF) . Программное обеспечениеX . 26 . Elsevier: 101733. doi : 10.1016/j.softx.2024.101733 . hdl : 10261/358367 .