stringtranslate.com

Анализ потока данных

Data Stream Mining (также известный как потоковое обучение ) — это процесс извлечения структур знаний из непрерывных, быстрых записей данных. Поток данных — это упорядоченная последовательность экземпляров, которая во многих приложениях data stream mining может быть прочитана только один раз или небольшое количество раз с использованием ограниченных вычислительных и накопительных возможностей. [1]

Во многих приложениях для анализа потока данных цель состоит в том, чтобы предсказать класс или значение новых экземпляров в потоке данных, имея некоторые знания о принадлежности к классу или значениях предыдущих экземпляров в потоке данных. [2] Методы машинного обучения могут использоваться для изучения этой задачи прогнозирования на основе помеченных примеров в автоматическом режиме. Часто концепции из области инкрементального обучения применяются для того, чтобы справляться со структурными изменениями, онлайн-обучением и требованиями реального времени. Во многих приложениях, особенно работающих в нестационарных средах, распределение, лежащее в основе экземпляров, или правила, лежащие в основе их маркировки, могут меняться со временем, то есть цель прогнозирования, класс, который нужно предсказать, или целевое значение, которое нужно предсказать, могут меняться со временем. [3] Эта проблема называется дрейфом концепций . Обнаружение дрейфа концепций является центральной проблемой для анализа потока данных. [4] [5] Другие проблемы [6], которые возникают при применении машинного обучения к потоковым данным, включают: частично и отложенные помеченные данные, [7] [8] восстановление после дрейфов концепций, [1] и временные зависимости. [9]

Примерами потоков данных являются трафик компьютерных сетей, телефонные разговоры, транзакции банкоматов, поиск в Интернете и данные датчиков. Анализ потоков данных можно считать подобластью анализа данных , машинного обучения и обнаружения знаний .

Программное обеспечение для анализа потока данных

События

Смотрите также

Книги

Ссылки

  1. ^ ab Gomes, Heitor M.; Bifet, Albert; Read, Jesse; Barddal, Jean Paul; Enembreck, Fabrício; Pfharinger, Bernhard; Holmes, Geoff; Abdessalem, Talel (2017-10-01). «Адаптивные случайные леса для классификации эволюционирующих потоков данных». Machine Learning . 106 (9): 1469–1495. doi : 10.1007/s10994-017-5642-8 . hdl : 10289/11231 . ISSN  1573-0565.
  2. ^ Медхат, Мохамед; Заславский; Кришнасвами (2005-06-01). «Потоки данных майнинга». ACM SIGMOD Record . 34 (2): 18–26. doi :10.1145/1083784.1083789. S2CID  705946.
  3. ^ Lemaire, Vincent; Salperwyck, Christophe; Bondu, Alexis (2015), Zimanyi, Esteban; Kutsche, Ralf-Detlef (ред.), «Обзор контролируемой классификации потоков данных», Business Intelligence: 4-я Европейская летняя школа, eBISS 2014, Берлин, Германия, 6–11 июля 2014 г., Учебные лекции , Конспекты лекций по обработке деловой информации, Springer International Publishing, стр. 88–125, doi :10.1007/978-3-319-17551-5_4, ISBN 978-3-319-17551-5
  4. ^ Уэбб, Джеффри И.; Ли, Лунг Куан; Петижан, Франсуа; Геталс, Барт (2017-04-02). «Понимание дрейфа концепций». arXiv : 1704.00362 [cs.LG].
  5. ^ Гама, Жуан; Жлиобайте; Бифет; Печеницкий; Бучачиа (2014-03-01). «Обзор адаптации дрейфа концепций» (PDF) . ACM Computing Surveys . 46 (4): 1–37. doi :10.1145/2523813. S2CID  207208264.
  6. ^ Гомес, Эйтор Мурило; Рид; Бифет; Барддал; Гама (2019-11-26). «Машинное обучение для потоковой передачи данных». ACM SIGKDD Explorations Newsletter . 21 (2): 6–22. doi :10.1145/3373464.3373470. S2CID  208607941.
  7. ^ Гомес, Эйтор Мурило; Грзенда, Мачей; Мелло, Родриго; Рид, Джесси; Ле Нгуен, Минь Хуонг; Бифет, Альберт (28.02.2022). «Обзор полуконтролируемого обучения для отложенных частично помеченных потоков данных». ACM Computing Surveys . 55 (4): 1–42. arXiv : 2106.09170 . doi : 10.1145/3523055 . ISSN  0360-0300.
  8. ^ Грзенда, Мачей; Гомес, Эйтор Мурило; Бифет, Альберт (16.11.2019). «Оценка отложенной маркировки для потоков данных». Data Mining and Knowledge Discovery . 34 (5): 1237–1266. doi : 10.1007/s10618-019-00654-y . ISSN  1573-756X.
  9. ^ Жлиобайте, Индре; Бифет, Альберт; Рид, Джесси; Пфарингер, Бернхард; Холмс, Джефф (2015-03-01). «Методы оценки и теория принятия решений для классификации потоковых данных с временной зависимостью». Машинное обучение . 98 (3): 455–482. doi : 10.1007/s10994-014-5441-4 . hdl : 10289/8954 . ISSN  1573-0565.
  10. ^ Монтьель, Якоб; Рид, Джесси; Бифет, Альберт; Абдессалем, Талель (2018). «Scikit-Multiflow: многовыходная потоковая структура». Журнал исследований машинного обучения . 19 (72): 1–5. arXiv : 1807.04662 . Bibcode : 2018arXiv180704662M. ISSN  1533-7928.
  11. ^ Особенности, scikit-multiflow, 2021-10-09 , получено 2021-10-11
  12. ^ Захария, Матей; Дас, Татхагата; Ли, Хаоюань; Хантер, Тимоти; Шенкер, Скотт; Стоика, Ион (2013). «Дискретизированные потоки». Труды Двадцать четвертого симпозиума ACM по принципам операционных систем . Нью-Йорк, Нью-Йорк, США: ACM Press. стр. 423–438. doi : 10.1145/2517349.2522737 . ISBN 978-1-4503-2388-8.
  13. ^ online-ml/river, OnlineML, 2021-10-11 , получено 2021-10-11