Data Stream Mining (также известный как потоковое обучение ) — это процесс извлечения структур знаний из непрерывных, быстрых записей данных. Поток данных — это упорядоченная последовательность экземпляров, которая во многих приложениях data stream mining может быть прочитана только один раз или небольшое количество раз с использованием ограниченных вычислительных и накопительных возможностей. [1]
Во многих приложениях для анализа потока данных цель состоит в том, чтобы предсказать класс или значение новых экземпляров в потоке данных, имея некоторые знания о принадлежности к классу или значениях предыдущих экземпляров в потоке данных. [2]
Методы машинного обучения могут использоваться для изучения этой задачи прогнозирования на основе помеченных примеров в автоматическом режиме. Часто концепции из области инкрементального обучения применяются для того, чтобы справляться со структурными изменениями, онлайн-обучением и требованиями реального времени. Во многих приложениях, особенно работающих в нестационарных средах, распределение, лежащее в основе экземпляров, или правила, лежащие в основе их маркировки, могут меняться со временем, то есть цель прогнозирования, класс, который нужно предсказать, или целевое значение, которое нужно предсказать, могут меняться со временем. [3] Эта проблема называется дрейфом концепций . Обнаружение дрейфа концепций является центральной проблемой для анализа потока данных. [4] [5] Другие проблемы [6], которые возникают при применении машинного обучения к потоковым данным, включают: частично и отложенные помеченные данные, [7] [8] восстановление после дрейфов концепций, [1] и временные зависимости. [9]
Примерами потоков данных являются трафик компьютерных сетей, телефонные разговоры, транзакции банкоматов, поиск в Интернете и данные датчиков. Анализ потоков данных можно считать подобластью анализа данных , машинного обучения и обнаружения знаний .
Программное обеспечение для анализа потока данных
- MOA (Massive Online Analysis) : бесплатное программное обеспечение с открытым исходным кодом, специально предназначенное для добычи потоков данных с концепцией дрейфа, разработанное на Java. Оно имеет несколько алгоритмов машинного обучения ( классификация , регрессия , кластеризация , обнаружение выбросов и рекомендательные системы). Кроме того, оно содержит метод предварительной оценки, методы концепций дрейфа EDDM, считыватель реальных наборов данных ARFF и искусственные генераторы потоков, такие как концепции SEA, STAGGER, вращающаяся гиперплоскость, случайное дерево и функции на основе случайного радиуса. MOA поддерживает двунаправленное взаимодействие с Weka (машинное обучение) . [ требуется ссылка ]
- scikit-multiflow : фреймворк машинного обучения для многовыходных/многометковых и потоковых данных, реализованный на Python. [10] scikit-multiflow содержит генераторы потоков, методы потокового обучения для одноцелевых и многоцелевых данных, детекторы дрейфа концепций, методы оценки и визуализации. (Это программное обеспечение больше не поддерживается) [11]
- StreamDM: StreamDM — это фреймворк с открытым исходным кодом для потоковой обработки больших данных , который использует расширение Spark Streaming [12] основного API Spark. Одним из преимуществ StreamDM по сравнению с существующими фреймворками является то, что он напрямую использует API Spark Streaming, который обрабатывает большую часть сложных проблем базовых источников данных, таких как неупорядоченные данные и восстановление после сбоев.
- RapidMiner : коммерческое программное обеспечение для обнаружения знаний, интеллектуального анализа данных и машинного обучения, также включающее интеллектуальный анализ потока данных, изучение изменяющихся во времени концепций и отслеживание дрейфующей концепции (при использовании в сочетании с плагином интеллектуального анализа потока данных (ранее: плагин Concept Drift))
- RiverML: River — это библиотека Python для машинного обучения онлайн. Она является результатом слияния creme и scikit-multiflow. Цель River — стать библиотекой, к которой можно обратиться для машинного обучения на потоковых данных. [13]
- GAENARI: C++ инкрементальное дерево решений. Оно непрерывно выполняет вставки и обновления фрагментированных наборов данных. Перестроить поддержку для проблем с дрейфом концепций.
События
- Международный семинар по повсеместному интеллектуальному анализу данных. Архивировано 23 февраля 2013 г. на Wayback Machine, проведено совместно с Международной совместной конференцией по искусственному интеллекту (IJCAI) в Пекине, Китай, 3–5 августа 2013 г.
- Международный семинар по извлечению знаний из повсеместных потоков данных. Архивировано 16 февраля 2012 г. в Wayback Machine, проведенном совместно с 18-й Европейской конференцией по машинному обучению (ECML) и 11-й Европейской конференцией по принципам и практике извлечения знаний в базах данных (PKDD) в Варшаве, Польша, в сентябре 2007 г.
- Симпозиум ACM по прикладным вычислениям, потоки данных, прошедший совместно с симпозиумом ACM по прикладным вычислениям 2007 года (SAC-2007) в Сеуле , Корея , в марте 2007 года.
- Международный семинар IEEE по добыче эволюционирующих и потоковых данных (IWMESD 2006) будет проводиться совместно с Международной конференцией IEEE по добыче данных (ICDM-2006) в Гонконге в декабре 2006 года.
- Четвертый международный семинар по извлечению знаний из потоков данных (IWKDDS) будет проводиться совместно с 17-й Европейской конференцией по машинному обучению (ECML) и 10-й Европейской конференцией по принципам и практике извлечения знаний в базах данных (PKDD) (ECML/PKDD-2006) в Берлине , Германия , в сентябре 2006 года.
Смотрите также
Книги
- Бифет, Альберт; Гавальда, Рикар; Холмс, Джефф; Пфарингер, Бернхард (2018). Машинное обучение для потоков данных с практическими примерами в MOA. Адаптивные вычисления и машинное обучение. MIT Press. стр. 288. ISBN 9780262037792.
- Гама, Жуан; Габер, Мохамед Медхат, ред. (2007). Обучение на основе потоков данных: методы обработки в сенсорных сетях. Springer. стр. 244. doi :10.1007/3-540-73679-4. ISBN 9783540736783.
- Гангули, Аурруп Р.; Гама, Жуан; Омитаому, Олуфеми А.; Габер, Мохамед М.; Ватсавай, Ранга Р., ред. (2008). Получение знаний из данных датчиков. Промышленные инновации. CRC Press. стр. 215. ISBN 9781420082326.
- Гама, Жуан (2010). Обнаружение знаний из потоков данных. Data Mining and Knowledge Discovery. Chapman and Hall. стр. 255. ISBN 9781439826119.
- Лугхофер, Эдвин (2011). Развитие нечетких систем — Методологии, передовые концепции и приложения. Исследования нечеткости и мягких вычислений. Т. 266. Гейдельберг: Springer. С. 456. doi :10.1007/978-3-642-18087-3. ISBN 9783642180866.
- Сайед-Мухавех, Моамар; Лугхофер, Эдвин, ред. (2012). Обучение в нестационарных средах: методы и приложения. Нью-Йорк: Springer. стр. 440. CiteSeerX 10.1.1.709.437 . doi :10.1007/978-1-4419-8020-5. ISBN 9781441980199.
Ссылки
- ^ ab Gomes, Heitor M.; Bifet, Albert; Read, Jesse; Barddal, Jean Paul; Enembreck, Fabrício; Pfharinger, Bernhard; Holmes, Geoff; Abdessalem, Talel (2017-10-01). «Адаптивные случайные леса для классификации эволюционирующих потоков данных». Machine Learning . 106 (9): 1469–1495. doi : 10.1007/s10994-017-5642-8 . hdl : 10289/11231 . ISSN 1573-0565.
- ^ Медхат, Мохамед; Заславский; Кришнасвами (2005-06-01). «Потоки данных майнинга». ACM SIGMOD Record . 34 (2): 18–26. doi :10.1145/1083784.1083789. S2CID 705946.
- ^ Lemaire, Vincent; Salperwyck, Christophe; Bondu, Alexis (2015), Zimanyi, Esteban; Kutsche, Ralf-Detlef (ред.), «Обзор контролируемой классификации потоков данных», Business Intelligence: 4-я Европейская летняя школа, eBISS 2014, Берлин, Германия, 6–11 июля 2014 г., Учебные лекции , Конспекты лекций по обработке деловой информации, Springer International Publishing, стр. 88–125, doi :10.1007/978-3-319-17551-5_4, ISBN 978-3-319-17551-5
- ^ Уэбб, Джеффри И.; Ли, Лунг Куан; Петижан, Франсуа; Геталс, Барт (2017-04-02). «Понимание дрейфа концепций». arXiv : 1704.00362 [cs.LG].
- ^ Гама, Жуан; Жлиобайте; Бифет; Печеницкий; Бучачиа (2014-03-01). «Обзор адаптации дрейфа концепций» (PDF) . ACM Computing Surveys . 46 (4): 1–37. doi :10.1145/2523813. S2CID 207208264.
- ^ Гомес, Эйтор Мурило; Рид; Бифет; Барддал; Гама (2019-11-26). «Машинное обучение для потоковой передачи данных». ACM SIGKDD Explorations Newsletter . 21 (2): 6–22. doi :10.1145/3373464.3373470. S2CID 208607941.
- ^ Гомес, Эйтор Мурило; Грзенда, Мачей; Мелло, Родриго; Рид, Джесси; Ле Нгуен, Минь Хуонг; Бифет, Альберт (28.02.2022). «Обзор полуконтролируемого обучения для отложенных частично помеченных потоков данных». ACM Computing Surveys . 55 (4): 1–42. arXiv : 2106.09170 . doi : 10.1145/3523055 . ISSN 0360-0300.
- ^ Грзенда, Мачей; Гомес, Эйтор Мурило; Бифет, Альберт (16.11.2019). «Оценка отложенной маркировки для потоков данных». Data Mining and Knowledge Discovery . 34 (5): 1237–1266. doi : 10.1007/s10618-019-00654-y . ISSN 1573-756X.
- ^ Жлиобайте, Индре; Бифет, Альберт; Рид, Джесси; Пфарингер, Бернхард; Холмс, Джефф (2015-03-01). «Методы оценки и теория принятия решений для классификации потоковых данных с временной зависимостью». Машинное обучение . 98 (3): 455–482. doi : 10.1007/s10994-014-5441-4 . hdl : 10289/8954 . ISSN 1573-0565.
- ^ Монтьель, Якоб; Рид, Джесси; Бифет, Альберт; Абдессалем, Талель (2018). «Scikit-Multiflow: многовыходная потоковая структура». Журнал исследований машинного обучения . 19 (72): 1–5. arXiv : 1807.04662 . Bibcode : 2018arXiv180704662M. ISSN 1533-7928.
- ^ Особенности, scikit-multiflow, 2021-10-09 , получено 2021-10-11
- ^ Захария, Матей; Дас, Татхагата; Ли, Хаоюань; Хантер, Тимоти; Шенкер, Скотт; Стоика, Ион (2013). «Дискретизированные потоки». Труды Двадцать четвертого симпозиума ACM по принципам операционных систем . Нью-Йорк, Нью-Йорк, США: ACM Press. стр. 423–438. doi : 10.1145/2517349.2522737 . ISBN 978-1-4503-2388-8.
- ^ online-ml/river, OnlineML, 2021-10-11 , получено 2021-10-11