Пакет программного обеспечения для машинного обучения, написанный на Java
Waikato Environment for Knowledge Analysis ( Weka ) — это набор свободного программного обеспечения для машинного обучения и анализа данных , лицензированного в соответствии с GNU General Public License . Он был разработан в Университете Вайкато , Новая Зеландия, и является сопутствующим программным обеспечением к книге «Data Mining: Practical Machine Learning Tools and Techniques». [1]
Описание
Weka содержит набор инструментов визуализации и алгоритмов для анализа данных и прогнозного моделирования , а также графические пользовательские интерфейсы для легкого доступа к этим функциям. [1] Первоначальная версия Weka, не основанная на Java, представляла собой интерфейс Tcl / Tk для (в основном сторонних) алгоритмов моделирования, реализованных на других языках программирования, а также утилиты предварительной обработки данных на языке C и основанную на makefile систему для проведения экспериментов по машинному обучению. Эта оригинальная версия была в первую очередь разработана как инструмент для анализа данных из сельскохозяйственных доменов, [2] [3] но более поздняя версия, полностью основанная на Java (Weka 3), разработка которой началась в 1997 году, в настоящее время используется во многих различных областях применения, в частности, в образовательных целях и исследованиях. Преимущества Weka включают в себя:
- Свободный доступ в соответствии с лицензией GNU General Public License .
- Переносимость, поскольку он полностью реализован на языке программирования Java и, таким образом, работает практически на любой современной вычислительной платформе.
- Комплексный набор методов предварительной обработки и моделирования данных.
- Простота использования благодаря графическому пользовательскому интерфейсу.
Weka поддерживает несколько стандартных задач интеллектуального анализа данных , в частности, предварительную обработку данных, кластеризацию , классификацию , регрессию , визуализацию и выбор признаков . Входные данные для Weka, как ожидается, будут отформатированы в соответствии с форматом атрибутно-реляционного файла и с расширением имени файла .arff. Все методы Weka основаны на предположении, что данные доступны в виде одного плоского файла или отношения, где каждая точка данных описывается фиксированным количеством атрибутов (обычно числовыми или номинальными атрибутами, но поддерживаются также некоторые другие типы атрибутов). Weka предоставляет доступ к базам данных SQL с помощью Java Database Connectivity и может обрабатывать результат, возвращаемый запросом к базе данных. Weka предоставляет доступ к глубокому обучению с помощью Deeplearning4j . [4] Он не способен выполнять многореляционный интеллектуальный анализ данных, но существует отдельное программное обеспечение для преобразования набора связанных таблиц базы данных в одну таблицу, подходящую для обработки с помощью Weka. [5] Еще одна важная область, которая в настоящее время не охвачена алгоритмами, включенными в дистрибутив Weka, — это моделирование последовательностей.
Пакеты расширения
В версии 3.7.2 был добавлен менеджер пакетов, позволяющий упростить установку пакетов расширений. [6]
Некоторые функции, которые были включены в Weka до этой версии, с тех пор были перемещены в такие пакеты расширений, но это изменение также упрощает для других внесение расширений в Weka и поддержку программного обеспечения, поскольку эта модульная архитектура позволяет независимо обновлять ядро Weka и отдельные расширения.
История
- В 1993 году Университет Вайкато в Новой Зеландии начал разработку оригинальной версии Weka, которая представляла собой смесь Tcl/Tk, C и make-файлов.
- В 1997 году было принято решение переработать Weka с нуля на Java, включая реализацию алгоритмов моделирования. [7]
- В 2005 году Weka получила премию SIGKDD за интеллектуальный анализ данных и обнаружение знаний. [8] [9]
- В 2006 году корпорация Pentaho приобрела эксклюзивную лицензию на использование Weka для бизнес-аналитики . [10] Он формирует компонент интеллектуального анализа данных и предиктивной аналитики пакета бизнес-аналитики Pentaho. С тех пор Pentaho была приобретена Hitachi Vantara, и теперь Weka поддерживает компонент с открытым исходным кодом PMI (Plugin for Machine Intelligence). [11]
Связанные инструменты
- Auto-WEKA — это автоматизированная система машинного обучения для Weka. [12]
- Среда для разработки KDD-приложений с поддержкой индексных структур ( ELKI ) — это проект, аналогичный Weka, с упором на кластерный анализ , т. е. неконтролируемые методы.
- H2O.ai — это платформа с открытым исходным кодом для обработки данных и машинного обучения.
- KNIME — это программное обеспечение для машинного обучения и анализа данных, реализованное на Java .
- Massive Online Analysis (MOA) — проект с открытым исходным кодом для крупномасштабного анализа потоков данных, также разработанный в Университете Вайкато в Новой Зеландии .
- Neural Designer — это программное обеспечение для интеллектуального анализа данных, основанное на методах глубокого обучения, написанное на языке C++ .
- Orange — аналогичный проект с открытым исходным кодом для интеллектуального анализа данных, машинного обучения и визуализации на основе scikit-learn .
- RapidMiner — это коммерческая среда машинного обучения , реализованная на Java и интегрирующая Weka.
- scikit-learn — популярная библиотека машинного обучения на Python.
Смотрите также
Ссылки
- ^ ab Witten, Ian H .; Frank, Eibe; Hall, Mark A.; Pal, Christopher J. (2011). Data Mining: Практические инструменты и методы машинного обучения (3-е изд.). Сан-Франциско (Калифорния): Morgan Kaufmann . ISBN 9780080890364. Получено 19.01.2011 .
- ^ Холмс, Джеффри; Донкин, Эндрю; Виттен, Ян Х. (1994). Weka: A machine learning workbench (PDF) . Труды Второй австралийско-новозеландской конференции по интеллектуальным информационным системам, Брисбен, Австралия . Получено 25 июня 2007 г.
- ^ Гарнер, Стивен Р.; Каннингем, Салли Джо; Холмс, Джеффри; Невилл-Мэннинг, Крейг Г.; Виттен, Ян Х. (1995). Применение инструментария машинного обучения: опыт работы с сельскохозяйственными базами данных (PDF) . Труды семинара «Машинное обучение на практике», Конференция по машинному обучению , Тахо-Сити (Калифорния), США. стр. 14–21 . Получено 25 июня 2007 г.
- ^ "Weka Package Metadata". 2017. Получено 2017-11-11 – через SourceForge .
- ^ Ройтеманн, Питер; Пфарингер, Бернхард; Франк, Эйбе (2004). «Proper: A Toolbox for Learning from Relational Data with Propositional and Multi-Instance Learners». 17-я Австралийская объединенная конференция по искусственному интеллекту (AI2004) . Springer-Verlag. CiteSeerX 10.1.1.459.8443 .
- ^ "weka-wiki - Пакеты" . Получено 27 января 2020 г. – через GitHub .
- ^ Witten, Ian H.; Frank, Eibe; Trigg, Len; Hall, Mark A.; Holmes, Geoffrey; Cunningham, Sally Jo (1999). Weka: Практические инструменты и методы машинного обучения с реализациями Java (PDF) . Труды семинара ICONIP/ANZIIS/ANNES'99 по новым технологиям инженерии знаний и информационным системам на основе коннекционизма. стр. 192–196 . Получено 26 июня 2007 г.
- ^ Пятецкий-Шапиро, Грегори И. (28.06.2005). "Победитель премии SIGKDD Data Mining and Knowledge Discovery Service Award". KDnuggets . Получено 25.06.2007 .
- ^ "Обзор победителей премии SIGKDD Service Award". ACM. 2005. Получено 25.06.2007 .
- ^ «Pentaho приобретает проект Weka» . Пентахо . Проверено 06 февраля 2018 г.
- ^ "Плагин для машинного интеллекта". Hitachi Vantara .
- ^ Торнтон, Крис; Хаттер, Фрэнк; Хус, Хольгер Х.; Лейтон -Браун, Кевин (2013-08-11). Auto-WEKA: комбинированный выбор и оптимизация гиперпараметров алгоритмов классификации . Труды 19-й международной конференции ACM SIGKDD по обнаружению знаний и добыче данных . ACM. стр. 847–855. doi :10.1145/2487575.2487629. ISBN 978-1-4503-2174-7.
Внешние ссылки
На Викискладе есть медиафайлы по теме Weka (машинное обучение) .
- Официальный сайт Университета Вайкато в Новой Зеландии