Оранжевые компоненты называются виджетами. Они варьируются от простой визуализации данных, выбора подмножества и предварительной обработки до эмпирической оценки алгоритмов обучения
и прогнозного моделирования .
Визуальное программирование реализуется через интерфейс, в котором рабочие процессы создаются путем связывания предопределенных или созданных пользователем виджетов , а опытные пользователи могут использовать Orange в качестве библиотеки Python для манипулирования данными и изменения виджетов. [5]
Программное обеспечение
Orange — пакет программного обеспечения с открытым исходным кодом, выпущенный под лицензией GPL и размещенный на GitHub . Версии до 3.0 включают основные компоненты на C++ с оболочками на Python . Начиная с версии 3.0, Orange использует общие библиотеки Python с открытым исходным кодом для научных вычислений, такие как numpy , scipy и scikit-learn , а его графический пользовательский интерфейс работает в рамках кроссплатформенной среды Qt .
Установка по умолчанию включает ряд алгоритмов машинного обучения, предварительной обработки и визуализации данных в 6 наборах виджетов (данные, преобразование, визуализация, моделирование, оценка и неконтролируемый). Дополнительные функции доступны в виде надстроек (текстовый анализ, анализ изображений, биоинформатика и т. д.).
Orange состоит из холстового интерфейса , на котором пользователь размещает виджеты и создает рабочий процесс анализа данных. Виджеты предлагают базовые функции, такие как чтение данных, отображение таблицы данных, выбор функций, обучение предикторов, сравнение алгоритмов обучения, визуализация элементов данных и т. д. Пользователь может в интерактивном режиме исследовать визуализации или передавать выбранное подмножество в другие виджеты.
Canvas : графический интерфейс для анализа данных.
Виджеты :
Данные : виджеты для ввода данных, фильтрации данных, выборки, вменения, манипулирования функциями и выбора функций .
Визуализация : виджеты для общей визуализации (ящичная диаграмма, гистограммы, точечная диаграмма) и многомерной визуализации (мозаичное отображение, ситовая диаграмма).
Регрессия : набор контролируемых алгоритмов машинного обучения для регрессии.
Оценка : перекрестная проверка, процедуры на основе выборки, оценка надежности и оценка методов прогнозирования.
Без учителя : алгоритмы обучения без учителя для кластеризации (k-средние, иерархическая кластеризация) и методы проецирования данных (многомерное масштабирование, анализ главных компонентов, анализ соответствий).
Дополнения
Пользователи Orange могут расширить свой основной набор компонентов за счет компонентов в надстройках. Поддерживаемые дополнения включают в себя:
Биоинформатика : компоненты для анализа экспрессии генов, обогащения и доступа к базам данных экспрессии (например, Gene Expression Omnibus ) и библиотекам путей.
Временные ряды : компоненты виджетов для анализа и моделирования временных рядов .
Одноклеточный : поддержка анализа экспрессии генов в отдельных клетках, включая компоненты для загрузки данных об отдельных клетках, фильтрации и пакетного удаления эффектов, обнаружения маркерных генов, оценки клеток и генов, а также прогнозирования типов клеток.
Спектроскопия : компоненты для анализа и визуализации (гипер)спектральных наборов данных. [6]
Анализ выживания : дополнение для анализа данных, касающихся данных о выживании. Он включает виджеты для стандартных методов анализа выживаемости, таких как график Каплана-Мейера , регрессионная модель Кокса и несколько производных виджетов.
World Happiness : поддержка загрузки социально-экономических данных из базы данных, включая показатели ОЭСР и мирового развития . Обеспечивает доступ к тысячам страновых показателей из различных экономических баз данных.
Цели
Программа предоставляет платформу для выбора экспериментов, систем рекомендаций и прогнозного моделирования и используется в биомедицине , биоинформатике , геномных исследованиях и преподавании. В науке он используется как платформа для тестирования новых алгоритмов машинного обучения и внедрения новых методов в генетике и биоинформатике. В образовании его использовали для обучения методам машинного обучения и интеллектуального анализа данных студентов биологии, биомедицины и информатики.
Расширения
Различные проекты основаны на Orange либо путем расширения основных компонентов с помощью надстроек, либо с использованием только Orange Canvas для использования реализованных функций визуального программирования и графического пользовательского интерфейса.
OASYS — ORange Synchrotron Suite [7]
scOrange — биостатистика отдельных клеток
Квазар — анализ данных в естественных науках
История
В 1996 году Люблянский университет и Институт Йожефа Стефана начали разработку ML*, среды машинного обучения на C++ , а в 1997 году для этой среды были разработаны привязки Python , которые вместе с появляющимися модулями Python образовали совместную структуру под названием Orange. В последующие годы большинство современных основных алгоритмов интеллектуального анализа данных и машинного обучения были реализованы в модулях C++ (ядро Orange) или Python.
В 2002 году были разработаны первые прототипы для создания гибкого графического пользовательского интерфейса с использованием мегавиджетов Pmw Python .
В 2003 году графический интерфейс пользователя был переработан и переработан для платформы Qt с использованием привязок PyQt Python. Была определена основа визуального программирования и началась разработка виджетов (графических компонентов конвейера анализа данных).
В 2005 году были созданы расширения для анализа данных в биоинформатике .
В 2008 году были разработаны установочные пакеты Mac OS X DMG и Fink .
В 2009 году было создано и поддерживается более 100 виджетов.
С 2009 года Orange находится в бета-версии 2.0, и на веб-сайте предлагаются установочные пакеты, основанные на ежедневном цикле компиляции.
В 2012 году была введена новая иерархия объектов, заменившая старую структуру, основанную на модулях.
В 2013 году был значительно изменен графический интерфейс пользователя, включивший новый набор инструментов и отображение рабочих процессов.
В 2015 году вышел Orange 3.0. Orange хранит данные в массивах NumPy ; Алгоритмы машинного обучения в основном используют scikit-learn .
В 2015 году было выпущено дополнение для анализа текста для Orange3.
В 2016 году Orange находится в версии 3.3. В разработке используется ежемесячный цикл стабильных выпусков.
В 2016 году началась разработка и выпуск дополнения Image Analytics с глубокими нейронными сетями на сервере для встраивания изображений [8].
В 2017 году была представлена надстройка «Спектроскопия» для анализа спектральных данных. [9]
В 2017 году было представлено дополнение Geo для работы с данными геолокации и визуализации географических карт [10].
В 2018 году начата разработка и выпуск дополнения для анализа одноклеточных данных. [11]
В 2019 году графический интерфейс Orange разрабатывается как отдельный проект Orange-Canvas-Core [12].
В 2020 году представлено дополнение «Объяснение» с виджетами для объяснения модели классификации или регрессии . В нем объясняется, какие функции вносят наибольший вклад и как они способствуют прогнозированию определенного класса.
В 2022 году будет представлено дополнение World Happiness к пакету интеллектуального анализа данных Orange3. Он предоставляет виджеты для доступа к социально-экономическим данным из различных баз данных, таких как World Happiness Report , World Development Indicators , OECD.
В 2022 году надстройка «Объяснение» расширена за счет графика индивидуального условного ожидания и метода важности функций перестановки.
Рекомендации
^ "orange3/CHANGELOG.md в master. biolab/orange3. GitHub" . Гитхаб .
^ «Выпуск 3.36.2» . 31 октября 2023 г. Проверено 19 ноября 2023 г.
^ «Оранжевый - Лицензия» .
^ «orange3/LICENSE на master. biolab/orange3. GitHub». Гитхаб .
^ Янез Демшар; Томаж Цурк; Алеш Эрьявец; Чрт Горуп; Томаж Хочевар; Митар Милутинович; Мартин Можина; Матия Полайнар; Марко Топлак; Анже Старич; Миха Стайдохар; Лан Умек; Лан Жагар; Юре Жбонтар; Маринка Житник; Блаж Жупан (2013). «Оранжевый: набор инструментов для интеллектуального анализа данных на Python» (PDF) . Журнал исследований машинного обучения . 14 (1): 2349–2353.
^ Санчес Дель Рио, Мануэль; Ребуффи, Лука (2017). «OASYS (или Ange SYnchrotron Suite): графическая среда с открытым исходным кодом для виртуальных рентгеновских экспериментов». В Чубарь, Олег; Сони, Кавал (ред.). Достижения в вычислительных методах рентгеновской оптики IV . п. 28. дои : 10.1117/12.2274263. ISBN9781510612334. S2CID 117118973.
^ Примож Годец; Матяж Панчур; Нейц Иленич; Андрей Чопар; Мартин Стражар; Алеш Эрьявец; Ажда Петнар; Янез Демшар; Марко Топлак; Анже Старич; Лан Жагар; Ян Хартман; Гамильтон Ван; Риккардо Беллацци; Урош Петрович; Сильвия Гаранья; Маурицио Зуккотти; Парк Донгсу; Гад Шаульский; Блаж Жупан (2019). «Демократизированная аналитика изображений с помощью визуального программирования за счет интеграции глубоких моделей и мелкомасштабного машинного обучения». Природные коммуникации . 10 (1): 4551. Бибкод : 2019NatCo..10.4551G. дои : 10.1038/s41467-019-12397-x. ПМК 6779910 . PMID 31591416. S2CID 203782491.
^ Марко Топлак; Стюарт Т. Рид; Кристоф Сандт; Ференц Борондич (2021). «Квазар: простое машинное обучение для биоспектроскопии». Клетки . 10 (9): 2300. doi : 10.3390/cells10092300 . ПМЦ 8466383 . ПМИД 34571947.