Apache SystemDS

Apache SystemDS (ранее Apache SystemML) — это система машинного обучения с открытым исходным кодом для сквозного жизненного цикла науки о данных.

Отличительные характеристики SystemDS:

Возможность настройки алгоритма с помощью языков типа R и Python.
Несколько режимов выполнения, включая Standalone, Spark Batch, Spark MLContext, Hadoop Batch и JMLC.
Автоматическая оптимизация на основе данных и характеристик кластера для обеспечения эффективности и масштабируемости.

История

SystemML был создан в 2010 году исследователями из исследовательского центра IBM Almaden под руководством сотрудника IBM Шивакумара Вайтьянатана. Было замечено, что специалисты по данным пишут алгоритмы машинного обучения на таких языках, как R и Python, для небольших данных. Когда наступало время масштабирования для больших данных, требовался системный программист для масштабирования алгоритма на таком языке, как Scala . Этот процесс обычно занимал дни или недели на итерацию, и при переводе алгоритмов для работы с большими данными возникали ошибки. SystemML стремится упростить этот процесс. Основной целью SystemML является автоматическое масштабирование алгоритма, написанного на языке, похожем на R или Python, для работы с большими данными, генерируя тот же ответ без подверженного ошибкам многоитеративного подхода к переводу.

15 июня 2015 года на саммите Spark в Сан-Франциско Бет Смит, генеральный менеджер IBM Analytics, объявила, что IBM открывает исходный код SystemML в рамках основных обязательств IBM по Apache Spark и связанным со Spark проектам. SystemML стал общедоступным на GitHub 27 августа 2015 года и стал проектом Apache Incubator 2 ноября 2015 года. 17 мая 2017 года совет Apache Software Foundation одобрил выпуск Apache SystemML в качестве проекта Apache Top Level Project.

Ключевые технологии

Ниже приведены некоторые технологии, встроенные в движок SystemDS.

Сжатая линейная алгебра для крупномасштабного машинного обучения
Декларативный язык машинного обучения

Примеры

Анализ главных компонент

Следующий фрагмент кода ^[1] выполняет анализ главных компонентов входной матрицы , который возвращает и . $А$ $собственные векторы$ ${\textstyle собственные значения}$

# PCA.dml# Ссылка: https://github.com/apache/systemds/blob/master/scripts/algorithms/PCA.dml#L61N = nrow ( A );  D = ncol ( A );  # выполнить z-оценку (центрирование и масштабирование)A = масштаб ( A , центр == 1 , масштаб == 1 );    # матрица ковариацииmu = colSums ( A ) / N ;  C = ( t ( A ) %*% A ) / ( N -1 ) - ( N / ( N -1 )) * t ( mu ) %*% mu ;        # вычислить собственные векторы и значения[ значения , эвекторы ] = собственные ( C );

Скрипт вызова

spark-submit SystemDS.jar -f PCA.dml -nvargs ВХОД=КАТАЛОГ_ВХОДА/pca-1000x1000 \  ВЫХОД=КАТАЛОГ_ВХОДА/pca-1000x1000-model ДАННЫЕ_ПРОЕКТА=1 ЦЕНТР=1 МАСШТАБ=1

Функции базы данных

Алгоритм кластеризации DBSCAN с евклидовым расстоянием .

X = rand ( строки = 1780 , столбцы = 180 , мин = 1 , макс = 20 )      [ индексы , модель ] = dbscan ( X = X , eps = 2.5 , minPts = 360 )

Улучшения

SystemDS 2.0.0 — первый крупный релиз под новым названием. Этот релиз содержит крупный рефакторинг, несколько крупных функций, большое количество улучшений и исправлений, а также несколько экспериментальных функций для лучшей поддержки сквозного жизненного цикла науки о данных. Кроме того, этот релиз также удаляет несколько функций, которые не являются актуальными и устаревшими.

Новый механизм для функций на основе DML (уровня скрипта) builtinи множество новых встроенных функций для предварительной обработки данных, включая методы очистки данных, дополнения и проектирования признаков, новые алгоритмы машинного обучения и отладки моделей.
Реализовано несколько методов очистки данных, включая множественные подстановки с многомерной подстановкой с помощью цепочечных уравнений (MICE) и другие методы, SMOTE, метод избыточной выборки для дисбаланса классов, прямое и обратное заполнение NA, очистка с использованием информации о схеме и длине, поддержка обнаружения выбросов с использованием стандартного отклонения и межквартильного размаха, а также обнаружение функциональной зависимости.
Полная структура для отслеживания происхождения и повторного использования, включая поддержку дедупликации циклов, полного и частичного повторного использования, повторного использования с помощью компилятора, несколько новых переписываний для упрощения повторного использования.
Новый интегрированный бэкэнд среды выполнения, включающий поддержку интегрированных матриц и фреймов, интегрированных builtins ( transform-encodeи decodeт. д.).
Реорганизовать пакет сжатия и добавить функциональные возможности, включая квантование для сжатия с потерями, операции с двоичными ячейками, левое матричное умножение. [экспериментально]
Новые привязки Python с поддержкой нескольких builtins, матричных операций, федеративных тензоров и трассировок родословных.
Реализация CUDA кумулятивных агрегатных операторов ( cumsumи cumprodт.д.)
Новая методика отладки модели с помощью поиска слайсов.
Новая модель тензорных данных (базовые тензоры различных типов значений, тензоры данных со схемой) [экспериментальная]
Скрипты развертывания облака для AWS и скрипты для настройки и запуска федеративных операций.
Улучшения производительности с parallel sort, gpu cum agg, append cbindи т.д.
Различные улучшения компилятора и среды выполнения, включая новые и улучшенные переписывания, сокращенное создание контекста Spark, новый evalфреймворк, операции со списками, обновленные собственные библиотеки ядра и многое другое.
Новый считыватель/записыватель данных для jsonфреймов и поддержка sqlв качестве источника данных.
Различные улучшения: улучшенная документация, лучшее тестирование, скрипты запуска/выпуска, улучшенная упаковка, контейнер Docker для systemds, поддержка лямбда-выражений, исправления ошибок.
Удалены компилятор MapReduce и бэкэнд среды выполнения, pydmlпарсер, фреймворк Java-UDF, отладчик уровня скрипта.
Устарело ./scripts/algorithms, поскольку эти алгоритмы постепенно станут частью SystemDS builtin.

^[2]

Вклады

Apache SystemDS приветствует вклад в виде кода, вопросов и ответов, создания сообщества или распространения информации. Руководство для участников доступно по адресу https://github.com/apache/systemds/blob/main/CONTRIBUTING.md

Смотрите также

Сравнение программного обеспечения для глубокого обучения

Ссылки

^ Apache SystemDS, Apache Software Foundation, 2022-02-24 , получено 2022-03-06
^ SystemDS, Apache. "SystemML 1.2.0 Release Notes". systemds.apache.org . Получено 2021-02-26 .

Внешние ссылки

Веб-сайт Apache SystemML
Исследования IBM - SystemML
Вопросы и ответы с Шивом Вайтьянатаном, создателем SystemML и членом IBM
Универсальный переводчик для больших данных и машинного обучения
SystemML: презентация масштабного декларативного машинного обучения Фреда Рейсса
SystemML: Декларативное машинное обучение на MapReduce Архивировано 10.03.2016 на Wayback Machine
Гибридные стратегии распараллеливания для крупномасштабного машинного обучения в SystemML
Оптимизатор SystemML: генерация плана для крупномасштабных программ машинного обучения
Система машинного обучения SystemML от IBM становится проектом Apache Incubator
IBM жертвует технологию машинного обучения сообществу разработчиков ПО с открытым исходным кодом Apache Spark
SystemML от IBM продвигается вперед как проект Apache Incubator