stringtranslate.com

Apache СИНГА

Apache SINGA — это проект Apache верхнего уровня для разработки библиотеки машинного обучения с открытым исходным кодом . Он предоставляет гибкую архитектуру для масштабируемого распределенного обучения, расширяем для работы на широком спектре оборудования и ориентирован на приложения в сфере здравоохранения.

Apache SINGA получила премию SIGMOD Systems Award 2024 [1] за разработку распределенной, эффективной, масштабируемой и простой в использовании платформы глубокого обучения для крупномасштабной аналитики данных .

История

Проект SINGA был инициирован DB System Group в Национальном университете Сингапура в 2014 году в сотрудничестве с группой баз данных Чжэцзянского университета с целью поддержки сложной аналитики в масштабе и повышения интеллектуальности и автономности систем баз данных . [2] Он был сосредоточен на распределенном глубоком обучении путем разбиения модели и данных на узлы в кластере и распараллеливания обучения. [3] [4] Прототип был принят Apache Incubator в марте 2015 года и получил статус проекта верхнего уровня в октябре 2019 года. В таблице ниже собрана информация о различных типах версий, например, последняя версия, последняя предварительная версия, более старые версии, которые все еще поддерживаются, и старые версии.

Программный стек

Программный стек SINGA включает три основных компонента, а именно ядро, IO и модель. На следующем рисунке эти компоненты показаны вместе с аппаратным обеспечением. Основной компонент обеспечивает управление памятью и тензорные операции; IO имеет классы для чтения (и записи) данных с (на) диск и сеть; Компонент модели предоставляет структуры данных и алгоритмы для моделей машинного обучения, например, слои для моделей нейронных сетей , оптимизаторы/инициализаторы/метрики/потери для общих моделей машинного обучения.

Программный стек Apache Singa
Программный стек Apache Singa

SINGA-Авто

SINGA-Auto (также известная как Rafiki [5] в VLDB2018) — это подсистема Apache SINGA для предоставления услуг обучения и вывода моделей машинного обучения. SINGA-Auto освобождает пользователей от построения моделей машинного обучения, настройки гиперпараметров и оптимизации точности и скорости прогнозирования. Пользователи могут просто загрузить свои наборы данных, настроить службу для проведения обучения, а затем развернуть модель для вывода. Как облачная сервисная система, SINGA-Auto управляет аппаратными ресурсами, восстановлением после сбоев и т. д. Для простоты использования она предоставляет зоопарк моделей, который представляет собой набор встроенных моделей машинного обучения для популярных задач, таких как аналитика структурированных данных (например, данных EMR), распознавание изображений и обработка текста.

В сервисе обучения предлагается общая структура для распределенной настройки гиперпараметров, а также схема совместной настройки, разработанная специально для моделей глубокого обучения. В сервисе вывода предлагается алгоритм планирования на основе обучения с подкреплением для оптимизации общей точности и сокращения задержки. Он может адаптироваться к изменениям частоты запросов.

SINGA-легко

SINGA-Easy [6] (ACM Multimedia 2021) — это простая в использовании структура глубокого обучения, созданная как компонент Apache SINGA для облегчения принятия алгоритмов глубокого обучения и служб вывода пользователями доменных приложений, специфичных для определенной области (например, мультимедиа, анализ медицинских изображений). Она обеспечивает распределенную настройку гиперпараметров на этапе обучения, динамический контроль вычислительных затрат на этапе вывода и интуитивно понятное взаимодействие пользователя с мультимедийным контентом, облегчаемое объяснением модели. Для повышения точности она поддерживает методы регуляризации для регуляризации изображений и структурированных данных (ACM SIGMOD 2023). Для поддержки принятия пользователями домена результатов обучения SINGA-Easy предоставляет пользователям возможность оценивать производительность модели с точки зрения объяснения модели на основе LIME [7] и Grad-CAM. [8]

MLCask

MLCask [9] (IEEE ICDE 2021) — это подсистема управления конвейерами, которая управляет конвейерами машинного обучения, от очистки данных до аналитики данных, чтобы упростить обслуживание развития и версионирования конвейеров машинного обучения для совместной аналитики. Она служит для снижения стоимости и упрощения внедрения. MLCask поддерживает сквозное управление жизненным циклом машинного обучения в стиле Git. Используя историю версий компонентов конвейера и рабочего пространства, MLCask может пропускать неизменные этапы предварительной обработки для решения частых проблем переобучения. Его нелинейная семантика управления версиями и операция слияния облегчают эффективную совместную разработку конвейера.

Выбор модели в базе данных

Начиная с версии 4.1.0, Apache SINGA обеспечивает поддержку выбора и вывода модели в базе данных в PostgreSQL. Система реализует ресурсоэффективный двухфазный алгоритм выбора модели, который включает в себя как методы выбора модели без обучения, так и методы выбора модели на основе обучения. Этот алгоритм выбора модели неинтрузивно интегрируется в PostgreSQL через хранимые процедуры с оптимизацией задержки выполнения и потребления памяти. Включение выбора модели в базе данных позволяет пользователям получать высокопроизводительные модели в рамках указанных ими требований по времени отклика.

Приложения

Apache SINGA [10] используется в таких организациях, как NetEase , [11] Carnegie Technologies, CBRE , Citigroup , JurongHealth Hospital , National University of Singapore, National University Hospital , Noblis , Shentilium Technologies, Singapore General Hospital , Tan Tock Seng Hospital , YZBigData и других. Apache SINGA используется в приложениях в банковском деле, образовании, финансах, здравоохранении, недвижимости, разработке программного обеспечения и других категориях.

Apache SINGA и социальное благо

Больница общего профиля Ng Teng Fong [12] совместно с командой Apache SINGA разработала приложение для людей с диагнозом преддиабет — состояние, при котором уровень глюкозы в крови выше нормы, но недостаточно высок, чтобы его можно было классифицировать как диабет.

Приложение JurongHealth Food Log (JHFoodLg) использует Apache SINGA для сопоставления фотографий еды с базой данных местных блюд, включая наси паданг , лаксу и рис чар сью , и использует данные о питании из Health Promotion Board, JurongHealth Campus и Australian Food and Nutrient Database. После комплексной очистки данных (например, последовательного форматирования, дедупликации , классификации пищевых продуктов, калибровки человеком) база данных содержит 209 861 изображение, охватывающих 13 групп продуктов питания и 233 категории продуктов питания.

Приложение позволяет пользователям программы Lifestyle Intervention (Liven) больницы устанавливать цели по снижению веса и физическим упражнениям. Шестимесячное исследование показывает, что почти все 20 пациентов, которые использовали приложение, потеряли от 4 до 5 процентов от своего первоначального веса.

Смотрите также

Ссылки

  1. ^ «Премия SIGMOD Systems».
  2. ^ Вэй, Ван; Мэйхуэй, Чжан; Ган, Чэнь; ХВ, Джагадиш; Бэн Чин, Уи; Киан-Ли, Тан (июнь 2016 г.). «Database Meets Deep Learning: Challenges and Opportunities». SIGMOD Record . 45 (2): 17–22. arXiv : 1906.08986 . doi : 10.1145/3003665.3003669. S2CID  6526411.
  3. ^ Оой, Бенг Чин; Тан, Киан-Ли; Шэн, Ван; Ван, Вэй; Цай, Цинчао; Чен, Банда; Гао, Цзиньян; Ло, Чжаоцзин; Тунг, Энтони К.Х.; Ван, Юань; Се, Чжунлэ; Чжан, Мэйхуэй; Чжэн, Кайпин (2015). «SINGA: Распределенная платформа глубокого обучения» (PDF) . Материалы 23-й международной конференции ACM по мультимедиа . стр. 685–688. дои : 10.1145/2733373.2807410 . S2CID  1840240 . Проверено 8 сентября 2016 г.
  4. ^ Вэй, Ван; Чэнь, Ган; Ань Динь, Тьен Туан; Гао, Цзиньян; Уй, Бэн Чин; Тан, Киан-Ли; Шэн, Ван (2015). "SINGA: Передаем глубокое обучение в руки пользователей мультимедиа" (PDF) . Труды 23-й международной конференции ACM по мультимедиа . стр. 25–34. doi :10.1145/2733373.2806232. S2CID  7169465. Получено 8 сентября 2016 г.
  5. ^ Ван, Вэй; Гао, Цзиньян; Чжан, Мэйхуэй; Шэн, Ван; Чэнь, Ганг; Ким Нг, Тек; Уй, Бэн Чин; Шао, Цзе; Рейад, Моаз (2018). «Рафики: Машинное обучение как система аналитических услуг» (PDF) . Труды VLDB Endowment . 12 (2): 128–140. arXiv : 1804.06087 . Bibcode :2018arXiv180406087W. doi :10.14778/3282495.3282499. S2CID  4898729 . Получено 9 января 2019 г. .
  6. ^ Син, Наили; Йенг, Сай Хо; Цай, Чэнхао; Нг, Тек Ким; Ван, Вэй; Ян, Кайюань; Ян, Нань; Чжан, Мэйхуэй; Чэнь, Ганг; Уй, Бэн Чин (2021). "SINGA-Easy: простая в использовании структура для мультимодального анализа" (PDF) . Труды 29-й международной конференции ACM по мультимедиа . стр. 1293–1302. doi :10.1145/3474085.3475176. ISBN 978-1-4503-8651-7. Получено 17 октября 2021 г. .
  7. ^ Рибейро, Марко Тулио; Сингх, Самир; Гестрин, Карлос (2017). «Почему я должен вам доверять?»: Объяснение прогнозов любого классификатора» (PDF) . Труды 22-й международной конференции ACM SIGKDD по обнаружению знаний и интеллектуальному анализу данных . С. 97–101. arXiv : 1602.04938 . doi : 10.1145/2939672.2939778 . Получено 1 августа 2016 г.
  8. ^ Selvaraju, Ramprasaath R.; Cogswell, Michael; Das, Abhishek; Vedantam, Ramakrishna; Parikh, Devi; Batra, Dhruv (2017). "Grad-CAM: Визуальные объяснения из глубоких сетей с помощью локализации на основе градиента" (PDF) . Международная конференция IEEE по компьютерному зрению (ICCV) 2017 г. стр. 618–626. arXiv : 1610.02391 . doi : 10.1109/ICCV.2017.74. ISBN 978-1-5386-1032-9.
  9. ^ Luo, Zhaojing; Yeung, Sai Ho; Zhang, Meihui; Zheng, Kaiping; Zhu, Lei; Chen, Gang; Fan, Feiyi; Lin, Qian; Ngiam, Kee Yuan; Ooi, Beng Chin (2021). "MLCask: эффективное управление эволюцией компонентов в конвейерах совместной аналитики данных". 2021 IEEE 37-я Международная конференция по инжинирингу данных (ICDE) . стр. 1655–1666. arXiv : 2010.10246 . doi :10.1109/ICDE51399.2021.00146. ISBN 978-1-7281-9184-3. S2CID  224802796.
  10. ^ "APACHE SOFTWARE FOUNDATION ОБЪЯВЛЯЕТ APACHE SINGA КАК ПРОЕКТ ВЕРХНЕГО УРОВНЯ". news.apache.org . 4 ноября 2019 г. . Получено 4 ноября 2019 г. .
  11. ^ 网易 (2 июня 2017 г.). «网易携手Apache SINGA角逐人工智能新战场_网易科技». tech.163.com . Проверено 3 июня 2017 г.
  12. ^ «Новое приложение позволяет людям с преддиабетом использовать фотографии своей еды, чтобы проверить, полезна ли она». The Straits Times . 24 января 2019 г. Получено 6 апреля 2019 г.

Внешние ссылки