Семантический звук

Семантическое аудио — это извлечение смысла из аудиосигналов . Область семантического аудио в первую очередь основана на анализе аудио для создания некоторых значимых метаданных, которые затем могут быть использованы различными способами.

Семантический анализ

Семантический анализ аудио выполняется для того, чтобы раскрыть более глубокое понимание аудиосигнала. Обычно это приводит к высокоуровневым дескрипторам метаданных, таким как музыкальные аккорды и темп, или идентификации говорящего человека, чтобы облегчить управление аудиозаписями на основе контента. В последние годы рост автоматических методов анализа данных значительно возрос,

Поиск музыкальной информации
Распознавание звука
Сегментация речи
Автоматическая транскрипция музыки
Слепое разделение источников
Музыкальное сходство
Индексирование аудио, хеширование, поиск
Мониторинг вещания
Анализ музыкального исполнения

Приложения

С разработкой приложений, которые используют эту семантическую информацию для поддержки пользователя в идентификации, организации и исследовании аудиосигналов, а также взаимодействии с ними. Эти приложения включают поиск музыкальной информации, технологии семантической паутины, аудиопроизводство, воспроизведение звука, образование и игры. Семантическая технология подразумевает некоторое понимание смысла информации, с которой она имеет дело, и с этой целью может включать машинное обучение, цифровую обработку сигналов, обработку речи, разделение источников, перцептивные модели слуха, музыковедческие знания, метаданные и онтологии.

Помимо технологий поиска и рекомендаций аудио, семантика аудиосигналов также становится все более важной, например, в объектно-ориентированном аудиокодировании, а также в интеллектуальном аудиоредактировании и обработке. Недавние выпуски продуктов уже демонстрируют это в значительной степени, однако, более инновационные функции, основанные на семантическом аудиоанализе и управлении, неизбежны. Эти функции могут использовать, например, (информированное) разделение источников звука, сегментацию и идентификацию говорящих, структурную сегментацию музыки или социальные и семантические веб- технологии, включая онтологии и связанные открытые данные.

Распознавание речи является важным семантическим аудиоприложением. Но для речи другие семантические операции включают идентификацию языка , идентификацию говорящего или идентификацию пола. Для более общего аудио или музыки это включает идентификацию музыкального произведения (например, Shazam (музыкальное приложение) ) или саундтрека к фильму.

Области исследований в области семантического звука включают возможность маркировать звуковую волну, отмечая, где изменяются гармонии и каковы они, где материал повторяется и какие инструменты играют.

Семантическое аудио и семантическая паутина

Semantic Web предоставляет мощную структуру для выражения и повторного использования структурированных данных. Использование и хранение семантических аудиодескрипторов в структуре semantic web позволяет достичь гораздо большего охвата и унифицировать стандарт для хранения и управления связанными семантическими аудиометаданными. Для хранения и управления аудио в semantic web был разработан ряд онтологий, включая (Music Ontology)[1], (Studio Ontology)[2] и (Audio Feature Ontology)[3].

Семантический слух

Семантический слух был предложен для гарнитур, чтобы позволить пользователям выбирать, какие звуки они хотят слышать в своей среде, на основе их семантического описания. ^[1] Эта технология шумоподавления для наушников использует нейронные сети в реальном времени , чтобы позволить пользователям выбирать определенные звуки, которые они хотели бы слышать, такие как плач младенцев, щебетание птиц или звон будильника. ^[2] Этот тип возможностей наушников и вкладышей может предоставить пользователям определенную степень контроля над звуками, которые их окружают. Это может принести пользу людям, которым требуется сосредоточенное слушание для их работы, например, работникам здравоохранения, военным и инженерам, или рабочим на заводах или строителях, а также для проектирования интеллектуальных слуховых аппаратов. ^[2]

Смотрите также

Аудиоанализ

Ссылки

^ Veluri, Bandhav; Itani, Malek; Chan, Justin; Yoshioka, Takuya; Gollakota, Shyamnath (2023-10-29). «Семантический слух: программирование акустических сцен с помощью бинауральных слуховых устройств». Труды 36-го ежегодного симпозиума ACM по программному обеспечению и технологиям пользовательского интерфейса . UIST '23. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 1–15. arXiv : 2311.00320 . doi :10.1145/3586183.3606779. ISBN 979-8-4007-0132-0.
^ ab «Шумоподавляющие наушники позволят вам выбирать звуки, которые вы хотите слышать». MIT Technology Review . Получено 11 ноября 2023 г.

Внешние ссылки

Учебное пособие по разделению источников
Технический комитет Общества инженеров-аудиоспециалистов по семантическому анализу звука
AES 42-я Международная конференция по семантическому аудио
53-я международная конференция AES по семантическому аудио
Международная конференция AES 2017 по семантическому аудио