Поиск музыкальной информации ( MIR ) — междисциплинарная наука извлечения информации из музыки . Те, кто занимается MIR, могут иметь опыт в академическом музыковедении , психоакустике , психологии , обработке сигналов , информатике , машинном обучении , оптическом распознавании музыки , вычислительном интеллекте или в некоторой комбинации этих областей.
Поиск музыкальной информации используется предприятиями и учеными для категоризации, обработки и даже создания музыки.
Одной из классических тем исследований MIR является жанровая классификация, которая относит музыкальные произведения к одному из предопределенных жанров, таких как классика , джаз , рок и т. д. Также популярными темами являются классификация по настроению , классификация исполнителей, идентификация инструментов и музыкальные теги.
Несколько систем рекомендаций для музыки уже существуют, но удивительно, что лишь немногие из них основаны на методах MIR, а не на использовании сходства между пользователями или трудоемкой компиляции данных. Pandora , например, использует экспертов для маркировки музыки определенными качествами, такими как «певица» или «сильная басовая линия». Многие другие системы находят пользователей, чья история прослушивания похожа, и предлагают пользователям неслыханную музыку из их соответствующих коллекций. Методы MIR для сходства в музыке теперь начинают становиться частью таких систем.
Разделение источника музыки заключается в разделении исходных сигналов от смешанного аудиосигнала . Распознавание инструментов заключается в идентификации инструментов, задействованных в музыке. Были разработаны различные системы MIR, которые могут разделять музыку на ее составляющие треки без доступа к мастер-копии. Таким образом, например, треки караоке могут быть созданы из обычных музыкальных треков, хотя этот процесс пока не идеален из-за того, что вокал занимает часть того же частотного пространства, что и другие инструменты.
Автоматическая музыкальная транскрипция — это процесс преобразования аудиозаписи в символическую нотацию, такую как партитура или MIDI-файл . [1] Этот процесс включает в себя несколько задач аудиоанализа, которые могут включать в себя обнаружение нескольких тонов, обнаружение начала , оценку длительности, идентификацию инструмента и извлечение гармонической , ритмической или мелодической информации. Эта задача становится сложнее с большим количеством инструментов и большим уровнем полифонии .
Автоматическая генерация музыки является целью многих исследователей MIR. Попытки были сделаны с ограниченным успехом с точки зрения человеческой оценки результатов.
Партитуры дают четкое и логичное описание музыки, с которой можно работать, но доступ к нотам , будь то цифровые или иные, часто непрактичен. Музыка MIDI также использовалась по аналогичным причинам, но некоторые данные теряются при преобразовании в MIDI из любого другого формата, если только музыка не была написана с учетом стандартов MIDI, что бывает редко. Цифровые аудиоформаты , такие как WAV , mp3 и ogg, используются, когда само аудио является частью анализа. Форматы с потерями, такие как mp3 и ogg, хорошо работают с человеческим ухом, но могут не содержать важных данных для изучения. Кроме того, некоторые кодировки создают артефакты, которые могут ввести в заблуждение любой автоматический анализатор. Несмотря на это, повсеместное распространение mp3 означало, что многие исследования в этой области используют их в качестве исходного материала. Все чаще метаданные , извлеченные из Интернета, включаются в MIR для более полного понимания музыки в ее культурном контексте, и в последнее время это состоит из анализа социальных тегов для музыки.
Анализ часто может потребовать некоторого обобщения, [2] и для музыки (как и для многих других форм данных) это достигается путем извлечения признаков , особенно когда анализируется сам аудиоконтент и должно применяться машинное обучение . Цель состоит в том, чтобы сократить чистое количество данных до управляемого набора значений, чтобы обучение могло быть выполнено в разумные сроки. Одной из распространенных извлеченных особенностей является коэффициент мел-частотного кепстрального сигнала (MFCC), который является мерой тембра музыкального произведения . Другие особенности могут использоваться для представления тональности , аккордов , гармоний , мелодии , основной высоты тона , ударов в минуту или ритма в произведении. Существует ряд доступных инструментов извлечения аудиопризнаков [3] Доступно здесь