Акустический отпечаток — это сжатое цифровое резюме, цифровой отпечаток , детерминированно сгенерированный из аудиосигнала , который может быть использован для идентификации аудиосэмпла или быстрого поиска похожих элементов в музыкальной базе данных . [1]
Практическое применение акустических отпечатков пальцев включает идентификацию песен , мелодий , напевов или рекламы ; управление библиотекой звуковых эффектов ; и идентификацию видеофайлов . Идентификация носителей с использованием акустических отпечатков пальцев может использоваться для мониторинга использования определенных музыкальных произведений и выступлений в радиовещании , на записях , компакт-дисках , в потоковых медиа и одноранговых сетях. Эта идентификация использовалась в соответствии с авторскими правами, лицензировании и других схемах монетизации .
Надежный алгоритм акустического отпечатка должен учитывать перцептивные характеристики звука. Если два файла звучат одинаково для человеческого уха, их акустические отпечатки должны совпадать, даже если их двоичные представления сильно различаются. Акустические отпечатки не являются хэш-функциями , которые чувствительны к любым небольшим изменениям в данных. Акустические отпечатки больше похожи на отпечатки пальцев человека, где небольшие изменения, незначительные для особенностей, используемых отпечатком, допускаются. Можно представить себе случай размазанного отпечатка человеческого отпечатка пальца, который можно точно сопоставить с другим образцом отпечатка пальца в справочной базе данных; акустические отпечатки работают аналогично.
Перцептивные характеристики, часто используемые для создания звуковых отпечатков, включают среднюю скорость пересечения нуля , предполагаемый темп , средний спектр , спектральную плоскость , выраженные тоны в наборе частотных диапазонов и полосу пропускания .
Большинство методов сжатия звука радикально меняют двоичное кодирование аудиофайла, не влияя радикально на то, как он воспринимается человеческим ухом. Надежный акустический отпечаток позволит идентифицировать запись после того, как она прошла через такое сжатие, даже если качество звука значительно ухудшилось. Для использования в мониторинге радиовещания акустические отпечатки также должны быть нечувствительны к артефактам аналоговой передачи .
Генерация сигнатуры из аудио имеет важное значение для поиска по звуку . Одним из распространенных методов является создание частотно-временного графика, называемого спектрограммой .
Любой фрагмент аудио может быть преобразован в спектрограмму. Каждый фрагмент аудио разбивается на сегменты по времени. В некоторых случаях смежные сегменты имеют общую временную границу, в других случаях смежные сегменты могут перекрываться. Результатом является график, который отображает три измерения аудио: частота против амплитуды (интенсивности) против времени.
Алгоритм Shazam выбирает точки, где в спектрограмме есть пики, которые представляют более высокое содержание энергии. [2] Сосредоточение внимания на пиках в аудио значительно снижает влияние фонового шума на аудиоидентификацию. Shazam строит свой каталог отпечатков пальцев как хэш-таблицу , где ключом является частота. Они не просто отмечают одну точку в спектрограмме, а отмечают пару точек: пиковую интенсивность плюс вторую опорную точку . [3] Таким образом, их ключ базы данных — это не просто одна частота, это хэш частот обеих точек. Это приводит к меньшему количеству коллизий хэша, что повышает производительность хэш-таблицы. [4]