Аудиоинтерполяция (также известная как аудиоинтерполяция ) — это задача восстановления звука , которая занимается реконструкцией отсутствующих или поврежденных частей цифрового аудиосигнала . [1] Методы инрисовки применяются, когда части звука были утеряны из-за различных факторов, таких как ошибки передачи, повреждение данных или ошибки во время записи. [2]
Целью аудиоинрисовки является бесшовное заполнение пробелов (т. е. недостающих частей) в аудиосигнале, что делает восстановленные части неотличимыми от исходного содержания и позволяет избежать внесения слышимых искажений или изменений. [3]
Для решения проблемы аудиоинрисовки было предложено много методов, и обычно это достигается путем анализа временной [1] [4] [5] и спектральной [3] [2] информации, окружающей каждую отсутствующую часть рассматриваемого аудиосигнала.
Классические методы используют статистические модели или алгоритмы цифровой обработки сигналов [1] [4] [5] для прогнозирования и синтеза отсутствующих или поврежденных участков. Недавние решения, напротив, используют преимущества моделей глубокого обучения благодаря растущей тенденции использования методов, основанных на данных, в контексте восстановления аудио. [3] [2] [6]
В зависимости от объема потерянной информации задачу инрисовки можно разделить на три категории. Короткая инрисовка относится к реконструкции нескольких миллисекунд (приблизительно менее 10) отсутствующего сигнала, что происходит в случае коротких искажений, таких как щелчки или обрезка . [7] В этом случае целью реконструкции является точное восстановление потерянной информации. При длительной инрисовке, вместо этого, с пробелами порядка сотен миллисекунд или даже секунд, эта цель становится нереалистичной, поскольку методы восстановления не могут полагаться на локальную информацию. [8] Поэтому, помимо обеспечения согласованной реконструкции, алгоритмы должны генерировать новую информацию, которая должна быть семантически совместима с окружающим контекстом (т. е. аудиосигналом, окружающим пробелы). [3] Случай пробелов средней длительности лежит между короткой и длинной инрисовкой. Она относится к реконструкции десятков миллисекунд отсутствующих данных, масштаб, где нестационарная характеристика звука уже становится важной. [9]
Рассмотрим цифровой аудиосигнал . Поврежденная версия , которая является аудиосигналом, представляющим пропущенные пробелы для восстановления, может быть определена как , где — двоичная маска, кодирующая надежные или пропущенные образцы , и представляет собой поэлементное произведение . [2] Аудиоинрисинг направлен на поиск (т. е. реконструкцию), которая является оценкой . Это некорректно поставленная обратная задача , которая характеризуется неуникальным набором решений. [2] По этой причине, аналогично формулировке, используемой для проблемы инрисинга в других областях, [10] [11] [12] восстановленный аудиосигнал может быть найден с помощью задачи оптимизации , которая формально выражается как
.
В частности, является оптимальным восстановленным аудиосигналом и является термином меры расстояния , который вычисляет точность восстановления между поврежденным аудиосигналом и оцененным. [10] Например, этот термин может быть выражен с помощью среднеквадратической ошибки или аналогичных метрик .
Так как вычисляется только на надежных кадрах, существует много решений, которые могут минимизировать . Таким образом, необходимо добавить ограничение к минимизации, чтобы ограничить результаты только допустимыми решениями. [12] [11] Это выражается через член регуляризации , который вычисляется на восстановленном аудиосигнале . Этот член кодирует некоторую априорную информацию об аудиоданных. Например, может выражать предположения о стационарности сигнала, о разреженности его представления или может быть извлечен из данных. [12] [11]
Существуют различные методы выполнения аудиоинрисовки. Они могут значительно различаться в зависимости от таких факторов, как требования конкретного приложения, длина промежутков и доступные данные. [3] В литературе эти методы в целом делятся на методы, основанные на моделях (иногда также называемые методами обработки сигналов) [3] и методы, основанные на данных. [2]
Методы на основе моделей включают использование математических моделей или предположений о базовой структуре аудиосигнала. Эти модели могут быть основаны на предшествующих знаниях аудиоконтента или статистических свойствах, наблюдаемых в данных. Используя эти модели, можно вывести или оценить отсутствующие или поврежденные части аудиосигнала. [1]
Примером методов на основе модели являются авторегрессионные модели . [5] [13] Эти методы интерполируют или экстраполируют недостающие образцы на основе соседних значений, используя математические функции для аппроксимации недостающих данных. В частности, в авторегрессионных моделях недостающие образцы восполняются с помощью линейного предсказания. [14] Авторегрессионные коэффициенты, необходимые для этого предсказания, извлекаются из окружающих аудиоданных, в частности из данных, смежных с каждым пробелом. [5] [13]
Некоторые более современные методы подходят к звуковой инрисовке, представляя аудиосигналы как разреженные линейные комбинации ограниченного числа базисных функций (например, в кратковременном преобразовании Фурье ). [1] [15] В этом контексте цель состоит в том, чтобы найти разреженное представление отсутствующей части сигнала, которое наиболее точно соответствует окружающему, не затронутому сигналу. [1]
Вышеупомянутые методы демонстрируют оптимальную производительность при применении для заполнения относительно коротких промежутков, длящихся всего несколько десятков миллисекунд, и, таким образом, их можно включить в контекст короткой инрисовки. Однако эти методы обработки сигналов, как правило, испытывают трудности при работе с более длинными промежутками. [2] Причина этого ограничения заключается в нарушении условия стационарности, поскольку сигнал часто претерпевает значительные изменения после промежутка, что делает его существенно отличным от сигнала, предшествующего промежутку. [2]
Чтобы преодолеть эти ограничения, некоторые подходы также добавляют сильные предположения о фундаментальной структуре самого зазора, используя синусоидальное моделирование [16] или графики подобия [8] для выполнения восстановления более длинных отсутствующих участков аудиосигналов.
Методы, основанные на данных, основаны на анализе и использовании доступных аудиоданных. Эти методы часто используют алгоритмы глубокого обучения , которые изучают закономерности и взаимосвязи непосредственно из предоставленных данных. Они включают в себя обучение моделей на больших наборах данных аудиопримеров, что позволяет им улавливать статистические закономерности, присутствующие в аудиосигналах. После обучения эти модели могут использоваться для генерации недостающих частей аудиосигнала на основе изученных представлений, не будучи ограниченными предположениями о стационарности. [3] Методы, основанные на данных, также предлагают преимущество адаптивности и гибкости, поскольку они могут учиться на различных аудионаборах данных и потенциально обрабатывать сложные сценарии инрисовки. [3]
На сегодняшний день такие методы представляют собой передовые технологии аудиоинрисовки, способные восстанавливать пробелы в сотни миллисекунд или даже секунды. Эти возможности стали возможными благодаря использованию генеративных моделей , которые способны генерировать новый контент для заполнения недостающих частей. Например, генеративные состязательные сети , которые являются передовыми генеративными моделями во многих областях, опираются на две конкурирующие нейронные сети, обученные одновременно в игре minmax для двух игроков : генератор создает новые данные из выборок случайной величины, дискриминатор пытается отличить сгенерированные и реальные данные. [17] Во время обучения цель генератора — обмануть дискриминатор, в то время как дискриминатор пытается научиться лучше классифицировать реальные и поддельные данные. [17]
В методах инпанирования на основе GAN генератор действует как контекстный кодер и производит правдоподобное заполнение пробела только с учетом доступной информации, окружающей его. [3] Дискриминатор используется для обучения генератора и проверки согласованности произведенного инпанпонированного звука. [3]
Недавно также модели диффузии зарекомендовали себя как передовые генеративные модели во многих областях, часто превосходя даже решения на основе GAN. По этой причине они также использовались для решения проблемы аудиоинрисинга, получая достоверные результаты. [2] Эти модели генерируют новые экземпляры данных путем инвертирования процесса диффузии, где выборки данных постепенно преобразуются в гауссовский шум. [2]
Одним из недостатков генеративных моделей является то, что им обычно требуется огромное количество обучающих данных . Это необходимо для того, чтобы сеть хорошо обобщала и могла производить связную аудиоинформацию, которая также представляет некоторую структурную сложность. [6] Тем не менее, некоторые работы продемонстрировали, что улавливание сути аудиосигнала также возможно, используя всего несколько десятков секунд из одного обучающего образца. [6] [18] [19] Это делается путем переобучения генеративной нейронной сети одному обучающему аудиосигналу. Таким образом, исследователи смогли выполнить аудиоинрисинг без использования больших наборов данных. [6] [19]
Аудиоинрисинг находит применение в широком спектре областей, включая аудиореставрацию и аудиокриминалистику среди прочих. В этих областях аудиоинрисинг может использоваться для устранения шума, сбоев или нежелательных искажений из аудиозаписи, тем самым повышая ее качество и разборчивость. Его также можно использовать для восстановления испорченных старых записей, которые были затронуты локальными изменениями или имеют отсутствующие аудиосэмплы из-за царапин на компакт-дисках . [2]
Аудиоинрисинг также тесно связан с сокрытием потери пакетов (PLC). В задаче PLC необходимо компенсировать потерю аудиопакетов в сетях связи. В то время как обе задачи направлены на заполнение недостающих промежутков в аудиосигнале, PLC имеет больше ограничений по времени вычислений, и только пакеты, предшествующие промежутку, считаются надежными (процесс называется причинным). [20] [2]