Аудиозапись

Аудиоинтерполяция (также известная как аудиоинтерполяция ) — это задача восстановления звука , которая занимается реконструкцией отсутствующих или поврежденных частей цифрового аудиосигнала . ^[1] Методы инрисовки применяются, когда части звука были утеряны из-за различных факторов, таких как ошибки передачи, повреждение данных или ошибки во время записи. ^[2]

Целью аудиоинрисовки является бесшовное заполнение пробелов (т. е. недостающих частей) в аудиосигнале, что делает восстановленные части неотличимыми от исходного содержания и позволяет избежать внесения слышимых искажений или изменений. ^[3]

Для решения проблемы аудиоинрисовки было предложено много методов, и обычно это достигается путем анализа временной ^[1]^[4]^[5] и спектральной ^[3]^[2] информации, окружающей каждую отсутствующую часть рассматриваемого аудиосигнала.

Классические методы используют статистические модели или алгоритмы цифровой обработки сигналов ^[1]^[4]^[5] для прогнозирования и синтеза отсутствующих или поврежденных участков. Недавние решения, напротив, используют преимущества моделей глубокого обучения благодаря растущей тенденции использования методов, основанных на данных, в контексте восстановления аудио. ^[3]^[2]^[6]

В зависимости от объема потерянной информации задачу инрисовки можно разделить на три категории. Короткая инрисовка относится к реконструкции нескольких миллисекунд (приблизительно менее 10) отсутствующего сигнала, что происходит в случае коротких искажений, таких как щелчки или обрезка . ^[7] В этом случае целью реконструкции является точное восстановление потерянной информации. При длительной инрисовке, вместо этого, с пробелами порядка сотен миллисекунд или даже секунд, эта цель становится нереалистичной, поскольку методы восстановления не могут полагаться на локальную информацию. ^[8] Поэтому, помимо обеспечения согласованной реконструкции, алгоритмы должны генерировать новую информацию, которая должна быть семантически совместима с окружающим контекстом (т. е. аудиосигналом, окружающим пробелы). ^[3] Случай пробелов средней длительности лежит между короткой и длинной инрисовкой. Она относится к реконструкции десятков миллисекунд отсутствующих данных, масштаб, где нестационарная характеристика звука уже становится важной. ^[9]

Определение

Рассмотрим цифровой аудиосигнал . Поврежденная версия , которая является аудиосигналом, представляющим пропущенные пробелы для восстановления, может быть определена как , где — двоичная маска, кодирующая надежные или пропущенные образцы , и представляет собой поэлементное произведение . ^[2] Аудиоинрисинг направлен на поиск (т. е. реконструкцию), которая является оценкой . Это некорректно поставленная обратная задача , которая характеризуется неуникальным набором решений. ^[2] По этой причине, аналогично формулировке, используемой для проблемы инрисинга в других областях, ^[10]^[11]^[12] восстановленный аудиосигнал может быть найден с помощью задачи оптимизации , которая формально выражается как $\mathbf {x}$ $\mathbf {x}$ $\mathbf {\tilde {x}} =\mathbf {m} \circ \mathbf {x}$ $\mathbf {м}$ $\mathbf {x}$ $\circ$ $\mathbf {\hat {x}}$ $\mathbf {x}$

$\mathbf {\hat {x}} ^{*}={\underset {\hat {\mathbf {X} }}{\text{argmin}}}~L(\mathbf {m} \circ \ mathbf {\hat {x}} ,\mathbf {\tilde {x}} )+R(\mathbf {\hat {x}} )$ .

В частности, является оптимальным восстановленным аудиосигналом и является термином меры расстояния , который вычисляет точность восстановления между поврежденным аудиосигналом и оцененным. ^[10] Например, этот термин может быть выражен с помощью среднеквадратической ошибки или аналогичных метрик . $\mathbf {\hat {x}} ^{*}$ $L$

Так как вычисляется только на надежных кадрах, существует много решений, которые могут минимизировать . Таким образом, необходимо добавить ограничение к минимизации, чтобы ограничить результаты только допустимыми решениями. ^[12]^[11] Это выражается через член регуляризации , который вычисляется на восстановленном аудиосигнале . Этот член кодирует некоторую априорную информацию об аудиоданных. Например, может выражать предположения о стационарности сигнала, о разреженности его представления или может быть извлечен из данных. ^[12]^[11] $L$ $L(\mathbf {m} \circ \mathbf {\hat {x}},\mathbf {\tilde {x}})$ $R$ $\mathbf {\hat {x}}$ $R$

Методы

Существуют различные методы выполнения аудиоинрисовки. Они могут значительно различаться в зависимости от таких факторов, как требования конкретного приложения, длина промежутков и доступные данные. ^[3] В литературе эти методы в целом делятся на методы, основанные на моделях (иногда также называемые методами обработки сигналов) ^[3] и методы, основанные на данных. ^[2]

Методы, основанные на моделях

Методы на основе моделей включают использование математических моделей или предположений о базовой структуре аудиосигнала. Эти модели могут быть основаны на предшествующих знаниях аудиоконтента или статистических свойствах, наблюдаемых в данных. Используя эти модели, можно вывести или оценить отсутствующие или поврежденные части аудиосигнала. ^[1]

Примером методов на основе модели являются авторегрессионные модели . ^[5]^[13] Эти методы интерполируют или экстраполируют недостающие образцы на основе соседних значений, используя математические функции для аппроксимации недостающих данных. В частности, в авторегрессионных моделях недостающие образцы восполняются с помощью линейного предсказания. ^[14] Авторегрессионные коэффициенты, необходимые для этого предсказания, извлекаются из окружающих аудиоданных, в частности из данных, смежных с каждым пробелом. ^[5]^[13]

Некоторые более современные методы подходят к звуковой инрисовке, представляя аудиосигналы как разреженные линейные комбинации ограниченного числа базисных функций (например, в кратковременном преобразовании Фурье ). ^[1]^[15] В этом контексте цель состоит в том, чтобы найти разреженное представление отсутствующей части сигнала, которое наиболее точно соответствует окружающему, не затронутому сигналу. ^[1]

Вышеупомянутые методы демонстрируют оптимальную производительность при применении для заполнения относительно коротких промежутков, длящихся всего несколько десятков миллисекунд, и, таким образом, их можно включить в контекст короткой инрисовки. Однако эти методы обработки сигналов, как правило, испытывают трудности при работе с более длинными промежутками. ^[2] Причина этого ограничения заключается в нарушении условия стационарности, поскольку сигнал часто претерпевает значительные изменения после промежутка, что делает его существенно отличным от сигнала, предшествующего промежутку. ^[2]

Чтобы преодолеть эти ограничения, некоторые подходы также добавляют сильные предположения о фундаментальной структуре самого зазора, используя синусоидальное моделирование ^[16] или графики подобия ^[8] для выполнения восстановления более длинных отсутствующих участков аудиосигналов.

Методы, основанные на данных

Методы, основанные на данных, основаны на анализе и использовании доступных аудиоданных. Эти методы часто используют алгоритмы глубокого обучения , которые изучают закономерности и взаимосвязи непосредственно из предоставленных данных. Они включают в себя обучение моделей на больших наборах данных аудиопримеров, что позволяет им улавливать статистические закономерности, присутствующие в аудиосигналах. После обучения эти модели могут использоваться для генерации недостающих частей аудиосигнала на основе изученных представлений, не будучи ограниченными предположениями о стационарности. ^[3] Методы, основанные на данных, также предлагают преимущество адаптивности и гибкости, поскольку они могут учиться на различных аудионаборах данных и потенциально обрабатывать сложные сценарии инрисовки. ^[3]

На сегодняшний день такие методы представляют собой передовые технологии аудиоинрисовки, способные восстанавливать пробелы в сотни миллисекунд или даже секунды. Эти возможности стали возможными благодаря использованию генеративных моделей , которые способны генерировать новый контент для заполнения недостающих частей. Например, генеративные состязательные сети , которые являются передовыми генеративными моделями во многих областях, опираются на две конкурирующие нейронные сети, обученные одновременно в игре minmax для двух игроков : генератор создает новые данные из выборок случайной величины, дискриминатор пытается отличить сгенерированные и реальные данные. ^[17] Во время обучения цель генератора — обмануть дискриминатор, в то время как дискриминатор пытается научиться лучше классифицировать реальные и поддельные данные. ^[17]

В методах инпанирования на основе GAN генератор действует как контекстный кодер и производит правдоподобное заполнение пробела только с учетом доступной информации, окружающей его. ^[3] Дискриминатор используется для обучения генератора и проверки согласованности произведенного инпанпонированного звука. ^[3]

Недавно также модели диффузии зарекомендовали себя как передовые генеративные модели во многих областях, часто превосходя даже решения на основе GAN. По этой причине они также использовались для решения проблемы аудиоинрисинга, получая достоверные результаты. ^[2] Эти модели генерируют новые экземпляры данных путем инвертирования процесса диффузии, где выборки данных постепенно преобразуются в гауссовский шум. ^[2]

Одним из недостатков генеративных моделей является то, что им обычно требуется огромное количество обучающих данных . Это необходимо для того, чтобы сеть хорошо обобщала и могла производить связную аудиоинформацию, которая также представляет некоторую структурную сложность. ^[6] Тем не менее, некоторые работы продемонстрировали, что улавливание сути аудиосигнала также возможно, используя всего несколько десятков секунд из одного обучающего образца. ^[6]^[18]^[19] Это делается путем переобучения генеративной нейронной сети одному обучающему аудиосигналу. Таким образом, исследователи смогли выполнить аудиоинрисинг без использования больших наборов данных. ^[6]^[19]

Приложения

Аудиоинрисинг находит применение в широком спектре областей, включая аудиореставрацию и аудиокриминалистику среди прочих. В этих областях аудиоинрисинг может использоваться для устранения шума, сбоев или нежелательных искажений из аудиозаписи, тем самым повышая ее качество и разборчивость. Его также можно использовать для восстановления испорченных старых записей, которые были затронуты локальными изменениями или имеют отсутствующие аудиосэмплы из-за царапин на компакт-дисках . ^[2]

Аудиоинрисинг также тесно связан с сокрытием потери пакетов (PLC). В задаче PLC необходимо компенсировать потерю аудиопакетов в сетях связи. В то время как обе задачи направлены на заполнение недостающих промежутков в аудиосигнале, PLC имеет больше ограничений по времени вычислений, и только пакеты, предшествующие промежутку, считаются надежными (процесс называется причинным). ^[20]^[2]

Смотрите также

Ссылки

^ abcdef Мокры, Ондржей; Раймич, Павел (2020). «Аудиоинрисинг: пересмотр и переосмысление». Труды IEEE/ACM по обработке звука, речи и языка . 28 : 2906–2918. arXiv : 2001.02480 . doi : 10.1109/TASLP.2020.3030486. S2CID 210064378.
^ abcdefghijkl Молинер, Элой (2024). «Аудиоинсталляция на основе диффузии». Журнал Audio Engineering Society . 72 (3): 100–113. arXiv : 2305.15266 . doi : 10.17743/jaes.2022.0129.
^ abcdefghij Марафиоти, Андрес; Майдак, Петр; Холигхаус, Ники; Перроден, Натанаэль (январь 2021 г.). «GACELA: Генеративный состязательный контекстный кодер для длинной аудиоинрисовки музыки». Журнал IEEE Selected Topics in Signal Processing . 15 (1): 120–131. arXiv : 2005.05032 . Bibcode : 2021ISTSP..15..120M. doi : 10.1109/JSTSP.2020.3037506. S2CID 218581410.
^ аб Адлер, Амир; Эмия, Валентин; Джафари, Мария Г.; Элад, Майкл; Грибонваль, Реми; Пламбли, Марк Д. (март 2012 г.). «Аудиоживопись». Транзакции IEEE по обработке звука, речи и языка . 20 (3): 922–932. дои : 10.1109/TASL.2011.2168211. S2CID 11136245.
^ abcd Янссен, А.; Вельдхёйс, Р.; Врис, Л. (апрель 1986 г.). «Адаптивная интерполяция дискретно-временных сигналов, которые можно моделировать как авторегрессионные процессы» (PDF) . IEEE Transactions on Acoustics, Speech, and Signal Processing . 34 (2): 317–330. doi :10.1109/TASSP.1986.1164824. S2CID 17149340.
^ abcd Грешлер, Гал; Шахам, Тамар; Михаэли, Томер (2021). «Catch-A-Waveform: Learning to Generate Audio from a Single Short Example». Достижения в области нейронных систем обработки информации . 34. Curran Associates, Inc.: 20916–20928. arXiv : 2106.06426 .
^ Применение цифровой обработки сигналов в аудио и акустике (6. Pr ed.). Бостон, Массачусетс: Kluwer. 2003. С. 133–194. ISBN 978-0-7923-8130-3.
^ ab Perraudin, Nathanael; Holighaus, Nicki; Majdak, Piotr; Balazs, Peter (июнь 2018 г.). «Inpainting of Long Audio Segments With Similarity Graphs». Труды IEEE/ACM по обработке звука, речи и языка . 26 (6): 1083–1094. arXiv : 1607.06667 . doi : 10.1109/TASLP.2018.2809864. S2CID 3532979.
^ Марафиоти, Андрес; Перроден, Натанаэль; Холигхаус, Ники; Майдак, Петр (декабрь 2019 г.). «Контекстный кодировщик для инрисовки звука». Труды IEEE/ACM по обработке звука, речи и языка . 27 (12): 2362–2372. doi :10.1109/TASLP.2019.2947232. S2CID 53102801.
^ ab Ульянов, Дмитрий; Ведальди, Андреа; Лемпицкий, Виктор (1 июля 2020 г.). "Deep Image Prior". International Journal of Computer Vision . 128 (7): 1867–1888. arXiv : 1711.10925 . doi :10.1007/s11263-020-01303-4. S2CID 4531078.
^ abc Пеццоли, Мирко; Перини, Давиде; Бернардини, Альберто; Борра, Федерико; Антоначчи, Фабио; Сарти, Аугусто (январь 2022 г.). «Глубокий априорный подход к реконструкции импульсного ответа помещения». Датчики . 22 (7): 2710. Бибкод : 2022Senso..22.2710P. дои : 10.3390/s22072710 . ПМК 9003306 . ПМИД 35408325.
^ abc Kong, Fantong; Picetti, Francesco; Lipari, Vincenzo; Bestagini, Paolo; Tang, Xiaoming; Tubaro, Stefano (2022). «Глубокая неконтролируемая реконструкция нерегулярно отобранных сейсмических данных на основе априорных данных». IEEE Geoscience and Remote Sensing Letters . 19 : 1–5. Bibcode : 2022IGRSL..1944455K. doi : 10.1109/LGRS.2020.3044455. hdl : 11311/1201461 . S2CID 234970208.
^ ab Etter, W. (май 1996). «Восстановление сегмента сигнала с дискретным временем путем интерполяции на основе параметров левосторонней и правосторонней авторегрессии». IEEE Transactions on Signal Processing . 44 (5): 1124–1135. Bibcode : 1996ITSP...44.1124E. doi : 10.1109/78.502326.
^ О'Шонесси, Д. (февраль 1988 г.). «Линейное предсказательное кодирование». IEEE Potentials . 7 (1): 29–32. doi :10.1109/45.1890. S2CID 12786562.
^ Мокрый, Ондрей; Зависка, Павел; Раймич, Павел; Веселый, Витезслав (сентябрь 2019 г.). «Введение в ИСПанию (SParse Audio INpainter)». 2019 27-я Европейская конференция по обработке сигналов (EUSIPCO) . стр. 1–5. arXiv : 1810.13137 . doi : 10.23919/EUSIPCO.2019.8902560. ISBN 978-9-0827-9703-9. S2CID 53109833.
^ Лагранж, Матье; Маршан, Сильвен; Ро, Жан-Бернард (15 октября 2005 г.). «Длинная интерполяция аудиосигналов с использованием линейного предсказания в синусоидальном моделировании». Журнал Audio Engineering Society . 53 (10): 891–905.
^ ab Гудфеллоу, Ян; Пуже-Абади, Жан; Мирза, Мехди; Сюй, Бинг; Уорд-Фарли, Дэвид; Озаир, Шерджил; Курвиль, Аарон; Бенжио, Йошуа (2014). Генеративные состязательные сети. Том 27. Curran Associates, Inc.
^ Тиан, Япэн; Сюй, Чэньлян; Ли, Динзею (2019). «Глубокий Аудио Приор». arXiv : 1912.10292 [cs.SD].
^ ab Турецки, Арнон; Михельсон, Цви; Ади, Йосси; Пелег, Шмуэль (18 сентября 2022 г.). «Deep Audio Waveform Prior». Interspeech 2022 : 2938–2942. arXiv : 2207.10441 . doi :10.21437/Interspeech.2022-10735. S2CID 250920681.
^ Динер, Лоренц; Сутла, Стен; Бранец, Соломия; Саабас, Андо; Айхнер, Роберт; Катлер, Росс (18 сентября 2022 г.). «INTERSPEECH 2022 Audio Deep Packet Loss Concealment Challenge». Interspeech 2022. С. 580–584. arXiv : 2204.05222 . doi : 10.21437/Interspeech.2022-10829.