Линейное предиктивное кодирование

Линейное предсказательное кодирование ( LPC ) — это метод, используемый в основном при обработке аудиосигналов и речи для представления спектральной огибающей цифрового речевого сигнала в сжатом виде с использованием информации линейной предсказательной модели . ^[1]^[2]

LPC — наиболее широко используемый метод кодирования и синтеза речи . Это мощный метод анализа речи и полезный метод для кодирования речи хорошего качества при низкой скорости передачи данных .

Обзор

LPC начинается с предположения, что речевой сигнал производится зуммером на конце трубки (для звонких звуков), с редкими добавленными шипящими и хлопающими звуками (для глухих звуков, таких как свистящие и взрывные ). Хотя эта модель источника-фильтра выглядит грубой, на самом деле она является близким приближением к реальности производства речи. Голосовая щель (пространство между голосовыми связками) производит жужжание, которое характеризуется своей интенсивностью ( громкостью ) и частотой (высотой тона). Речевой тракт (горло и рот) образует трубку, которая характеризуется своими резонансами; эти резонансы приводят к формантам или расширенным полосам частот в производимом звуке. Шипение и хлопки генерируются действием языка, губ и горла во время свистящих и взрывных.

LPC анализирует речевой сигнал, оценивая форманты, удаляя их эффекты из речевого сигнала и оценивая интенсивность и частоту остаточного гудения. Процесс удаления формант называется обратной фильтрацией, а оставшийся сигнал после вычитания отфильтрованного смоделированного сигнала называется остатком.

Числа, описывающие интенсивность и частоту жужжания, форманты и остаточный сигнал, могут быть сохранены или переданы в другое место. LPC синтезирует речевой сигнал, обращая процесс: используя параметры жужжания и остаток, чтобы создать исходный сигнал, используя форманты, чтобы создать фильтр (который представляет собой трубку), и пропуская источник через фильтр, в результате чего получается речь.

Поскольку речевые сигналы со временем меняются, этот процесс выполняется на коротких фрагментах речевого сигнала, которые называются кадрами; как правило, от 30 до 50 кадров в секунду дают разборчивую речь с хорошим сжатием.

Ранняя история

Линейное предсказание (оценка сигнала) восходит как минимум к 1940-м годам, когда Норберт Винер разработал математическую теорию для вычисления наилучших фильтров и предикторов для обнаружения сигналов, скрытых в шуме. ^[3]^[4] Вскоре после того, как Клод Шеннон создал общую теорию кодирования , работа над предиктивным кодированием была проделана Ч. Чапином Катлером , ^[5] Бернардом М. Оливером ^[6] и Генри К. Харрисоном. ^[7] Питер Элиас в 1955 году опубликовал две статьи по предиктивному кодированию сигналов. ^[8]^[9]

Линейные предикторы были применены к анализу речи независимо Фумитадой Итакурой из Нагойского университета и Шузо Сайто из Nippon Telegraph and Telephone в 1966 году, а в 1967 году Бишну С. Аталом , Манфредом Р. Шредером и Джоном Бергом. Итакура и Сайто описали статистический подход, основанный на оценке максимального правдоподобия ; Атал и Шредер описали подход адаптивного линейного предиктора ; Берг изложил подход, основанный на принципе максимальной энтропии . ^[4]^[10]^[11]^[12]

В 1969 году Итакура и Сайто представили метод, основанный на частичной корреляции (PARCOR), Глен Каллер предложил кодирование речи в реальном времени, а Бишну С. Атал представил речевой кодер LPC на ежегодном собрании Акустического общества Америки . В 1971 году компания Philco-Ford продемонстрировала LPC в реальном времени с использованием 16-битного оборудования LPC ; было продано четыре единицы. ^[13] Технология LPC была усовершенствована Бишну Аталом и Манфредом Шредером в 1970–1980-х годах. ^[13] В 1978 году Атал и Вишванат и др. из BBN разработали первый алгоритм LPC с переменной скоростью . ^[13] В том же году Атал и Манфред Р. Шредер из Bell Labs предложили речевой кодек LPC , названный адаптивным предиктивным кодированием , который использовал алгоритм психоакустического кодирования, использующий маскирующие свойства человеческого уха. ^[14]^[15] Позднее это стало основой для техники перцептивного кодирования , используемой в формате сжатия звука MP3 , представленном в 1993 году. ^[14]Линейное предсказание с кодовым возбуждением (CELP) было разработано Шредером и Аталом в 1985 году. ^[16]

LPC является основой для технологии передачи голоса по IP (VoIP). ^[13] В 1972 году Боб Кан из ARPA вместе с Джимом Форджи из Lincoln Laboratory (LL) и Дэйвом Уолденом из BBN Technologies начали первые разработки в области пакетной речи, которые в конечном итоге привели к технологии передачи голоса по IP. В 1973 году, согласно неофициальной истории Lincoln Laboratory, Эд Хофштеттер реализовал первый LPC в реальном времени со скоростью 2400 бит / с . В 1974 году была осуществлена первая двусторонняя пакетная речевая связь LPC в реальном времени по ARPANET со скоростью 3500 бит/с между Culler-Harrison и Lincoln Laboratory. В 1976 году состоялась первая конференция LPC по ARPANET с использованием сетевого голосового протокола между Culler-Harrison, ISI, SRI и LL со скоростью 3500 бит/с. ^{[ требуется цитата ]}^{[ требуется разъяснение ]}

Представления коэффициентов LPC

LPC часто используется для передачи информации о спектральной огибающей, и как таковой он должен быть терпимым к ошибкам передачи. Передача коэффициентов фильтра напрямую (см. линейное предсказание для определения коэффициентов) нежелательна, так как они очень чувствительны к ошибкам. Другими словами, очень маленькая ошибка может исказить весь спектр, или, что еще хуже, небольшая ошибка может сделать фильтр предсказания нестабильным.

Существуют более продвинутые представления, такие как логарифмические отношения площадей (LAR), разложение линейных спектральных пар (LSP) и коэффициенты отражения . Из них особенно популярно разложение LSP, поскольку оно обеспечивает стабильность предиктора, а спектральные ошибки являются локальными для небольших отклонений коэффициентов.

Приложения

LPC является наиболее широко используемым методом в кодировании и синтезе речи . ^[17] Он обычно используется для анализа и повторного синтеза речи. Он используется как форма сжатия голоса телефонными компаниями, например, в стандарте GSM . Он также используется для защищенной беспроводной связи, где голос должен быть оцифрован , зашифрован и отправлен по узкому голосовому каналу; ранним примером этого является Navajo I правительства США .

Синтез LPC может быть использован для построения вокодеров , где музыкальные инструменты используются в качестве сигнала возбуждения для изменяющегося во времени фильтра, оцениваемого по речи певца. Это довольно популярно в электронной музыке . Пол Лански создал известную компьютерную музыкальную пьесу notjustmoreidlechatter, используя линейное предиктивное кодирование. ^[18] LPC 10-го порядка использовался в популярной образовательной игрушке 1980-х годов Speak & Spell .

Предикторы LPC используются в аудиокодеках Shorten , MPEG-4 ALS , FLAC , SILK и других аудиокодеках без потерь .

LPC получил некоторое внимание как инструмент для использования в тональном анализе скрипок и других струнных музыкальных инструментов. ^[19]

Смотрите также

Ссылки

^ Дэн, Ли; Дуглас О'Шонесси (2003). Обработка речи: динамический и ориентированный на оптимизацию подход. Марсель Деккер . С. 41–48. ISBN 978-0-8247-4040-5.
^ Бейги, Хомайон (2011). Основы распознавания говорящего . Берлин: Springer-Verlag. ISBN 978-0-387-77591-3.
^ BS Atal (2006). «История линейного предсказания». Журнал обработки сигналов IEEE . 23 (2): 154–161. Bibcode : 2006ISPM...23..154A. doi : 10.1109/MSP.2006.1598091. S2CID 15601493.
^ ab Y. Sasahira; S. Hashimoto (1995). «Изменение высоты голоса методом линейного предиктивного кодирования для сохранения индивидуального тембра певца» (pdf) . Michigan Publishing. {{cite journal}}: Цитировать журнал требует |journal=( помощь )
^ US 2605361, CC Cutler, «Дифференциальное квантование сигналов связи», опубликовано 29 июля 1952 г.
^ BM Oliver (1952). «Эффективное кодирование». Bell System Technical Journal . 31 (4). Nokia Bell Labs: 724–750. doi :10.1002/j.1538-7305.1952.tb01403.x.
^ HC Harrison (1952). «Эксперименты с линейным предсказанием в телевидении». Bell System Technical Journal . 31 (4): 764–783. doi :10.1002/j.1538-7305.1952.tb01405.x.
^ П. Элиас (1955). «Предиктивное кодирование I». IRE Trans. Inform.Theory . IT-1 № 1: 16–24. doi :10.1109/TIT.1955.1055126.
^ П. Элиас (1955). «Предиктивное кодирование II». IRE Trans. Inform. Theory . IT-1 № 1: 24–33. doi :10.1109/TIT.1955.1055116.
^ S. Saito; F. Itakura (январь 1967). «Теоретическое рассмотрение статистического оптимального распознавания спектральной плотности речи». J. Acoust. Soc.Japan .
^ BS Atal; MR Schroeder (1967). "Предиктивное кодирование речи". Conf. Communications and Proc .
^ JP Burg (1967). «Максимальный энтропийный спектральный анализ». Труды 37-го заседания Общества геофизиков-разведчиков, Оклахома-Сити .
^ abcd Gray, Robert M. (2010). «История цифровой речи в реальном времени в пакетных сетях: часть II линейного предиктивного кодирования и интернет-протокола» (PDF) . Найдено. Trends Signal Process . 3 (4): 203–303. doi : 10.1561/2000000036 . ISSN 1932-8346. Архивировано (PDF) из оригинала 2022-10-09.
^ ab Schroeder, Manfred R. (2014). "Bell Laboratories". Акустика, информация и связь: Мемориальный том в честь Манфреда Р. Шредера . Springer. стр. 388. ISBN 9783319056609.
^ Атал, Б.; Шредер, М. (1978). «Предиктивное кодирование речевых сигналов и субъективные критерии ошибок». ICASSP '78. Международная конференция IEEE по акустике, речи и обработке сигналов . Том 3. стр. 573–576. doi :10.1109/ICASSP.1978.1170564.
^ Шредер, Манфред Р .; Атал, Бишну С. (1985). «Линейное предсказание с кодовым возбуждением (CELP): высококачественная речь при очень низкой скорости передачи данных». ICASSP '85. Международная конференция IEEE по акустике, речи и обработке сигналов . Том 10. С. 937–940. doi :10.1109/ICASSP.1985.1168147. S2CID 14803427.
^ Gupta, Shipra (май 2016 г.). "Application of MFCC in Text Independent Speaker Recognition" (PDF) . International Journal of Advanced Research in Computer Science and Software Engineering . 6 (5): 805–810 (806). ISSN 2277-128X. S2CID 212485331. Архивировано из оригинала (PDF) 2019-10-18 . Получено 18 октября 2019 г. .
^ Лански, Пол. «Больше, чем пустая болтовня». Архивировано из оригинала 24.12.2017 . Получено 02.06.2024 .
^ Тай, Хван-Чин; Чунг, Дай-Тин (14 июня 2012 г.). «Скрипки Страдивари демонстрируют формантные частоты, напоминающие гласные, производимые женщинами». Savart Journal . 1 (2).

Дальнейшее чтение

О'Шонесси, Д. (1988). «Линейное предсказательное кодирование». IEEE Potentials . 7 (1): 29–32. doi :10.1109/45.1890. S2CID 12786562.
Банди, Алан ; Уоллен, Линкольн (1984). "Линейное предсказательное кодирование". Каталог инструментов искусственного интеллекта . Символические вычисления. стр. 61. doi :10.1007/978-3-642-96868-6_123. ISBN 978-3-540-13938-6.
Эль-Джаруди, Амро (2003). «Линейное предсказательное кодирование». Энциклопедия телекоммуникаций Wiley . doi :10.1002/0471219282.eot155. ISBN 978-0471219286.

Внешние ссылки

программное обеспечение для анализа/синтеза LPC в реальном времени
30 лет спустя доктор Ричард Уиггинс рассказывает о развитии Speak & Spell
Роберт М. Грей, Общество обработки сигналов IEEE, Программа выдающихся лекторов