stringtranslate.com

Кодирование речи

Кодирование речи — это применение сжатия данных к цифровым аудиосигналам, содержащим речь . Кодирование речи использует оценку параметров речи с использованием методов обработки аудиосигнала для моделирования речевого сигнала в сочетании с общими алгоритмами сжатия данных для представления результирующих смоделированных параметров в компактном потоке битов. [1]

Распространенными приложениями кодирования речи являются мобильная телефония и передача голоса по IP (VoIP). [2] Наиболее широко используемым методом кодирования речи в мобильной телефонии является кодирование с линейным предсказанием (LPC), а в приложениях VoIP наиболее широко используются методы LPC и модифицированного дискретного косинусного преобразования (MDCT). [ нужна цитата ]

Методы, используемые при кодировании речи, аналогичны тем, которые используются при сжатии аудиоданных и кодировании звука , где понимание психоакустики используется для передачи только данных, которые имеют отношение к слуховой системе человека. Например, при кодировании речи в голосовом диапазоне передается только информация в полосе частот от 400 до 3500 Гц, но восстановленный сигнал сохраняет достаточную разборчивость .

Кодирование речи отличается от других форм кодирования звука тем, что речь представляет собой более простой сигнал, чем другие аудиосигналы, и доступна статистическая информация о свойствах речи. В результате некоторая слуховая информация, которая важна для общего кодирования звука, может оказаться ненужной в контексте кодирования речи. Кодирование речи подчеркивает сохранение разборчивости и приятности речи при использовании ограниченного объема передаваемых данных. [3] Кроме того, большинство речевых приложений требуют малой задержки кодирования, поскольку задержка мешает речевому взаимодействию. [4]

Категории

Речевые кодеры делятся на два класса: [5]

  1. Кодеры сигналов
  2. Вокодеры

Компандирование выборки рассматривается как форма кодирования речи

Алгоритмы A-law и μ-law , используемые в цифровой телефонии G.711 PCM , можно рассматривать как более ранний предшественник кодирования речи, требующий только 8 бит на выборку, но обеспечивающий эффективное разрешение 12 бит . [7] Логарифмическое компандирование соответствует восприятию человеческого слуха, поскольку шум низкой амплитуды слышен вместе с речевым сигналом низкой амплитуды, но маскируется шумом высокой амплитуды. Хотя это может привести к неприемлемым искажениям музыкального сигнала, пиковая природа речевых сигналов в сочетании с простой частотной структурой речи в виде периодического сигнала , имеющего единственную основную частоту с периодическими добавленными шумовыми всплесками, делает эти очень простые алгоритмы мгновенного сжатия приемлемыми для речь. [ нужна ссылка ] [ сомнительно ]

В то время было опробовано множество других алгоритмов, в основном варианты дельта-модуляции , но после тщательного рассмотрения разработчики первых систем цифровой телефонии выбрали алгоритмы A-law/μ-law. На момент разработки снижение пропускной способности на 33% при очень низкой сложности представляло собой отличный инженерный компромисс. Их качество звука остается приемлемым, и необходимости в замене их в стационарной телефонной сети не возникло. [ нужна цитата ]

В 2008 году кодек G.711.1 , имеющий масштабируемую структуру, был стандартизирован ITU-T. Частота входной дискретизации составляет 16 кГц. [8]

Современное сжатие речи

Большая часть более поздних работ по сжатию речи была мотивирована военными исследованиями в области цифровой связи для защищенных военных радиостанций , где очень низкие скорости передачи данных использовались для достижения эффективной работы во враждебной радиосреде. В то же время в виде схем СБИС было доступно гораздо больше вычислительной мощности , чем было доступно для более ранних методов сжатия. В результате современные алгоритмы сжатия речи могут использовать гораздо более сложные методы, чем те, которые были доступны в 1960-х годах, для достижения гораздо более высоких коэффициентов сжатия.

Наиболее широко используемые алгоритмы кодирования речи основаны на кодировании с линейным предсказанием (LPC). [9] В частности, наиболее распространенной схемой кодирования речи является кодирование с линейным предсказанием с кодовым возбуждением (CELP) на основе LPC, которое используется, например, в стандарте GSM . В CELP моделирование разделено на два этапа: этап линейного прогнозирования , который моделирует спектральную огибающую, и модель остатка модели линейного прогнозирования на основе кодовой книги. В CELP коэффициенты линейного предсказания (LPC) вычисляются и квантуются, обычно как линейные спектральные пары (LSP). Помимо фактического речевого кодирования сигнала, для передачи часто необходимо использовать канальное кодирование , чтобы избежать потерь из-за ошибок передачи. Чтобы получить наилучшие общие результаты кодирования, методы кодирования речи и канального кодирования выбираются парами, при этом более важные биты в потоке речевых данных защищаются более надежным канальным кодированием.

Модифицированное дискретное косинусное преобразование (MDCT) используется в методе LD-MDCT, используемом в формате AAC-LD , представленном в 1999 году . [10] С тех пор MDCT широко применяется в приложениях передачи голоса по IP (VoIP), таких как Широкополосный аудиокодек G.729.1 , представленный в 2006 году, [11] Apple FaceTime (с использованием AAC-LD), представленный в 2010 году, [12] и кодек CELT , представленный в 2011 году. [13]

Opus — бесплатный аудиокодер. Он сочетает в себе речевой алгоритм SILK на основе LPC и алгоритм CELT на основе MDCT с меньшей задержкой, переключаясь между ними или комбинируя их по мере необходимости для максимальной эффективности. [14] [15] Он широко используется для VoIP-звонков в WhatsApp . [16] [17] [18] Игровая консоль PlayStation 4 также использует Opus для группового чата в системе PlayStation Network . [19]

Был продемонстрирован ряд кодеков с еще более низкой скоростью передачи данных . Кодек2 , работающий со скоростью передачи данных всего 450 бит/с, находит применение в любительском радио. [20] В настоящее время НАТО использует MELPe , обеспечивающий разборчивую речь со скоростью 600 бит/с и ниже. [21] Также появились подходы с использованием нейронного вокодера: Lyra от Google обеспечивает «почти жуткое» качество на скорости 3 кбит/с. [22] Microsoft Satin также использует машинное обучение, но использует более высокий настраиваемый битрейт и является широкополосным. [23]

Подполя

Широкополосное аудиокодирование
Узкополосное аудиокодирование

Смотрите также

Рекомендации

  1. ^ М. Архона Рамирес и М. Минами, «Кодирование речи с низкой скоростью передачи данных», в Энциклопедии телекоммуникаций Wiley, JG Proakis, Ed., Нью-Йорк: Wiley, 2003, vol. 3, стр. 1299-1308.
  2. ^ М. Архона Рамирес и М. Минами, «Технология и стандарты методов вокодирования с низкой скоростью передачи данных», в «Справочнике компьютерных сетей», Х. Бидголи, редактор, Нью-Йорк: Wiley, 2011, том. 2, стр. 447–467.
  3. ^ П. Кроон, «Оценка кодеров речи», в книге «Кодирование и синтез речи», В. Бастиан Клейн и К. К. Паливал, редактор, Амстердам: Elsevier Science, 1995, стр. 467-494.
  4. ^ Дж. Х. Чен, Р. В. Кокс, Ю.-К. Лин, Н.С. Джаянт и М.Дж. Мельчнер, Кодер CELP с низкой задержкой для стандарта кодирования речи CCITT 16 кбит/с. IEEE J. Выберите. Районы Коммун. 10(5): 830-849, июнь 1992 г.
  5. ^ «Су Хён Бэ, Сжатие и моделирование данных ECE 8873, Технологический институт Джорджии, 2004» . Архивировано из оригинала 7 сентября 2006 года.
  6. ^ Зегидур, Нил; Любс, Алехандро; Омран, Ахмед; Скоглунд, Ян; Тальясакки, Марко (2022). «SoundStream: сквозной нейронный аудиокодек». Транзакции IEEE/ACM по обработке звука, речи и языка . 30 : 495–507. arXiv : 2107.03312 . дои : 10.1109/TASLP.2021.3129994. S2CID  236149944.
  7. ^ Н. С. Джаянт и П. Нолл, Цифровое кодирование сигналов. Энглвудские скалы: Прентис-Холл, 1984.
  8. ^ G.711.1: Широкополосное встроенное расширение для импульсно-кодовой модуляции G.711, ITU-T, 2012 г. , получено 24 декабря 2022 г.
  9. ^ Гупта, Шипра (май 2016 г.). «Применение MFCC для независимого распознавания текста» (PDF) . Международный журнал перспективных исследований в области компьютерных наук и разработки программного обеспечения . 6 (5): 805–810 (806). ISSN  2277-128Х. S2CID  212485331. Архивировано из оригинала (PDF) 18 октября 2019 г. Проверено 18 октября 2019 г.
  10. ^ Шнелл, Маркус; Шмидт, Маркус; Джандер, Мануэль; Альберт, Тобиас; Гейгер, Ральф; Руоппила, Веса; Экстранд, Пер; Бернхард, Гриль (октябрь 2008 г.). MPEG-4 Enhanced Low Delay AAC — новый стандарт высококачественной связи (PDF) . 125-я конвенция AES. Фраунгофера ИИС . Общество аудиоинженеров . Проверено 20 октября 2019 г.
  11. ^ Нагиредди, Сиваннараяна (2008). Обработка голосовых и факсимильных сигналов VoIP. Джон Уайли и сыновья . п. 69. ИСБН 9780470377864.
  12. ^ Дэниел Эран Дилгер (8 июня 2010 г.). «Внутри iPhone 4: видеозвонки FaceTime». AppleInsider . Проверено 9 июня 2010 г.
  13. ^ Презентация кодека CELT. Архивировано 7 августа 2011 г. в Wayback Machine Тимоти Б. Терриберри (65 минут видео, см. Также слайды презентации в PDF).
  14. ^ "Кодек Опус" . Опус (Главная страница). Фонд Xiph.org . Проверено 31 июля 2012 г.
  15. ^ Вален, Жан-Марк; Максвелл, Грегори; Терриберри, Тимоти Б.; Вос, Коэн (октябрь 2013 г.). Высококачественное кодирование музыки с малой задержкой в ​​кодеке Opus . 135-я конференция AES. Общество аудиоинженеров . arXiv : 1602.04845 .
  16. Лейден, Джон (27 октября 2015 г.). «WhatsApp обнажен: исследованы внутренности приложения, высасывающего информацию» . Регистр . Проверено 19 октября 2019 г.
  17. ^ Хазра, Судип; Матети, Прабхакер (13–16 сентября 2017 г.). «Проблемы криминалистики Android». В Тампи, Сабу М.; Перес, Грегорио Мартинес; Вестфалл, Карлос Беккер; Ху, Цзянькунь; Фан, Чун И.; Мармоль, Феликс Гомес (ред.). Безопасность в вычислительной технике и коммуникациях: 5-й международный симпозиум, SSCC 2017 . Спрингер. стр. 286–299 (290). дои : 10.1007/978-981-10-6898-0_24. ISBN 9789811068980.
  18. ^ Шривастава, Саураб Ранджан; Дубе, Сачин; Шривастая, Гульшан; Шарма, Кавита (2019). «Проблемы безопасности, вызванные смартфонами: проблемы, тематические исследования и профилактика». В Ле, Дак-Ныонг; Кумар, Рагвендра; Мишра, Броджо Кишор; Чаттерджи, Джиотир Мой; Хари, Манджу (ред.). Кибербезопасность в параллельных и распределенных вычислениях: концепции, методы, приложения и практические примеры . Джон Уайли и сыновья. стр. 187–206 (200). дои : 10.1002/9781119488330.ch12. ISBN 9781119488057. S2CID  214034702. {{cite book}}: |journal=игнорируется ( помощь )
  19. ^ «Программное обеспечение с открытым исходным кодом, используемое в PlayStation4» . Sony Interactive Entertainment Inc. Проверено 11 декабря 2017 г.[ не удалось пройти проверку ]
  20. ^ «GitHub — Кодек2». Гитхаб . Ноябрь 2019.
  21. ^ Алан МакКри, «Масштабируемая структура фонетического вокодера, использующая совместное прогнозирующее векторное квантование параметров MELP», в Proc. IEEE Международный. Конф. Acoust., Речь, обработка сигналов, 2006, стр. I 705–708, Тулуза, Франция.
  22. ^ Бакли, Ян (08 апреля 2021 г.). «Google делает общедоступным речевой кодек Lyra с низким битрейтом» . СделатьUseOf . Проверено 21 июля 2022 г.
  23. ^ Левент-Леви, Цахи (19 апреля 2021 г.). «Лира, Сатин и будущее голосовых кодеков в WebRTC». BlogGeek.me . Проверено 21 июля 2022 г.
  24. ^ «LPCNet: Эффективный нейронный синтез речи» . Фонд Xiph.Org. 8 августа 2023 г.

Внешние ссылки