Нейрокомпьютерная обработка речи — это компьютерное моделирование производства и восприятия речи , ссылаясь на естественные нейронные процессы производства и восприятия речи , происходящие в нервной системе человека ( центральной нервной системе и периферической нервной системе ). Эта тема основана на нейронауке и вычислительной нейронауке . [1]
Нейрокомпьютерные модели обработки речи сложны. Они включают в себя по крайней мере когнитивную часть , моторную часть и сенсорную часть . [2]
Когнитивная или лингвистическая часть нейрокомпьютерной модели обработки речи включает нейронную активацию или генерацию фонематического представления на стороне производства речи (например, нейрокомпьютерная и расширенная версия модели Levelt, разработанная Арди Рулофсом: [3] WEAVER++ [4], а также нейронную активацию или генерацию намерения или значения на стороне восприятия речи или понимания речи ).
Двигательная часть нейрокомпьютерной модели обработки речи начинается с фонематического представления речевого элемента, активирует двигательный план и заканчивается артикуляцией этого конкретного речевого элемента (см. также: артикуляционная фонетика ).
Сенсорная часть нейрокомпьютерной модели обработки речи начинается с акустического сигнала речевого элемента ( акустического речевого сигнала ), генерирует слуховое представление для этого сигнала и активирует фонематическое представление для этого речевого элемента.
Нейрокомпьютерная обработка речи — это обработка речи искусственными нейронными сетями . Нейронные карты, отображения и пути, описанные ниже, являются модельными структурами, т.е. важными структурами в искусственных нейронных сетях.
Искусственную нейронную сеть можно разделить на три типа нейронных карт, также называемых «слоями»:
Термин «нейронная карта» здесь предпочтительнее термина «нейронный слой», поскольку кортикальная нейронная карта должна быть смоделирована как 2D-карта взаимосвязанных нейронов (например, как самоорганизующаяся карта ; см. также рис. 1). Таким образом, каждый «модельный нейрон» или « искусственный нейрон » в пределах этой 2D-карты физиологически представлен кортикальной колонкой , поскольку анатомически кора головного мозга имеет слоистую структуру.
Нейронное представление в искусственной нейронной сети — это временно активированное (нейронное) состояние в определенной нейронной карте. Каждое нейронное состояние представлено определенным паттерном нейронной активации. Этот паттерн активации изменяется во время обработки речи (например, от слога к слогу).
В модели ACT (см. ниже) предполагается, что слуховое состояние может быть представлено «нейронной спектрограммой » (см. рис. 2) в пределах слуховой карты состояния. Предполагается, что эта слуховая карта состояния расположена в слуховой ассоциативной коре (см. кора головного мозга ).
Соматосенсорное состояние можно разделить на тактильное и проприоцептивное и можно представить определенным паттерном нейронной активации в карте соматосенсорного состояния. Предполагается, что эта карта состояния расположена в соматосенсорной ассоциативной коре (см. кора головного мозга , соматосенсорная система , соматосенсорная кора ).
Состояние моторного плана может быть принято для представления моторного плана, т. е. планирования артикуляции речи для определенного слога или для более длинного речевого элемента (например, слова, короткой фразы). Предполагается, что эта карта состояний расположена в премоторной коре , в то время как мгновенная (или более низкого уровня) активация каждого речевого артикулятора происходит в первичной моторной коре (см. моторная кора ).
Нейронные представления, возникающие в сенсорных и моторных картах (как было описано выше), являются распределенными представлениями (Хинтон и др., 1968 [5] ): каждый нейрон в сенсорной или моторной карте более или менее активирован, что приводит к определенному паттерну активации.
Нейронное представление речевых единиц, встречающихся в карте звуков речи (см. ниже: модель DIVA), является точечным или локальным представлением. Каждый речевой элемент или речевая единица представлена здесь определенным нейроном (модельной клеткой, см. ниже).
Нейронное отображение соединяет две кортикальные нейронные карты. Нейронные отображения (в отличие от нейронных путей) хранят информацию обучения, регулируя веса своих нейронных связей (см. искусственный нейрон , искусственные нейронные сети ). Нейронные отображения способны генерировать или активировать распределенное представление (см. выше) сенсорного или моторного состояния в сенсорной или моторной карте из точечной или локальной активации в другой карте (см., например, синаптическую проекцию с карты звуков речи на моторную карту, на карту слуховой целевой области или на карту соматосенсорной целевой области в модели DIVA, описанную ниже; или см., например, нейронное отображение с фонетической карты на карту слухового состояния и карту состояния моторного плана в модели ACT, описанную ниже и рис. 3).
Нейронные отображения между двумя нейронными картами являются компактными или плотными: Каждый нейрон одной нейронной карты взаимосвязан с (почти) каждым нейроном другой нейронной карты (связь «многие ко многим», см. искусственные нейронные сети ). Из-за этого критерия плотности для нейронных отображений нейронные карты, которые взаимосвязаны нейронным отображением, находятся недалеко друг от друга.
В отличие от нейронных карт нейронные пути могут соединять нейронные карты, которые находятся далеко друг от друга (например, в разных корковых долях, см. кора головного мозга ). С функциональной или модельной точки зрения нейронные пути в основном передают информацию, не обрабатывая ее. Нейронный путь по сравнению с нейронным картированием нуждается в гораздо меньшем количестве нейронных связей. Нейронный путь может быть смоделирован с использованием соединения один к одному нейронов обеих нейронных карт (см. топографическое картирование и см. соматотопическое расположение ).
Пример: в случае двух нейронных карт, каждая из которых содержит 1000 модельных нейронов, для нейронного картирования требуется до 1 000 000 нейронных связей (связь «многие ко многим»), тогда как для соединения нейронных путей требуется всего 1000 связей.
Более того, веса связей в нейронной карте корректируются во время обучения, в то время как нейронные связи в случае нейронного пути не требуют обучения (каждая связь максимально показательна).
Ведущим подходом в нейрокомпьютерном моделировании речевой продукции является модель DIVA, разработанная Фрэнком Х. Гюнтером и его группой в Бостонском университете. [6] [7] [8] [9] Модель учитывает широкий спектр фонетических и нейровизуализационных данных, но, как и каждая нейрокомпьютерная модель, остается в некоторой степени спекулятивной.
Организация или структура модели DIVA показана на рис. 4.
Карта звуков речи, которая, как предполагается, расположена в нижней и задней части зоны Брока (левая лобная покрышка), представляет (фонологически определенные) речевые единицы, специфичные для языка (звуки, слоги, слова, короткие фразы). Каждая речевая единица (в основном слоги; например, слог и слово «ладонь» /pam/, слоги /pa/, /ta/, /ka/, ...) представлена определенной модельной ячейкой в карте звуков речи (т. е. точечными нейронными представлениями, см. выше). Каждая модельная ячейка (см. искусственный нейрон ) соответствует небольшой популяции нейронов, которые расположены на близком расстоянии и которые активируются вместе.
Каждый нейрон (модельная клетка, искусственный нейрон ) в пределах карты звуков речи может быть активирован и впоследствии активирует прямую двигательную команду в направлении карты движений, называемую картой артикуляционной скорости и положения. Активированное нейронное представление на уровне этой карты движений определяет артикуляцию речевой единицы, т. е. управляет всеми артикуляторами (губами, языком, небной занавеской, голосовой щелью) в течение временного интервала для создания этой речевой единицы. Прямой контроль также включает подкорковые структуры, такие как мозжечок , не моделируемый здесь подробно.
Речевая единица представляет собой количество речевых единиц , которые могут быть отнесены к одной и той же фонематической категории. Таким образом, каждая речевая единица представлена одним определенным нейроном в звуковой карте речи, в то время как реализация речевой единицы может демонстрировать некоторую артикуляционную и акустическую изменчивость. Эта фонетическая изменчивость является мотивацией для определения сенсорных целевых областей в модели DIVA (см. Guenther et al. 1998). [10]
Паттерн активации в карте моторики определяет паттерн движения всех артикуляторов модели (губы, язык, нёбная занавеска, голосовая щель) для речевого элемента. Чтобы не перегружать модель, детальное моделирование нервно -мышечной системы не выполняется. Для генерации движений артикулятора используется артикуляторный речевой синтезатор Maeda , который позволяет генерировать изменяющуюся во времени форму речевого тракта и генерировать акустический речевой сигнал для каждого конкретного речевого элемента.
С точки зрения искусственного интеллекта артикуляционную модель можно назвать растением (т. е. системой, которая управляется мозгом); она представляет собой часть воплощения нейронной системы обработки речи. Артикуляционная модель генерирует сенсорный выход , который является основой для генерации информации обратной связи для модели DIVA (см. ниже: управление обратной связью).
С одной стороны, артикуляционная модель генерирует сенсорную информацию , то есть слуховое состояние для каждой речевой единицы, которое нейронно представлено в карте слухового состояния (распределенное представление), и соматосенсорное состояние для каждой речевой единицы, которое нейронно представлено в карте соматосенсорного состояния (также распределенное представление). Предполагается, что слуховая карта состояния расположена в верхней височной коре , в то время как соматосенсорная карта состояния расположена в нижней теменной коре .
С другой стороны, карта звуков речи, если она активирована для определенной речевой единицы (активация отдельного нейрона; точечная активация), активирует сенсорную информацию посредством синаптических проекций между картой звуков речи и картой слуховой целевой области, а также между картой звуков речи и картой соматосенсорной целевой области. Предполагается, что слуховые и соматосенсорные целевые области расположены в слуховых корковых областях высшего порядка и в соматосенсорных корковых областях высшего порядка соответственно. Эти модели сенсорной активации целевой области, которые существуют для каждой речевой единицы, усваиваются во время усвоения речи (путем обучения имитации; см. ниже: обучение).
Следовательно, два типа сенсорной информации доступны, если речевая единица активируется на уровне карты звуков речи: (i) усвоенные сенсорные целевые области (т. е. предполагаемое сенсорное состояние для речевой единицы) и (ii) паттерны активации сенсорного состояния, возникающие в результате возможного несовершенного исполнения (артикуляции) конкретной речевой единицы (т. е. текущее сенсорное состояние, отражающее текущее производство и артикуляцию этой конкретной речевой единицы). Оба типа сенсорной информации проецируются на сенсорные карты ошибок, т. е. на слуховую карту ошибок, которая предположительно расположена в верхней височной коре (как карта слуховых состояний), и на соматосенсорную карту ошибок, которая предположительно расположена в нижней теменной коре (как карта соматосенсорных состояний) (см. рис. 4).
Если текущее сенсорное состояние отклоняется от предполагаемого сенсорного состояния, обе карты ошибок генерируют команды обратной связи, которые проецируются на моторную карту и которые способны скорректировать модель активации двигателя и, следовательно, артикуляцию речевой единицы при производстве. Таким образом, в целом, модель активации моторной карты не только зависит от конкретной команды прямой связи, усвоенной для речевой единицы (и генерируемой синаптической проекцией из карты звуков речи), но также и от команды обратной связи, генерируемой на уровне сенсорных карт ошибок (см. рис. 4).
В то время как структура нейробиологической модели обработки речи (представленной на рис. 4 для модели DIVA) в основном определяется эволюционными процессами , (специфические для языка) знания , а также (специфические для языка) речевые навыки изучаются и тренируются во время усвоения речи . В случае модели DIVA предполагается, что новорожденный не имеет уже структурированной (специфической для языка) карты звуков речи; т. е. ни один нейрон в карте звуков речи не связан с какой-либо речевой единицей. Скорее, организация карты звуков речи, а также настройка проекций на моторную карту и карты сенсорных целевых областей изучаются или тренируются во время усвоения речи. В подходе DIVA моделируются две важные фазы раннего усвоения речи: обучение лепетом и подражанием .
Во время лепета настраиваются синаптические проекции между сенсорными картами ошибок и моторной картой. Это обучение осуществляется путем генерации некоторого количества полуслучайных команд прямой связи, то есть модель DIVA «лепечет». Каждая из этих команд лепета приводит к созданию «артикуляционного элемента», также обозначенного как «предлингвистический (т.е. неспецифический для языка) речевой элемент» (т.е. артикуляционная модель генерирует артикуляционный шаблон движения на основе моторной команды лепета). Затем генерируется акустический сигнал.
На основе артикуляционного и акустического сигнала активируется определенный слуховой и соматосенсорный паттерн состояния на уровне сенсорных карт состояний (см. рис. 4) для каждого (доязыкового) элемента речи. На этом этапе модель DIVA имеет в своем распоряжении сенсорный и связанный с ним паттерн активации моторики для различных элементов речи, что позволяет модели настраивать синаптические проекции между сенсорными картами ошибок и моторной картой. Таким образом, во время лепета модель DIVA изучает команды обратной связи (т. е. как производить правильную (обратную) моторную команду для определенного сенсорного входа).
Во время имитации модель DIVA организует свою карту звуков речи и настраивает синаптические проекции между картой звуков речи и моторной картой - т.е. настраивает прямые моторные команды - а также синаптические проекции между картой звуков речи и сенсорными целевыми областями (см. рис. 4). Обучение имитации осуществляется путем предъявления модели некоторого количества акустических речевых сигналов, представляющих реализации речевых единиц, специфичных для языка (например, изолированные звуки речи, слоги, слова, короткие фразы).
Настройка синаптических проекций между картой звуков речи и картой слуховой целевой области осуществляется путем назначения одного нейрона карты звуков речи фонематическому представлению этого речевого элемента и связывания его со слуховым представлением этого речевого элемента, которое активируется на карте слуховой целевой области. Слуховые области (т. е. спецификация слуховой изменчивости речевой единицы) возникают, поскольку одна конкретная речевая единица (т. е. одна конкретная фонематическая репрезентация) может быть реализована несколькими (немного) различными акустическими (слуховыми) реализациями (о разнице между речевым элементом и речевой единицей см. выше: управление прямой связью).
Настройка синаптических проекций между речевой звуковой картой и моторной картой (т. е. настройка прямых моторных команд) осуществляется с помощью команд обратной связи, поскольку проекции между сенсорными картами ошибок и моторной картой уже были настроены во время обучения лепету (см. выше). Таким образом, модель DIVA пытается «имитировать» слуховой речевой элемент, пытаясь найти правильную прямую моторную команду. Затем модель сравнивает полученный сенсорный выход ( текущее сенсорное состояние после артикуляции этой попытки) с уже изученной слуховой целевой областью ( предполагаемое сенсорное состояние) для этого речевого элемента. Затем модель обновляет текущую прямую моторную команду с помощью текущей обратной моторной команды, сгенерированной из слуховой карты ошибок системы слуховой обратной связи. Этот процесс может повторяться несколько раз (несколько попыток). Модель DIVA способна воспроизводить речевой элемент с уменьшающейся слуховой разницей между текущим и предполагаемым слуховым состоянием от попытки к попытке.
Во время имитации модель DIVA также способна настраивать синаптические проекции с карты звуков речи на карту соматосенсорной целевой области, поскольку каждая новая попытка имитации создает новую артикуляцию речевого элемента и, таким образом, создает шаблон соматосенсорного состояния, который связан с фонематическим представлением этого речевого элемента.
Хотя слуховая обратная связь наиболее важна во время усвоения речи, она может быть активирована меньше, если модель выучила правильную команду прямой моторики для каждой речевой единицы. Но было показано, что слуховая обратная связь должна быть сильно активирована в случае слухового возмущения (например, смещение частоты форманты, Tourville et al. 2005). [11] Это сопоставимо с сильным влиянием зрительной обратной связи на достижение движений во время зрительного возмущения (например, смещение местоположения объектов путем просмотра через призму ) .
Подобно слуховой обратной связи, соматосенсорная обратная связь может также активно активироваться во время речевой деятельности, например, в случае неожиданной блокировки челюсти (Tourville et al., 2005).
Еще одним подходом в нейрокомпьютерном моделировании обработки речи является модель ACT, разработанная Берндом Дж. Крёгером и его группой [12] в Рейнско-Вестфальском техническом университете Ахена , Германия (Kröger et al. 2014, [13] Kröger et al. 2009, [14] Kröger et al. 2011 [15] ). Модель ACT в значительной степени соответствует модели DIVA. Модель ACT фокусируется на « хранилище действий » (т. е. хранилище для сенсомоторных навыков говорения , сопоставимое с ментальным слоговым письмом, см. Levelt and Wheeldon 1994 [16] ), которое не прописано подробно в модели DIVA. Более того, модель ACT явно вводит уровень моторных планов , т. е. высокоуровневое моторное описание для производства речевых элементов (см. моторные цели , моторная кора ). Модель ACT, как и любая нейрокомпьютерная модель, остается в некоторой степени спекулятивной.
Организация или структура модели ACT представлена на рис. 5.
Для производства речи модель ACT начинается с активации фонематического представления речевого элемента (фонематическая карта). В случае частого слога коактивация происходит на уровне фонетической карты , что приводит к дальнейшей коактивации предполагаемого сенсорного состояния на уровне карт сенсорных состояний и к коактивации состояния моторного плана на уровне карты моторного плана. В случае редкого слога попытка моторного плана генерируется модулем моторного планирования для этого речевого элемента путем активации моторных планов для фонетически похожих речевых элементов через фонетическую карту (см. Kröger et al. 2011 [17] ). Моторный план или оценка действия речевого тракта включают временно перекрывающиеся действия речевого тракта, которые программируются и впоследствии выполняются модулем моторного программирования, выполнения и управления . Этот модуль получает информацию соматосенсорной обратной связи в реальном времени для контроля правильного выполнения (предполагаемого) моторного плана. Программирование моторики приводит к паттерну активации на уровне первичной моторной карты и впоследствии активирует нейромышечную обработку . Паттерны активации мотонейронов генерируют мышечные силы и впоследствии паттерны движения всех модельных артикуляторов (губы, язык, нёбная занавеска, голосовая щель). Для генерации акустического речевого сигнала используется трехмерный артикуляторный синтезатор Birkholz .
Артикуляционные и акустические сигналы обратной связи используются для генерации соматосенсорной и слуховой информации обратной связи через сенсорные модули предварительной обработки, которая направляется на слуховую и соматосенсорную карту. На уровне сенсорно-фонетических модулей обработки слуховая и соматосенсорная информация хранится в кратковременной памяти , а внешний сенсорный сигнал (ES, рис. 5, которые активируются через сенсорную петлю обратной связи) можно сравнить с уже обученными сенсорными сигналами (TS, рис. 5, которые активируются через фонетическую карту). Слуховые и соматосенсорные сигналы ошибки могут быть сгенерированы, если внешние и предполагаемые (обученные) сенсорные сигналы заметно различаются (ср. модель DIVA).
Светло-зеленая область на рис. 5 обозначает те нейронные карты и модули обработки, которые обрабатывают слог как единое целое (конкретное временное окно обработки около 100 мс и более). Эта обработка включает фонетическую карту и напрямую связанные карты сенсорных состояний в модулях сенсорно-фонетической обработки и напрямую связанную карту состояний моторного плана, в то время как первичная моторная карта, а также (первичная) слуховая и (первичная) соматосенсорная карты обрабатывают меньшие временные окна (около 10 мс в модели ACT).
Гипотетическое кортикальное расположение нейронных карт в модели ACT показано на рис. 6. Гипотетические расположения первичных моторных и первичных сенсорных карт показаны пурпурным цветом, гипотетические расположения карты состояния моторного плана и карт сенсорных состояний (в модуле сенсорно-фонетической обработки, сопоставимые с картами ошибок в DIVA) показаны оранжевым цветом, а гипотетические расположения для зеркальной фонетической карты показаны красным цветом. Двойные стрелки указывают нейронные отображения. Нейронные отображения соединяют нейронные карты, которые находятся недалеко друг от друга (см. выше). Два зеркальных расположения фонетической карты связаны через нейронный путь (см. выше), что приводит к (простому) взаимно-однозначному зеркальному отображению текущего паттерна активации для обеих реализаций фонетической карты. Предполагается, что этот нейронный путь между двумя расположениями фонетической карты является частью fasciculus arcuatus (AF, см. рис. 5 и рис. 6).
Для восприятия речи модель начинается с внешнего акустического сигнала (например, производимого внешним динамиком). Этот сигнал предварительно обрабатывается, проходит слуховую карту и приводит к шаблону активации для каждого слога или слова на уровне модуля слухо-фонетической обработки (ES: внешний сигнал, см. рис. 5). Вентральный путь восприятия речи (см. Hickok and Poeppel 2007 [18] ) напрямую активирует лексический элемент, но не реализован в ACT. Вместо этого в ACT активация фонематического состояния происходит через фонематическую карту и, таким образом, может привести к коактивации моторных представлений для этого речевого элемента (т. е. дорсальный путь восприятия речи; там же).
Фонетическая карта вместе с картой состояния моторного плана, сенсорными картами состояния (происходящими в модулях сенсорно-фонетической обработки) и фонемной (состояния) картой образуют хранилище действий. Фонетическая карта реализована в ACT как самоорганизующаяся нейронная карта , и различные речевые элементы представлены различными нейронами в пределах этой карты (точечное или локальное представление, см. выше: нейронные представления). Фонетическая карта демонстрирует три основные характеристики:
Фонетическая карта реализует связь действие-восприятие в модели ACT (см. также рис. 5 и рис. 6: двойное нейронное представление фонетической карты в лобной доле и на пересечении височной и теменной долей ).
План движения — это высокоуровневое описание движения для производства и артикуляции речевых единиц (см. цели движения , двигательные навыки , артикуляционная фонетика , артикуляционная фонология ). В нашей нейрокомпьютерной модели ACT план движения количественно определяется как оценка действия речевого тракта. Оценки действия речевого тракта количественно определяют количество действий речевого тракта (также называемых артикуляционными жестами), которые необходимо активировать для производства речевого элемента, степень их реализации и продолжительность, а также временную организацию всех действий речевого тракта, составляющих речевой элемент (подробное описание оценок действий речевого тракта см., например, в работе Kröger & Birkholz 2007). [19] Детальная реализация каждого действия речевого тракта (артикуляционного жеста) зависит от временной организации всех действий речевого тракта, составляющих речевой элемент, и особенно от их временного перекрытия. Таким образом, детальная реализация каждого действия речевого тракта в рамках речевого элемента определяется ниже уровня моторного плана в нашей нейрокомпьютерной модели ACT (см. Kröger et al. 2011). [20]
Серьезной проблемой фонетических или сенсомоторных моделей обработки речи (таких как DIVA или ACT) является то, что развитие фонематической карты во время усвоения речи не моделируется. Возможным решением этой проблемы может быть прямое соединение репозитория действий и ментального лексикона без явного введения фонематической карты в начале усвоения речи (даже в начале обучения имитации; см. Kröger et al. 2011 PALADYN Journal of Behavioral Robotics).
Очень важным вопросом для всех нейробиологических или нейрокомпьютерных подходов является разделение структуры и знания. В то время как структура модели (т. е. нейронной сети человека, которая необходима для обработки речи) в основном определяется эволюционными процессами , знания собираются в основном во время усвоения речи процессами обучения . Различные эксперименты по обучению проводились с моделью ACT с целью изучения (i) пятигласной системы /i, e, a, o, u/ (см. Kröger et al. 2009), (ii) небольшой системы согласных (звонкие взрывные согласные /b, d, g/ в сочетании со всеми пятью гласными, усвоенными ранее как слоги CV (там же), (iii) небольшой модельной системы языка, включающей пятигласную систему, звонкие и глухие взрывные согласные /b, d, g, p, t, k/, носовые /m, n/ и боковой /l/ и три типа слогов (V, CV и CCV) (см. Kröger et al. 2011) [21] и (iv) 200 наиболее частых слогов стандартного немецкого языка для 6-летнего ребенка (см. Kröger et al. 2011). [22] Во всех случаях можно наблюдать упорядочение фонетических элементов относительно различных фонетических признаков.
Несмотря на то, что модель ACT в своих ранних версиях была разработана как модель чистого производства речи (включая усвоение речи), модель способна демонстрировать важные базовые явления восприятия речи, то есть категориальное восприятие и эффект Мак-Гурка. В случае категориального восприятия модель способна демонстрировать, что категориальное восприятие сильнее в случае взрывных, чем в случае гласных (см. Kröger et al. 2009). Кроме того, модель ACT могла демонстрировать эффект Мак-Гурка , если был реализован определенный механизм торможения нейронов уровня фонетической карты (см. Kröger and Kannampuzha 2008). [23]