Восприятие речи — это процесс, посредством которого звуки языка слышатся, интерпретируются и понимаются. Изучение восприятия речи тесно связано с областями фонологии и фонетики в лингвистике и когнитивной психологии и восприятием в психологии . Исследования в области восприятия речи стремятся понять, как слушатели-люди распознают звуки речи и используют эту информацию для понимания устной речи. Исследования восприятия речи имеют приложения в создании компьютерных систем, которые могут распознавать речь , в улучшении распознавания речи для слушателей с нарушениями слуха и языка, а также в обучении иностранным языкам.
Процесс восприятия речи начинается на уровне звукового сигнала и процесса аудирования. (Полное описание процесса аудирования см. в разделе Слух .) После обработки исходного слухового сигнала звуки речи подвергаются дальнейшей обработке для извлечения акустических сигналов и фонетической информации. Затем эта речевая информация может быть использована для языковых процессов более высокого уровня, таких как распознавание слов.
Акустические сигналы — это сенсорные сигналы, содержащиеся в речевом звуковом сигнале, которые используются при восприятии речи для различения звуков речи, принадлежащих к разным фонетическим категориям. Например, одним из наиболее изученных сигналов в речи является время начала звучания голоса или VOT. VOT — это основной сигнал, указывающий на разницу между звонкими и глухими взрывными согласными, такими как «b» и «p». Другие сигналы различают звуки, которые производятся в разных местах артикуляции или способами артикуляции . Речевая система также должна объединять эти сигналы, чтобы определить категорию конкретного звука речи. Это часто рассматривается в терминах абстрактных представлений фонем . Затем эти представления можно объединять для использования в распознавании слов и других языковых процессах.
Нелегко определить, к каким акустическим сигналам восприимчивы слушатели при восприятии определенного звука речи:
На первый взгляд, решение проблемы того, как мы воспринимаем речь, кажется обманчиво простым. Если бы можно было определить участки акустической волны, которые соответствуют единицам восприятия, то путь от звука к значению был бы ясен. Однако это соответствие или отображение оказалось чрезвычайно трудно найти, даже после примерно сорока пяти лет исследований этой проблемы. [1]
Если бы определенный аспект акустической формы волны указывал на одну языковую единицу, то для определения такой подсказки или подсказок было бы достаточно серии тестов с использованием синтезаторов речи. Однако есть два существенных препятствия:
Хотя слушатели воспринимают речь как поток дискретных единиц [ требуется ссылка ] ( фонемы , слоги и слова ), эту линейность трудно увидеть в физическом речевом сигнале (см. рисунок 2 для примера). Звуки речи не следуют строго друг за другом, скорее, они перекрываются. [5] На звук речи влияют те, которые предшествуют, и те, которые следуют. Это влияние может оказываться даже на расстоянии двух или более сегментов (и через границы слогов и слов). [5]
Поскольку речевой сигнал не линеен, возникает проблема сегментации. Трудно отнести отрезок речевого сигнала к одной перцептивной единице. Например, акустические свойства фонемы /d/ будут зависеть от производства следующей гласной (из-за коартикуляции ).
Исследование и применение восприятия речи должны иметь дело с несколькими проблемами, которые являются результатом того, что было названо отсутствием инвариантности. Надежные постоянные связи между фонемой языка и ее акустическим проявлением в речи трудно найти. Для этого есть несколько причин:
Фонетическая среда влияет на акустические свойства звуков речи. Например, /u/ в английском языке выносится вперед, когда окружен коронарными согласными . [6] Или время начала озвучивания , отмечающее границу между звонкими и глухими взрывными согласными, различно для губных, альвеолярных и велярных взрывных согласных, и они смещаются под ударением или в зависимости от положения внутри слога. [7]
Одним из важных факторов, вызывающих вариации, является разная скорость речи. Многие фонемные контрасты формируются временными характеристиками (краткие против долгих гласных или согласных, аффрикаты против фрикативных, взрывные против скользящих, звонкие против глухих взрывных и т. д.), и на них, безусловно, влияют изменения темпа речи . [1] Другим важным источником вариаций является артикуляционная тщательность против неряшливости, что типично для связной речи (артикуляционный «недолет», очевидно, отражается в акустических свойствах производимых звуков).
Результирующая акустическая структура конкретных речевых произведений зависит от физических и психологических свойств отдельных говорящих. Мужчины, женщины и дети обычно воспроизводят голоса с разной высотой тона. Поскольку говорящие имеют голосовые тракты разного размера (особенно из-за пола и возраста), резонансные частоты ( форманты ), которые важны для распознавания звуков речи, будут различаться по своим абсолютным значениям у разных людей [8] (см. Рисунок 3 для иллюстрации этого). Исследования показывают, что младенцы в возрасте 7,5 месяцев не могут распознавать информацию, представленную говорящими разного пола; однако к возрасту 10,5 месяцев они могут обнаруживать сходства. [9] Диалект и иностранный акцент также могут вызывать вариации, как и социальные характеристики говорящего и слушающего. [10]
Несмотря на большое разнообразие различных говорящих и различных условий, слушатели воспринимают гласные и согласные как постоянные категории. Было высказано предположение, что это достигается посредством процесса нормализации восприятия, в котором слушатели отфильтровывают шум (т. е. вариацию), чтобы прийти к базовой категории. Различия в размерах голосового тракта приводят к вариации формантной частоты у разных говорящих; поэтому слушатель должен подстроить свою систему восприятия под акустические характеристики конкретного говорящего. Это может быть достигнуто путем рассмотрения соотношений формант, а не их абсолютных значений. [11] [12] [13] Этот процесс был назван нормализацией голосового тракта (см. пример на рисунке 3). Аналогичным образом, считается, что слушатели подстраивают восприятие длительности под текущий темп речи, которую они слушают, — это называется нормализацией скорости речи.
Имеет ли место нормализация на самом деле и какова ее точная природа — это предмет теоретических споров (см. теории ниже). Перцептивное постоянство — это явление, не специфичное только для восприятия речи; оно существует и в других типах восприятия.
Категориальное восприятие участвует в процессах перцептивной дифференциации. Люди воспринимают звуки речи категориально, то есть они с большей вероятностью замечают различия между категориями (фонемами), чем внутри категорий. Поэтому перцептивное пространство между категориями деформировано, центры категорий (или «прототипы») работают как сито [14] или как магниты [15] для входящих звуков речи.
В искусственном континууме между глухим и звонким губно-губным взрывным каждый новый шаг отличается от предыдущего количеством VOT . Первый звук — это предзвонкий [b] , т. е. он имеет отрицательное VOT. Затем, увеличивая VOT, он достигает нуля, т. е. взрывной звук — это простой не придыхательный глухой [p] . Постепенно, добавляя одинаковое количество VOT за раз, взрывной звук в конечном итоге становится сильно придыхательным глухим губно-губным [pʰ] . (Такой континуум использовался в эксперименте Лискера и Абрамсона в 1970 году. [16] Звуки, которые они использовали, доступны в Интернете.) В этом континууме, например, из семи звуков, носители английского языка идентифицируют первые три звука как /b/, а последние три звука как /p/ с четкой границей между двумя категориями. [16] Тест двухальтернативной идентификации (или категоризации) даст прерывистую функцию категоризации (см. красную кривую на рисунке 4).
В тестах на способность различать два звука с разными значениями VOT, но с постоянным расстоянием VOT друг от друга (например, 20 мс), слушатели, скорее всего, покажут результат на уровне случайности, если оба звука попадают в одну и ту же категорию, и на уровне, близком к 100%, если каждый звук попадает в другую категорию (см. синюю кривую дискриминации на рисунке 4).
Вывод, который можно сделать из обоих тестов на идентификацию и дискриминацию, заключается в том, что слушатели будут иметь разную чувствительность к одному и тому же относительному увеличению VOT в зависимости от того, была ли пересечена граница между категориями. Подобная перцептивная настройка подтверждается и для других акустических сигналов.
В классическом эксперименте Ричард М. Уоррен (1970) заменил одну фонему слова звуком, похожим на кашель. Перцептивно его испытуемые восстанавливали отсутствующий звук речи без каких-либо затруднений и не могли точно определить, какая фонема была нарушена, [17] явление, известное как эффект фонетического восстановления . Таким образом, процесс восприятия речи не обязательно является однонаправленным.
Другой базовый эксперимент сравнивал распознавание естественно произнесенных слов в фразе с теми же словами по отдельности, обнаружив, что точность восприятия обычно падает в последнем случае. Чтобы исследовать влияние семантических знаний на восприятие, Гарнс и Бонд (1976) аналогичным образом использовали несущие предложения, в которых целевые слова отличались только одной фонемой (например, bay/day/gay), качество которой изменялось вдоль континуума. Когда их помещали в разные предложения, каждое из которых естественным образом приводило к одной интерпретации, слушатели имели тенденцию оценивать неоднозначные слова в соответствии со значением всего предложения [18] . [19] То есть, языковые процессы более высокого уровня, связанные с морфологией , синтаксисом или семантикой, могут взаимодействовать с базовыми процессами восприятия речи, чтобы помочь в распознавании звуков речи.
Может быть, слушателю не обязательно и даже невозможно распознавать фонемы до распознавания более высоких единиц, например, слов. Получив хотя бы основную часть информации о фонематической структуре воспринимаемой сущности из акустического сигнала, слушатели могут компенсировать отсутствующие или замаскированные шумом фонемы, используя свои знания разговорного языка. Компенсаторные механизмы могут работать даже на уровне предложений, например, в выученных песнях, фразах и стихах, эффект, подкрепленный нейронными кодирующими шаблонами, соответствующими пропущенным непрерывным фрагментам речи, [20] несмотря на отсутствие всех соответствующих сенсорных входных сигналов снизу вверх.
Первая гипотеза восприятия речи была использована для пациентов, которые приобрели дефицит слухового понимания, также известный как рецептивная афазия . С тех пор было классифицировано много нарушений, что привело к истинному определению «восприятия речи». [21] Термин «восприятие речи» описывает интересующий процесс, который использует сублексические контексты для процесса зондирования. Он состоит из множества различных языковых и грамматических функций, таких как: черты, сегменты (фонемы), слоговая структура (единица произношения), фонологические формы слов (как звуки группируются вместе), грамматические черты, морфемика (префиксы и суффиксы) и семантическая информация (значение слов). В первые годы они больше интересовались акустикой речи. Например, они изучали различия между /ba/ и /da/, но теперь исследования были направлены на реакцию мозга на стимулы. В последние годы была разработана модель, чтобы создать ощущение того, как работает восприятие речи; эта модель известна как модель двойного потока. Эта модель радикально изменилась по сравнению с тем, как психологи смотрят на восприятие. Первый раздел модели двойного потока — это вентральный путь. Этот путь включает среднюю височную извилину, нижнюю височную борозду и, возможно, нижнюю височную извилину . Вентральный путь показывает фонологические представления лексическим или концептуальным представлениям, которые являются значением слов. Второй раздел модели двойного потока — это дорсальный путь. Этот путь включает сильвиеву теменно-височную, нижнюю лобную извилину, передний островок и премоторную кору. Его основная функция — принимать сенсорные или фонологические стимулы и переводить их в артикуляционно-моторное представление (формирование речи). [22]
Афазия — это нарушение обработки языка, вызванное повреждением мозга. Различные части обработки языка затрагиваются в зависимости от области мозга, которая повреждена, и афазия далее классифицируется на основе местоположения повреждения или совокупности симптомов. Повреждение области Брока в мозге часто приводит к экспрессивной афазии , которая проявляется как нарушение речевой продукции. Повреждение области Вернике часто приводит к рецептивной афазии , при которой нарушается обработка речи. [23]
Афазия с нарушением восприятия речи обычно показывает поражения или повреждения, расположенные в левой височной или теменной доле . Лексические и семантические трудности являются обычным явлением, и понимание может быть нарушено. [23]
Агнозия — это «потеря или снижение способности узнавать знакомые объекты или стимулы, обычно в результате повреждения мозга». [24] Существует несколько различных видов агнозии, которые затрагивают каждое из наших чувств, но два наиболее распространенных, связанных с речью, — это речевая агнозия и фонагнозия .
Речевая агнозия : Чистая словесная глухота, или речевая агнозия, — это нарушение, при котором человек сохраняет способность слышать, воспроизводить речь и даже читать ее, но не может понимать или правильно воспринимать речь. У этих пациентов, по-видимому, есть все необходимые навыки для правильной обработки речи, но при этом у них нет опыта, связанного с речевыми стимулами. Пациенты сообщают: «Я слышу, как вы говорите, но не могу перевести». [25] Несмотря на то, что они физически получают и обрабатывают речевые стимулы, не имея возможности определить смысл речи, они по сути вообще не способны воспринимать речь. Не существует известных методов лечения, которые были бы найдены, но из тематических исследований и экспериментов известно, что речевая агнозия связана с поражениями в левом полушарии или обоих, в частности с дисфункциями правой височно-теменной доли. [26]
Фонагнозия : Фонагнозия связана с неспособностью узнавать знакомые голоса. В этих случаях речевые стимулы могут быть услышаны и даже поняты, но связь речи с определенным голосом теряется. Это может быть связано с «ненормальной обработкой сложных вокальных свойств (тембра, артикуляции и просодии — элементов, которые отличают индивидуальный голос». [27] Известного лечения не существует; однако есть сообщение о случае женщины, страдающей эпилепсией, у которой началась фонагнозия наряду с другими нарушениями. Результаты ее ЭЭГ и МРТ показали «правое корковое теменное поражение T2-гиперинтенсивности без усиления гадолинием и с дискретным нарушением диффузии молекул воды». [27] Таким образом, хотя лечение не было найдено, фонагнозия может быть связана с постиктальной теменной корковой дисфункцией.
Младенцы начинают процесс освоения языка , будучи в состоянии обнаружить очень маленькие различия между звуками речи. Они могут различать все возможные речевые контрасты (фонемы). Постепенно, по мере того, как они подвергаются воздействию своего родного языка, их восприятие становится языково-специфичным, т. е. они учатся игнорировать различия в пределах фонемных категорий языка (различия, которые могут быть контрастными в других языках — например, английский различает две категории звонкости взрывных , тогда как тайский имеет три категории ; младенцы должны узнать, какие различия являются отличительными в использовании их родного языка, а какие нет). По мере того, как младенцы учатся сортировать входящие речевые звуки по категориям, игнорируя несущественные различия и усиливая контрастные, их восприятие становится категориальным. Младенцы учатся противопоставлять различные гласные фонемы своего родного языка примерно к 6 месяцам. Нативные контрасты согласных усваиваются к 11 или 12 месяцам. [28] Некоторые исследователи предположили, что младенцы могут изучать звуковые категории своего родного языка посредством пассивного слушания, используя процесс, называемый статистическим обучением . Другие даже утверждают, что некоторые звуковые категории являются врожденными, то есть они генетически заданы (см. обсуждение врожденной и приобретенной категориальной различимости ).
Если однодневным младенцам предъявляют голос матери, говорящей нормально, ненормально (монотонно), и голос незнакомца, они реагируют только на голос матери, говорящей нормально. Когда воспроизводится человеческий и нечеловеческий звук, младенцы поворачивают голову только к источнику человеческого звука. Было высказано предположение, что слуховое обучение начинается уже в пренатальный период. [29]
Одним из методов, используемых для изучения того, как младенцы воспринимают речь, помимо процедуры поворота головы, упомянутой выше, является измерение их скорости сосания. В таком эксперименте младенец сосет специальную соску, пока ему предъявляют звуки. Сначала устанавливается нормальная скорость сосания младенца. Затем стимул воспроизводится многократно. Когда младенец слышит стимул в первый раз, скорость сосания увеличивается, но по мере того, как младенец привыкает к стимуляции, скорость сосания уменьшается и выравнивается. Затем младенцу воспроизводится новый стимул. Если младенец воспринимает новый стимул как отличающийся от фонового стимула, скорость сосания увеличится. [29] Метод скорости сосания и поворота головы являются одними из наиболее традиционных поведенческих методов изучения восприятия речи. Среди новых методов (см. Методы исследования ниже), которые помогают нам изучать восприятие речи, у младенцев широко используется спектроскопия в ближнем инфракрасном диапазоне . [28]
Также было обнаружено, что, хотя способность младенцев различать различные фонетические свойства различных языков начинает снижаться примерно в возрасте девяти месяцев, этот процесс можно обратить вспять, подвергая их воздействию нового языка в достаточной степени. В исследовании Патрисии К. Куль, Фэн-Мин Цао и Хуэй-Мэй Лю было обнаружено, что если с младенцами разговаривает и взаимодействует носитель мандаринского китайского языка, их можно фактически обусловить сохранением способности различать различные звуки речи в мандаринском языке, которые сильно отличаются от звуков речи, встречающихся в английском языке. Таким образом, доказывая, что при правильных условиях можно предотвратить потерю младенцами способности различать звуки речи на языках, отличных от тех, которые встречаются в родном языке. [30]
Большое количество исследований было посвящено изучению того, как пользователи языка воспринимают иностранную речь (это называется межъязыковым восприятием речи) или речь на втором языке (восприятие речи на втором языке). Последнее относится к области усвоения второго языка .
Языки различаются по фонематическому инвентарю. Естественно, это создает трудности при столкновении с иностранным языком. Например, если два звука иностранного языка ассимилируются в одну категорию родного языка, разницу между ними будет очень трудно различить. Классическим примером этой ситуации является наблюдение, что японские изучающие английский язык будут испытывать проблемы с определением или различением английских плавных согласных /l/ и /r/ (см. Восприятие английских /r/ и /l/ носителями японского языка ). [31]
Best (1995) предложил модель перцептивной ассимиляции, которая описывает возможные модели ассимиляции межъязыковых категорий и предсказывает их последствия. [32] Flege (1995) сформулировал модель обучения речи, которая объединяет несколько гипотез об усвоении речи на втором языке (L2) и которая предсказывает, простыми словами, что звук L2, который не слишком похож на звук родного языка (L1), будет легче усвоить, чем звук L2, который относительно похож на звук L1 (потому что он будет восприниматься обучающимся как более очевидно «другой»). [33]
Исследования того, как люди с нарушениями языка или слуха воспринимают речь, направлены не только на поиск возможных методов лечения. Они могут дать представление о принципах, лежащих в основе восприятия речи без нарушений. [34] В качестве примера можно привести две области исследований:
Афазия влияет как на выражение, так и на восприятие языка. Оба наиболее распространенных типа, экспрессивная афазия и рецептивная афазия , в некоторой степени влияют на восприятие речи. Экспрессивная афазия вызывает умеренные трудности в понимании языка. Влияние рецептивной афазии на понимание гораздо более серьезное. Принято считать, что афазики страдают от дефицита восприятия. Обычно они не могут полностью различить место артикуляции и озвучивания. [35] Что касается других особенностей, трудности различаются. Пока не доказано, страдают ли у страдающих афазией навыки восприятия речи низкого уровня или их трудности вызваны только нарушением более высокого уровня. [35]
Кохлеарная имплантация восстанавливает доступ к акустическому сигналу у людей с сенсоневральной тугоухостью. Акустической информации, передаваемой имплантом, обычно достаточно для пользователей импланта, чтобы правильно распознавать речь знакомых им людей даже без визуальных подсказок. [36] Пользователям кохлеарного импланта сложнее понимать незнакомых ораторов и звуки. Перцептивные способности детей, получивших имплант после двух лет, значительно лучше, чем у тех, кому имплантировали во взрослом возрасте. Было показано, что на перцептивную эффективность влияет ряд факторов, в частности: продолжительность глухоты до имплантации, возраст наступления глухоты, возраст на момент имплантации (такие возрастные эффекты могут быть связаны с гипотезой критического периода ) и продолжительность использования импланта. Существуют различия между детьми с врожденной и приобретенной глухотой. Дети с постлингвальной глухотой показывают лучшие результаты, чем дети с прелингвальной глухотой, и быстрее адаптируются к кохлеарному импланту. [36] У детей с кохлеарными имплантами и с нормальным слухом гласные и время появления голоса становятся преобладающими в развитии до способности различать место артикуляции. Через несколько месяцев после имплантации дети с кохлеарными имплантами могут нормализовать восприятие речи.
Одной из фундаментальных проблем в изучении речи является то, как бороться с шумом. Это видно по трудностям в распознавании человеческой речи, с которыми сталкиваются компьютерные системы распознавания. Хотя они могут хорошо распознавать речь, если обучены голосу конкретного говорящего и в тихих условиях, эти системы часто плохо справляются в более реалистичных ситуациях прослушивания, где люди понимают речь с относительной легкостью. Для имитации шаблонов обработки, которые будут храниться в мозге в нормальных условиях, предшествующие знания являются ключевым нейронным фактором, поскольку надежная история обучения может в определенной степени перекрывать экстремальные эффекты маскировки, связанные с полным отсутствием непрерывных речевых сигналов. [20]
Исследование взаимосвязи между музыкой и познанием является новой областью, связанной с изучением восприятия речи. Первоначально предполагалось, что нейронные сигналы для музыки обрабатываются в специализированном «модуле» в правом полушарии мозга. Наоборот, нейронные сигналы для языка должны были обрабатываться аналогичным «модулем» в левом полушарии. [37] Однако, используя такие технологии, как машины фМРТ, исследования показали, что две области мозга, традиционно считающиеся исключительно для обработки речи, зоны Брока и Вернике, также становятся активными во время музыкальных занятий, таких как прослушивание последовательности музыкальных аккордов. [37] Другие исследования, такие как исследование, проведенное Маркесом и др. в 2006 году, показали, что 8-летние дети, которые в течение шести месяцев занимались музыкой, показали улучшение как своих показателей определения высоты тона, так и своих электрофизиологических показателей, когда их заставляли слушать неизвестный иностранный язык. [38]
Наоборот, некоторые исследования показали, что вместо того, чтобы музыка влияла на наше восприятие речи, наша родная речь может влиять на наше восприятие музыки. Одним из примеров является парадокс тритона . Парадокс тритона заключается в том, что слушателю предъявляют два сгенерированных компьютером тона (например, C и F-Sharp), которые находятся на расстоянии половины октавы (или тритона), а затем просят определить, является ли высота тона последовательности нисходящей или восходящей. Одно из таких исследований, проведенное г-жой Дианой Дойч, обнаружило, что интерпретация слушателем восходящей или нисходящей высоты тона была обусловлена языком или диалектом слушателя, показывая различия между теми, кто вырос на юге Англии, и теми, кто живет в Калифорнии, или между теми, кто живет во Вьетнаме, и теми, кто живет в Калифорнии, чьим родным языком был английский. [37] Второе исследование, проведенное в 2006 году на группе носителей английского языка и 3 группах студентов из Восточной Азии в Университете Южной Калифорнии, обнаружило, что носители английского языка, которые начали заниматься музыкой в возрасте 5 лет или раньше, имели 8% шансов иметь абсолютный слух. [37]
Кейси О'Каллаган в своей статье «Ощущение речи » анализирует, отличается ли «перцептивный опыт слушания речи феноменальным характером» [39] в отношении понимания языка, который слышит человек. Он утверждает, что опыт человека, когда он слышит язык, который он понимает, в отличие от его опыта человека, когда он слышит язык, о котором он ничего не знает, демонстрирует разницу в феноменальных чертах , которые он определяет как «аспекты того, каков опыт» [39] для человека.
Если субъекту, являющемуся носителем английского языка, предъявляется речевой стимул на немецком языке, то последовательность фонем будет восприниматься как простые звуки и вызовет совершенно иной опыт, чем если бы тот же самый стимул был предъявлен субъекту, говорящему по-немецки.
Он также изучает, как меняется восприятие речи при изучении языка. Если бы субъекту, не знающему японского языка, был представлен стимул японской речи, а затем ему были бы даны точно такие же стимулы после обучения японскому языку, этот же человек имел бы совершенно другой опыт.
Методы, используемые при исследовании восприятия речи, можно условно разделить на три группы: поведенческие, вычислительные и, в последнее время, нейрофизиологические методы.
Поведенческие эксперименты основаны на активной роли участника, то есть субъектам предъявляются стимулы и предлагается принять осознанные решения относительно них. Это может принимать форму теста на идентификацию, теста на дискриминацию , оценки сходства и т. д. Эти типы экспериментов помогают предоставить базовое описание того, как слушатели воспринимают и классифицируют звуки речи.
Восприятие речи также анализировалось с помощью синусоидальной речи, формы синтетической речи, в которой человеческий голос заменяется синусоидальными волнами, которые имитируют частоты и амплитуды, присутствующие в исходной речи. Когда субъектам впервые предъявляют эту речь, синусоидальная речь интерпретируется как случайные шумы. Но когда субъектам сообщают, что стимул на самом деле является речью, и говорят, что говорится, «происходит характерный, почти немедленный сдвиг» [39] в том, как воспринимается синусоидальная речь.
Вычислительное моделирование также использовалось для имитации того, как речь может обрабатываться мозгом для создания наблюдаемого поведения. Компьютерные модели использовались для решения нескольких вопросов восприятия речи, включая то, как сам звуковой сигнал обрабатывается для извлечения акустических сигналов, используемых в речи, и как речевая информация используется для процессов более высокого уровня, таких как распознавание слов. [40]
Нейрофизиологические методы основаны на использовании информации, вытекающей из более прямых и не обязательно сознательных (преаттентивных) процессов. Испытуемым предъявляются речевые стимулы в различных типах задач, и измеряются реакции мозга. Сам мозг может быть более чувствительным, чем кажется через поведенческие реакции. Например, субъект может не проявлять чувствительности к разнице между двумя звуками речи в тесте на различение, но реакции мозга могут обнаруживать чувствительность к этим различиям. [28] Методы, используемые для измерения нейронных реакций на речь, включают потенциалы, связанные с событиями , магнитоэнцефалографию и ближнюю инфракрасную спектроскопию . Одним из важных ответов, используемых с потенциалами, связанными с событиями, является негативность несоответствия , которая возникает, когда речевые стимулы акустически отличаются от стимула, который субъект слышал ранее.
Нейрофизиологические методы были внедрены в исследования восприятия речи по нескольким причинам:
Поведенческие реакции могут отражать поздние сознательные процессы и зависеть от других систем, таких как орфография, и, таким образом, они могут маскировать способность говорящего распознавать звуки на основе акустических распределений более низкого уровня. [41]
Без необходимости принимать активное участие в тесте, даже младенцы могут быть протестированы; эта особенность имеет решающее значение в исследовании процессов приобретения. Возможность наблюдать низкоуровневые слуховые процессы независимо от высокоуровневых позволяет решать давние теоретические вопросы, такие как, обладают ли люди специализированным модулем для восприятия речи [42] [43] или лежит ли в основе распознавания звука речи некоторая сложная акустическая инвариантность (см. отсутствие инвариантности выше). [44]
Некоторые из самых ранних работ по изучению того, как люди воспринимают звуки речи, были проведены Элвином Либерманом и его коллегами в Haskins Laboratories . [45] Используя синтезатор речи, они сконструировали звуки речи, которые варьировались по месту артикуляции вдоль континуума от /bɑ/ до /dɑ/ и до /ɡɑ/ . Слушателям было предложено определить, какой звук они услышали, и различить два разных звука. Результаты эксперимента показали, что слушатели группировали звуки в дискретные категории, хотя звуки, которые они слышали, постоянно менялись. Основываясь на этих результатах, они предложили понятие категориального восприятия как механизма, с помощью которого люди могут идентифицировать звуки речи.
Более поздние исследования с использованием различных задач и методов показывают, что слушатели очень чувствительны к акустическим различиям в пределах одной фонетической категории, что противоречит строгому категориальному описанию восприятия речи.
Чтобы предоставить теоретическое описание категориальных данных восприятия , Либерман и коллеги [46] разработали моторную теорию восприятия речи, в которой «предполагалось, что сложное артикуляционное кодирование декодируется при восприятии речи теми же процессами, которые задействованы в производстве» [1] (это называется анализом через синтез). Например, английский согласный /d/ может различаться по своим акустическим деталям в разных фонетических контекстах (см. выше), однако все /d/, воспринимаемые слушателем, попадают в одну категорию (звонкий альвеолярный взрывной), и это потому, что «лингвистические представления являются абстрактными, каноническими, фонетическими сегментами или жестами, которые лежат в основе этих сегментов». [1] При описании единиц восприятия Либерман позднее отказался от артикуляционных движений и перешел к нейронным командам артикуляторам [47] и даже позже к предполагаемым артикуляционным жестам, [48] таким образом, «нейронное представление высказывания, определяющее продукцию говорящего, является дистальным объектом, воспринимаемым слушателем». [48] Теория тесно связана с гипотезой модульности , которая предполагает существование специального модуля, который, как предполагается, является врожденным и, вероятно, свойственным только человеку.
Теория была подвергнута критике с точки зрения неспособности «предоставить отчет о том, как именно акустические сигналы переводятся в предполагаемые жесты» [49] слушателями. Кроме того, неясно, как индексальная информация (например, личность говорящего) кодируется/декодируется вместе с лингвистически релевантной информацией.
Примеры моделей восприятия речи отличаются от четырех теорий, упомянутых выше, которые предполагают, что нет никакой связи между распознаванием слов и говорящего, а различия между говорящими являются «шумом», который следует отфильтровывать.
Подходы, основанные на образцах, утверждают, что слушатели хранят информацию как для распознавания слов, так и для распознавания говорящего. Согласно этой теории, конкретные примеры звуков речи хранятся в памяти слушателя. В процессе восприятия речи запомненные примеры, например, слога, хранящиеся в памяти слушателя, сравниваются с входящим стимулом, чтобы стимул можно было категоризировать. Аналогично, при распознавании говорящего активируются все следы памяти высказываний, произведенных этим говорящим, и определяется личность говорящего. Подтверждением этой теории являются несколько экспериментов, описанных Джонсоном [13] , которые предполагают, что наша идентификация сигнала более точна, когда мы знакомы с говорящим или когда у нас есть визуальное представление пола говорящего. Когда говорящий непредсказуем или пол неправильно идентифицирован, частота ошибок при идентификации слова намного выше.
Образцовые модели сталкиваются с несколькими возражениями, два из которых: (1) недостаточный объем памяти для хранения каждого когда-либо услышанного высказывания и, что касается способности воспроизводить услышанное, (2) сохраняются ли или вычисляются ли также собственные артикуляционные жесты говорящего при воспроизведении высказываний, которые звучали бы как слуховые воспоминания. [13] [49]
Кеннет Н. Стивенс предложил акустические ориентиры и отличительные признаки как связь между фонологическими признаками и слуховыми свойствами. Согласно этой точке зрения, слушатели проверяют входящий сигнал на предмет так называемых акустических ориентиров, которые являются особыми событиями в спектре, несущими информацию о жестах, которые их произвели. Поскольку эти жесты ограничены возможностями человеческих артикуляторов, а слушатели чувствительны к своим слуховым коррелятам, отсутствие инвариантности просто не существует в этой модели. Акустические свойства ориентиров составляют основу для установления отличительных признаков. Их пучки однозначно определяют фонетические сегменты (фонемы, слоги, слова). [50]
В этой модели считается, что входящий акустический сигнал сначала обрабатывается для определения так называемых ориентиров, которые являются особыми спектральными событиями в сигнале; например, гласные обычно отмечены более высокой частотой первой форманты, согласные могут быть определены как разрывы в сигнале и имеют более низкие амплитуды в нижних и средних областях спектра. Эти акустические особенности являются результатом артикуляции. Фактически, вторичные артикуляционные движения могут использоваться, когда требуется усиление ориентиров из-за внешних условий, таких как шум. Стивенс утверждает, что коартикуляция вызывает только ограниченные и, более того, систематические и, следовательно, предсказуемые изменения в сигнале, с которыми слушатель может иметь дело. Таким образом, в рамках этой модели то, что называется отсутствием инвариантности, просто утверждается как несуществующее.
Ориентиры анализируются для определения определенных артикуляционных событий (жестов), которые с ними связаны. На следующем этапе акустические сигналы извлекаются из сигнала в непосредственной близости от ориентиров посредством мысленного измерения определенных параметров, таких как частоты спектральных пиков, амплитуды в низкочастотной области или временные характеристики.
Следующий этап обработки включает консолидацию акустических сигналов и выведение отличительных признаков. Это бинарные категории, связанные с артикуляцией (например, [+/- высокий], [+/- задний], [+/- округленные губы] для гласных; [+/- сонорный], [+/- латеральный] или [+/- носовой] для согласных).
Связки этих признаков однозначно идентифицируют речевые сегменты (фонемы, слоги, слова). Эти сегменты являются частью лексикона, хранящегося в памяти слушателя. Его единицы активируются в процессе лексического доступа и сопоставляются с исходным сигналом, чтобы выяснить, совпадают ли они. Если нет, делается еще одна попытка с другим шаблоном-кандидатом. Таким итеративным образом слушатели реконструируют артикуляционные события, которые были необходимы для создания воспринимаемого речевого сигнала. Поэтому это можно описать как анализ через синтез.
Таким образом, эта теория постулирует, что дистальным объектом восприятия речи являются артикуляционные жесты, лежащие в основе речи. Слушатели осмысливают речевой сигнал, ссылаясь на них. Модель относится к тем, которые называют анализом через синтез.
Нечеткая логическая теория восприятия речи, разработанная Домиником Массаро [51], предполагает, что люди запоминают звуки речи вероятностным или градуированным образом. Она предполагает, что люди запоминают описания перцептивных единиц языка, называемых прототипами. Внутри каждого прототипа могут сочетаться различные признаки. Однако признаки не просто двоичные (истинные или ложные), существует нечеткое значение, соответствующее вероятности того, что звук принадлежит к определенной речевой категории. Таким образом, при восприятии речевого сигнала наше решение о том, что мы на самом деле слышим, основано на относительной добротности соответствия между стимульной информацией и значениями конкретных прототипов. Окончательное решение основывается на множественных признаках или источниках информации, даже визуальной информации (это объясняет эффект МакГурка ). [49] Компьютерные модели нечеткой логической теории использовались для демонстрации того, что предсказания теории о том, как категоризируются звуки речи, соответствуют поведению слушателей-людей. [52]
Гипотеза речевого режима — это идея о том, что восприятие речи требует использования специализированной ментальной обработки. [53] [54] Гипотеза речевого режима является ответвлением теории модульности Фодора (см. модульность разума ). Она использует механизм вертикальной обработки, где ограниченные стимулы обрабатываются специальными областями мозга, которые являются специфическими для стимулов. [54]
Две версии гипотезы речевого режима: [53]
Три важные экспериментальные парадигмы развились в поисках доказательств гипотезы речевого режима. Это дихотическое слушание , категориальное восприятие и дуплексное восприятие . [53] Благодаря исследованиям в этих категориях было обнаружено, что может не быть определенного речевого режима, а вместо этого есть один для слуховых кодов, которые требуют сложной слуховой обработки. Также кажется, что модульность усваивается в перцептивных системах. [53] Несмотря на это, доказательства и контрдоказательства гипотезы речевого режима все еще неясны и требуют дальнейшего исследования.
Теория прямого реализма восприятия речи (в основном связанная с Кэрол Фаулер ) является частью более общей теории прямого реализма , которая постулирует, что восприятие позволяет нам иметь прямое осознание мира, поскольку оно включает в себя прямое восстановление дистального источника воспринимаемого события. Для восприятия речи теория утверждает, что объектами восприятия являются фактические движения речевого тракта или жесты, а не абстрактные фонемы или (как в теории моторики) события, которые причинно предшествуют этим движениям, т. е. предполагаемые жесты. Слушатели воспринимают жесты не с помощью специализированного декодера (как в теории моторики), а потому, что информация в акустическом сигнале определяет жесты, которые его формируют. [55] Утверждая, что фактические артикуляционные жесты, которые производят различные звуки речи, сами по себе являются единицами восприятия речи, теория обходит проблему отсутствия инвариантности.
{{cite encyclopedia}}
: CS1 maint: несколько имен: список авторов ( ссылка ){{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ){{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ){{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ){{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ){{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ){{cite conference}}
: CS1 maint: несколько имен: список авторов ( ссылка ){{cite conference}}
: CS1 maint: несколько имен: список авторов ( ссылка ){{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ){{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ){{cite conference}}
: CS1 maint: несколько имен: список авторов ( ссылка )[ постоянная мертвая ссылка ]{{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ){{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка ){{cite journal}}
: CS1 maint: несколько имен: список авторов ( ссылка )