Фонетика — это раздел лингвистики , изучающий, как люди производят и воспринимают звуки или, в случае языков жестов , эквивалентные аспекты знака. [1] Лингвисты, которые специализируются на изучении физических свойств речи, называются фонетиками . Область фонетики традиционно делится на три субдисциплины, основанные на исследовательских вопросах, таких как то, как люди планируют и выполняют движения для производства речи ( артикуляционная фонетика ), как различные движения влияют на свойства результирующего звука ( акустическая фонетика ) или как люди преобразуют звуковые волны в языковую информацию ( слуховая фонетика ). Традиционно минимальной языковой единицей фонетики является фон — звук речи в языке, который отличается от фонологической единицы фонемы ; фонема — это абстрактная категоризация фонов, и она также определяется как наименьшая единица, которая различает значение между звуками в любом данном языке. [2]
Фонетика занимается двумя аспектами человеческой речи: производством (способами, которыми люди издают звуки) и восприятием (способом, которым речь понимается). Коммуникативная модальность языка описывает метод, с помощью которого язык производит и воспринимает языки. Языки с устно-слуховой модальностью, такие как английский, производят речь устно и воспринимают речь на слух (используя уши). Языки жестов, такие как австралийский язык жестов (Auslan) и американский язык жестов (ASL), имеют мануально-визуальную модальность, производя речь вручную (используя руки) и воспринимая речь визуально. ASL и некоторые другие языки жестов имеют, кроме того, мануально-ручной диалект для использования в тактильной жестовой речи слепоглухих ораторов , где знаки производятся руками и воспринимаются также руками.
Производство языка состоит из нескольких взаимозависимых процессов, которые преобразуют неязыковое сообщение в устный или жестовый языковой сигнал. После идентификации сообщения, которое должно быть лингвистически закодировано, говорящий должен выбрать отдельные слова — известные как лексические элементы — для представления этого сообщения в процессе, называемом лексическим выбором. Во время фонологического кодирования ментальное представление слов назначается их фонологическому содержанию в виде последовательности фонем, которые должны быть произведены. Фонемы указываются для артикуляционных особенностей, которые обозначают определенные цели, такие как закрытые губы или язык в определенном месте. Затем эти фонемы координируются в последовательность мышечных команд, которые могут быть отправлены мышцам, и когда эти команды выполняются должным образом, воспроизводятся предполагаемые звуки.
Эти движения нарушают и изменяют воздушный поток, что приводит к звуковой волне. Изменение выполняется артикуляторами, при этом разные места и способы артикуляции дают разные акустические результаты. Например, слова tack и sack оба начинаются с альвеолярных звуков в английском языке, но различаются по тому, насколько далеко язык находится от альвеолярного гребня. Это различие оказывает большое влияние на воздушный поток и, следовательно, на производимый звук. Аналогично, направление и источник воздушного потока могут влиять на звук. Наиболее распространенным механизмом воздушного потока является пульмонический (использующий легкие), но голосовая щель и язык также могут использоваться для создания воздушных потоков.
Восприятие языка — это процесс, посредством которого языковой сигнал декодируется и понимается слушателем. Для восприятия речи непрерывный акустический сигнал должен быть преобразован в дискретные языковые единицы, такие как фонемы , морфемы и слова . Чтобы правильно идентифицировать и классифицировать звуки, слушатели отдают приоритет определенным аспектам сигнала, которые могут надежно различать языковые категории. Хотя определенные сигналы имеют приоритет над другими, многие аспекты сигнала могут способствовать восприятию. Например, хотя устные языки отдают приоритет акустической информации, эффект Мак-Герка показывает, что визуальная информация используется для различения неоднозначной информации, когда акустические сигналы ненадежны.
Современная фонетика имеет три направления:
Первое известное исследование фонетики было предпринято санскритскими грамматистами еще в 6 веке до н. э. [3] Индуистский ученый Панини является одним из самых известных из этих ранних исследователей. Его четырехчастная грамматика, написанная около 350 г. до н. э. , оказала влияние на современную лингвистику и до сих пор представляет собой «самую полную генеративную грамматику любого языка, когда-либо написанного». [4] Его грамматика легла в основу современной лингвистики и описала несколько важных фонетических принципов, включая озвончение. Этот ранний отчет описывал резонанс как создаваемый либо тоном, когда голосовые связки закрыты, либо шумом, когда голосовые связки открыты. Фонетические принципы в грамматике считаются «примитивными», поскольку они являются основой для его теоретического анализа, а не объектами теоретического анализа сами по себе, и принципы могут быть выведены из его системы фонологии. [5]
Изучение фонетики санскрита называется Шикша , и в «Тайттирия-упанишаде» I тысячелетия до н. э. дается следующее определение:
Ом! Мы объясним Шикшу.
Звуки и ударение, Количество (гласных) и выражение (согласных),
Уравновешивание (саман) и соединение (звуков), Так много об изучении Шикши. || 1 |
Тайттирия Упанишада 1.2, Шикшавалли, перевод Пола Деуссена [6] .
Достижения в фонетике после Панини и его современников были ограничены до современной эпохи, за исключением некоторых ограниченных исследований греческих и римских грамматистов. В течение тысячелетий между индийскими грамматистами и современной фонетикой фокус сместился с различия между устным и письменным языком, которое было движущей силой описания Панини, и начал фокусироваться только на физических свойствах речи. Устойчивый интерес к фонетике возобновился около 1800 г. н. э., когда термин «фонетика» впервые был использован в нынешнем смысле в 1841 г. [7] [3] С новыми разработками в медицине и разработкой аудио- и визуальных записывающих устройств фонетические идеи смогли использовать и рассматривать новые и более подробные данные. Этот ранний период современной фонетики включал разработку влиятельного фонетического алфавита, основанного на артикуляционных позициях Александром Мелвиллом Беллом . Известная как видимая речь , она приобрела известность как инструмент в устном образовании глухих детей . [3]
До того, как оборудование для аудиозаписи стало широко распространенным, фонетисты в значительной степени полагались на традицию практической фонетики, чтобы гарантировать, что транскрипции и результаты могут быть согласованы между фонетистами. Это обучение включало как тренировку слуха — распознавание звуков речи, так и производственное обучение — способность воспроизводить звуки. Фонетисты должны были научиться распознавать на слух различные звуки Международного фонетического алфавита , а МФА до сих пор проверяет и сертифицирует говорящих на их способность точно воспроизводить фонетические модели английского языка (хотя они прекратили эту практику для других языков). [8] В качестве пересмотра своего метода видимой речи Мелвилл Белл разработал описание гласных по высоте и глубине, в результате чего получилось 9 основных гласных . [9] В рамках своего обучения практической фонетике фонетисты должны были научиться воспроизводить эти основные гласные, чтобы закрепить свое восприятие и транскрипцию этих фонов во время полевых работ. [8] Этот подход подвергся критике Питера Ладефогеда в 1960-х годах на основе экспериментальных данных, в которых он обнаружил, что основные гласные являются скорее слуховыми, чем артикуляционными целями, оспаривая утверждение, что они представляют собой артикуляционные якоря, по которым фонетики могут судить о других артикуляциях. [10]
Производство языка состоит из нескольких взаимозависимых процессов, которые преобразуют нелингвистическое сообщение в устный или знаковый языковой сигнал. Лингвисты спорят о том, происходит ли процесс производства языка в ряд этапов (последовательная обработка) или же процессы производства происходят параллельно. После определения сообщения, которое должно быть лингвистически закодировано, говорящий должен выбрать отдельные слова — известные как лексические элементы — для представления этого сообщения в процессе, называемом лексическим выбором. Слова выбираются на основе их значения, которое в лингвистике называется семантической информацией. Лексический выбор активирует лемму слова , которая содержит как семантическую, так и грамматическую информацию о слове. [11] [a]
После того, как высказывание было спланировано, [b] оно затем проходит через фонологическое кодирование. На этом этапе производства языка ментальному представлению слов назначается их фонологическое содержание как последовательность фонем, которые должны быть произведены. Фонемы определяются для артикуляционных особенностей, которые обозначают определенные цели, такие как закрытые губы или язык в определенном месте. Затем эти фонемы координируются в последовательность мышечных команд, которые могут быть отправлены мышцам, и когда эти команды выполняются должным образом, воспроизводятся предполагаемые звуки. [13] Таким образом, процесс производства от сообщения до звука можно суммировать в виде следующей последовательности: [c]
Звуки, которые производятся полным или частичным сужением голосового тракта, называются согласными . Согласные произносятся в голосовом тракте, обычно во рту, и место этого сужения влияет на результирующий звук. Из-за тесной связи между положением языка и результирующим звуком место артикуляции является важным понятием во многих разделах фонетики.
Звуки частично классифицируются по месту сужения, а также по части тела, которая его производит. Например, в английском языке слова fighting и thought являются минимальной парой, отличающейся только органом, создающим конструкцию, а не местом ее создания. «F» в слове fighting — это губно-зубная артикуляция, производимая нижней губой против зубов. «th» в слове thought — это лингво-зубная артикуляция, производимая языком против зубов. Сужения, производимые губами, называются губными, а те, которые производятся языком, называются лингвальными.
Сокращения, производимые языком, могут производиться в нескольких частях речевого тракта, которые можно в целом классифицировать на коронарные, дорсальные и радикальные места артикуляции. Коронарные артикуляции производятся передней частью языка, дорсальные артикуляции производятся задней частью языка, а радикальные артикуляции производятся в глотке . [14] Этих разделений недостаточно для различения и описания всех звуков речи. [14] Например, в английском языке звуки [s] и [ʃ] являются коронарными, но они производятся в разных местах рта. Чтобы учесть это, необходимы более подробные места артикуляции, основанные на области рта, в которой происходит сужение. [15]
Артикуляции с участием губ могут быть сделаны тремя различными способами: с обеими губами (билабиальные), с одной губой и зубами, так что они имеют нижнюю губу как активный артикулятор и верхние зубы как пассивный артикулятор [16] (лабиодентальные), и с языком и верхней губой (лингволабиальные). [17] В зависимости от используемого определения, некоторые или все из этих видов артикуляций могут быть отнесены к классу губных артикуляций . Билабиальные согласные производятся обеими губами. При создании этих звуков нижняя губа движется дальше всего, чтобы встретиться с верхней губой, которая также немного опускается, [18] хотя в некоторых случаях сила от воздуха, движущегося через отверстие (отверстие между губами), может заставить губы разъединиться быстрее, чем они могут сблизиться. [19] В отличие от большинства других артикуляций, оба артикулятора сделаны из мягкой ткани, и поэтому губно-губные смычки с большей вероятностью будут воспроизводиться с неполным закрытием, чем артикуляции с участием твердых поверхностей, таких как зубы или нёбо. Губно-губные смычки также необычны тем, что артикулятор в верхней части голосового тракта активно движется вниз, поскольку верхняя губа демонстрирует некоторое активное движение вниз. [20] Языково-губные согласные произносятся при приближении или соприкосновении лезвия языка с верхней губой. Как и в губно-губных артикуляциях, верхняя губа слегка движется в сторону более активного артикулятора. Артикуляции в этой группе не имеют собственных символов в Международном фонетическом алфавите, скорее, они образуются путем объединения апикального символа с диакритическим знаком, неявно помещая их в коронарную категорию. [21] [22] Они существуют в ряде языков коренных народов Вануату, таких как тангоа .
Лабиодентальные согласные образуются при поднятии нижней губы к верхним зубам. Лабиодентальные согласные чаще всего являются фрикативными, в то время как губно-дентальные носовые также типологически распространены. [23] Ведутся споры о том, встречаются ли настоящие губно-дентальные взрывные согласные в каком-либо естественном языке, [24] хотя сообщается, что в ряде языков есть губно-дентальные взрывные согласные, включая зулу , [25] тонга , [26] и шуби . [24]
Коронарные согласные образуются кончиком или лезвием языка и, из-за подвижности передней части языка, представляют собой разнообразие не только по месту, но и по положению языка. Коронарные места артикуляции представляют собой области рта, где язык контактирует или создает сужение, и включают зубные, альвеолярные и постальвеолярные местоположения. Положения языка с использованием кончика языка могут быть апикальными, если используется верхняя часть кончика языка, ламинальными , если производятся с помощью лезвия языка, или субапикальными, если кончик языка загнут назад и используется нижняя часть языка. Коронарные уникальны как группа, в которой засвидетельствован каждый способ артикуляции . [21] [27] Австралийские языки хорошо известны большим количеством коронарных контрастов, демонстрируемых внутри и между языками региона. [28] Зубные согласные образуются с помощью кончика или лезвия языка и верхних зубов. Они делятся на две группы в зависимости от части языка, используемой для их образования: апикальные зубные согласные образуются при касании кончиком языка зубов; межзубные согласные образуются при помощи лезвия языка, когда кончик языка высовывается перед зубами. Ни в одном языке не известно, чтобы они использовались в контрастном отношении, хотя они могут существовать аллофонически . Альвеолярные согласные образуются при помощи кончика или лезвия языка у альвеолярного гребня сразу за зубами и могут быть также апикальными или пластинчатыми. [29]
В кросслингвистическом плане зубные согласные и альвеолярные согласные часто противопоставляются, что приводит к ряду обобщений кросслингвистических моделей. Различные места артикуляции, как правило, также противопоставляются в той части языка, которая используется для их образования: большинство языков с зубными смычками имеют ламинальные зубные согласные, в то время как языки с апикальными смычками обычно имеют апикальные смычки. В языках редко встречаются два согласных в одном месте с контрастом по ламинальности, хотя Taa (ǃXóõ) является контрпримером к этой модели. [30] Если в языке есть только одна из зубных смычек или альвеолярных смычек, он обычно будет ламинальным, если это зубная смычка, и смычка обычно будет апикальной, если это альвеолярная смычка, хотя, например, темне и болгарский [31] не следуют этой модели. [32] Если в языке есть как апикальная, так и ламинальная смычка, то ламинальная смычка, скорее всего, будет аффрицирована, как в языке исоко , хотя в языке дахало наблюдается противоположная картина, когда альвеолярные смычки более аффрицированы. [33]
Ретрофлексные согласные имеют несколько различных определений в зависимости от того, выделяется ли положение языка или положение на нёбе. В целом, они представляют собой группу артикуляций, в которых кончик языка в некоторой степени загнут вверх. Таким образом, ретрофлексные артикуляции могут происходить в нескольких различных местах на нёбе, включая альвеолярные, постальвеолярные и нёбные области. Если нижняя часть кончика языка соприкасается с нёбом, это субапикальный звук, хотя апикальные постальвеолярные звуки также описываются как ретрофлексные. [34] Типичные примеры субапикальных ретрофлексных смычных обычно встречаются в дравидийских языках , а в некоторых языках коренных народов юго-запада США контрастное различие между зубными и альвеолярными смычными заключается в небольшой ретрофлексии альвеолярного смычного. [35] Акустически ретрофлексия имеет тенденцию влиять на более высокие форманты. [35]
Артикуляции, происходящие сразу за альвеолярным гребнем, известные как постальвеолярные согласные , упоминаются с использованием ряда различных терминов. Апикальные постальвеолярные согласные часто называются ретрофлексными, в то время как пластинчатые артикуляции иногда называются палато-альвеолярными; [36] в австралийской литературе эти пластинчатые смычки часто описываются как «палатальные», хотя они производятся дальше вперед, чем область неба, обычно описываемая как палатальная. [28] Из-за индивидуальных анатомических различий точная артикуляция палато-альвеолярных смычек (и коронарных в целом) может широко варьироваться в пределах речевого сообщества. [37]
Дорсальные согласные — это согласные, которые производятся с использованием тела языка, а не кончика или лезвия, и обычно производятся на нёбе, небной занавеске или язычке. Палатальные согласные производятся с использованием тела языка против твёрдого нёба на нёбе. Они часто противопоставляются велярным или увулярным согласным, хотя редко бывает, чтобы язык противопоставлял все три одновременно, с Jaqaru как возможным примером трёхстороннего контраста. [38] Велярные согласные производятся с использованием тела языка против небной занавески . Они невероятно распространены в кросс-лингвистическом плане; почти во всех языках есть велярная смычка. Поскольку и велярные, и гласные производятся с использованием тела языка, они сильно подвержены коартикуляции с гласными и могут производиться как далеко вперёд до твёрдого нёба, так и далеко назад до язычка. Эти вариации обычно делятся на передние, центральные и задние велярные параллельно с пространством гласных. [39] Их может быть трудно отличить фонетически от палатальных согласных, хотя они произносятся немного позади области прототипических палатальных согласных. [40] Увулярные согласные произносятся при контакте или приближении тела языка к язычку. Они редки, встречаются примерно в 19 процентах языков, а в больших регионах Америки и Африки нет языков с увулярными согласными. В языках с увулярными согласными чаще всего за смычными следуют продолженные (включая носовые). [41]
Согласные, образованные сужениями горла, называются глоточными, а образованные сужениями гортани — гортанными. Гортанные образуются с помощью голосовых связок, поскольку гортань расположена слишком далеко в горле, чтобы дотянуться до нее языком. Однако глоточные звуки расположены достаточно близко ко рту, чтобы части языка могли до них дотянуться.
Радикальные согласные используют либо корень языка, либо надгортанник во время образования и производятся очень далеко назад в голосовом тракте. [42] Фарингеальные согласные образуются путем втягивания корня языка достаточно далеко, чтобы он почти касался стенки глотки . Из-за трудностей производства таким образом можно образовать только щелевые и аппроксимативные согласные. [43] [44] Эпиглоттальные согласные образуются с помощью надгортанника и задней стенки глотки. Эпиглоттальные смычки были зарегистрированы в дахало . [44] Звонкие эпиглоттальные согласные считаются невозможными из-за полости между голосовой щелью и надгортанником, которая слишком мала для обеспечения озвончения. [45]
Гортанные согласные — это те, которые производятся с помощью голосовых складок в гортани. Поскольку голосовые связки являются источником фонации и находятся ниже оро-назального голосового тракта, ряд гортанных согласных невозможен, например, звонкий гортанный смычок. Возможны три гортанных согласных, глухой гортанный смычок и два гортанных фрикационных, и все они засвидетельствованы в естественных языках. [21] Гортанные смычки , производимые закрытием голосовых складок , особенно распространены в языках мира. [45] Хотя многие языки используют их для разграничения границ фраз, некоторые языки, такие как арабский и уатла масатекский, используют их как контрастные фонемы. Кроме того, гортанные смычки могут быть реализованы как ларингализация следующего гласного в этом языке. [46] Гортанные смычки, особенно между гласными, обычно не образуют полного закрытия. Настоящие гортанные смычки обычно возникают только тогда, когда они удвоены . [47]
Гортань, обычно известная как «голосовой ящик», представляет собой хрящевую структуру в трахее, отвечающую за фонацию . Голосовые связки (связки) удерживаются вместе, так что они вибрируют, или удерживаются врозь, так что они не вибрируют. Положение голосовых складок достигается движением черпаловидных хрящей . [48] Внутренние мышцы гортани отвечают за движение черпаловидных хрящей, а также за модуляцию натяжения голосовых складок. [49] Если голосовые связки недостаточно сближены или напряжены, они будут либо спорадически вибрировать, либо не будут вообще. Если они вибрируют спорадически, это приведет либо к скрипучему, либо к хриплому голосу, в зависимости от степени; если они вообще не вибрируют, результатом будет глухота .
Помимо правильного расположения голосовых складок, через них также должен проходить воздух, иначе они не будут вибрировать. Разница в давлении через голосовую щель, необходимая для вокализации, оценивается в 1–2 см H2O ( 98,0665–196,133 паскаля). [50] Перепад давления может упасть ниже уровней, необходимых для фонации, либо из-за увеличения давления над голосовой щелью (надгортанное давление), либо из-за уменьшения давления под голосовой щелью (подгортанное давление). Подгортанное давление поддерживается дыхательными мышцами . Надгортанное давление без ограничений или артикуляций примерно равно атмосферному давлению . Однако, поскольку артикуляции, особенно согласные, представляют собой ограничения воздушного потока, давление в полости за этими ограничениями может увеличиться, что приведет к более высокому надгортанному давлению. [51]
Согласно модели лексического доступа, используются два различных этапа познания; таким образом, эта концепция известна как двухэтапная теория лексического доступа. Первый этап, лексический выбор, предоставляет информацию о лексических элементах, необходимых для построения представления функционального уровня. Эти элементы извлекаются в соответствии с их конкретными семантическими и синтаксическими свойствами, но фонологические формы еще не доступны на этом этапе. Второй этап, извлечение словоформ, предоставляет информацию, необходимую для построения представления позиционного уровня. [52]
При воспроизведении речи артикуляторы перемещаются и контактируют с определенными точками в пространстве, что приводит к изменению акустического сигнала. Некоторые модели воспроизведения речи берут это за основу для моделирования артикуляции в системе координат, которая может быть внутренней по отношению к телу (внутренней) или внешней (внешней). Внутренние системы координат моделируют движение артикуляторов как положения и углы суставов в теле. Внутренние координатные модели челюсти часто используют две-три степени свободы, представляющие перемещение и вращение. Они сталкиваются с проблемами при моделировании языка, который, в отличие от суставов челюсти и рук, является мышечным гидростатом — как хобот слона — у которого нет суставов. [53] Из-за различных физиологических структур траектории движения челюсти представляют собой относительно прямые линии во время речи и жевания, в то время как движения языка следуют кривым. [54]
Движения по прямой использовались для обоснования артикуляций, как запланированных во внешнем, а не во внутреннем пространстве, хотя внешние системы координат также включают акустические координатные пространства, а не только физические координатные пространства. [53] Модели, которые предполагают, что движения планируются во внешнем пространстве, сталкиваются с обратной проблемой объяснения расположения мышц и суставов, которые производят наблюдаемый путь или акустический сигнал. Рука, например, имеет семь степеней свободы и 22 мышцы, поэтому несколько различных конфигураций суставов и мышц могут привести к одному и тому же конечному положению. Для моделей планирования во внешнем акустическом пространстве применяется та же проблема сопоставления «один ко многим», без уникального сопоставления физических или акустических целей с движениями мышц, необходимыми для их достижения. Однако опасения по поводу обратной проблемы могут быть преувеличены, поскольку речь — это высоко усвоенный навык, использующий неврологические структуры, которые развились для этой цели. [55]
Модель точки равновесия предлагает решение обратной задачи, утверждая, что цели движения должны быть представлены как положение пар мышц, действующих на сустав. [d] Важно, что мышцы моделируются как пружины, а цель является точкой равновесия для моделируемой системы пружина-масса. Используя пружины, модель точки равновесия может легко учитывать компенсацию и реакцию, когда движения прерываются. Они считаются координатной моделью, поскольку предполагают, что эти положения мышц представлены как точки в пространстве, точки равновесия, где сходится пружинное действие мышц. [56] [57]
Жестовые подходы к производству речи предполагают, что артикуляции представлены как шаблоны движения, а не как конкретные координаты для удара. Минимальной единицей является жест, который представляет собой группу «функционально эквивалентных шаблонов артикуляционного движения, которые активно контролируются в отношении заданной цели, связанной с речью (например, билабиальное закрытие)». [58] Эти группы представляют собой координационные структуры или «синергию», которые рассматривают движения не как отдельные мышечные движения, а как зависимые от задачи группировки мышц, которые работают вместе как единое целое. [59] [60] Это уменьшает степени свободы в планировании артикуляции, проблема, особенно в моделях внутренних координат, которые допускают любое движение, которое достигает цели речи, а не кодируют конкретные движения в абстрактном представлении. Коартикуляция хорошо описывается жестовыми моделями, поскольку артикуляции при более высоких скоростях речи можно объяснить как составные части независимых жестов при более низких скоростях речи. [61]
Звуки речи создаются путем изменения воздушного потока, что приводит к звуковой волне. Изменение выполняется артикуляторами, при этом различные места и способы артикуляции дают различные акустические результаты. Поскольку положение речевого тракта, а не только положение языка, может влиять на результирующий звук, способ артикуляции важен для описания звука речи. Слова tack и sack оба начинаются с альвеолярных звуков в английском языке, но различаются по тому, насколько далеко язык находится от альвеолярного гребня. Это различие оказывает большое влияние на воздушный поток и, следовательно, на производимый звук. Аналогично, направление и источник воздушного потока могут влиять на звук. Наиболее распространенным механизмом воздушного потока является пульмонический — с использованием легких, — но голосовая щель и язык также могут использоваться для создания воздушных потоков.
Главное различие между звуками речи заключается в том, являются ли они звонкими. Звуки звонкими, когда голосовые связки начинают вибрировать в процессе фонации. Многие звуки могут быть произведены с фонацией или без нее, хотя физические ограничения могут сделать фонацию трудной или невозможной для некоторых артикуляций. Когда артикуляции звонкие, основным источником шума является периодическая вибрация голосовых складок. Артикуляции, такие как глухие взрывные, не имеют акустического источника и заметны по своей тишине, но другие глухие звуки, такие как щелевые, создают свой собственный акустический источник независимо от фонации.
Фонация контролируется мышцами гортани, и языки используют больше акустических деталей, чем бинарное голосоведение. Во время фонации голосовые связки вибрируют с определенной скоростью. Эта вибрация приводит к периодической акустической волне, включающей основную частоту и ее гармоники. Основная частота акустической волны может контролироваться путем регулировки мышц гортани, и слушатели воспринимают эту основную частоту как высоту тона. Языки используют манипуляцию высотой тона для передачи лексической информации в тональных языках, и многие языки используют высоту тона для обозначения просодической или прагматической информации.
Для того чтобы голосовые связки вибрировали, они должны находиться в правильном положении, и через голосовую щель должен проходить воздух. [50] Типы фонации моделируются на основе континуума состояний голосовой щели от полностью открытой (глухой) до полностью закрытой (гортанная смычка). Оптимальное положение для вибрации и тип фонации, наиболее используемый в речи, модальный голос, находится посередине между этими двумя крайностями. Если голосовая щель немного шире, возникает хриплый голос, в то время как сближение голосовых складок приводит к скрипучему голосу. [62]
Нормальный фонационный паттерн, используемый в типичной речи, — это модальный голос, где голосовые связки удерживаются близко друг к другу с умеренным напряжением. Голосовые связки вибрируют как единое целое периодически и эффективно с полным закрытием гортани и без аспирации. [63] Если их развести дальше, они не вибрируют и, таким образом, производят глухие фоны. Если они удерживаются плотно вместе, они производят гортанную смычку. [62]
Если голосовые связки находятся немного дальше друг от друга, чем при модальном звоне, они производят такие типы фонации, как придыхательный голос (или бормотание) и шепчущий голос. Натяжение голосовых связок ( голосовых связок ) меньше, чем при модальном звоне, что позволяет воздуху течь более свободно. И придыхательный голос, и шепчущий голос существуют в континууме, который можно приблизительно охарактеризовать как идущий от более периодической формы волны придыхательного голоса к более шумной форме волны шепчущего голоса. Акустически оба имеют тенденцию приглушать первую форманту, при этом шепчущий голос демонстрирует более экстремальные отклонения. [64]
Более плотное сжатие голосовых связок приводит к скрипучему голосу. Натяжение голосовых связок меньше, чем в модальном голосе, но они крепко сжаты, в результате чего вибрируют только связки голосовых складок. [e] Импульсы крайне нерегулярны, с низкой высотой тона и амплитудой частоты. [65]
В некоторых языках не поддерживается различие по звонкости для некоторых согласных, [f], но все языки используют звонкость в той или иной степени. Например, ни один язык не известен, чтобы имел фонематическое различие по звонкости для гласных, поскольку все известные гласные канонически звонкие. [g] Другие положения голосовой щели, такие как хриплый и скрипучий голос, используются в ряде языков, таких как халапа масатекский , для противопоставления фонем, в то время как в других языках, таких как английский, они существуют аллофонически.
Существует несколько способов определить, является ли сегмент звонким или нет, самый простой из которых — ощутить гортань во время речи и отметить, когда ощущаются вибрации. Более точные измерения можно получить с помощью акустического анализа спектрограммы или спектрального среза. При спектрографическом анализе звонкие сегменты показывают голосовую полосу, область высокой акустической энергии, на низких частотах звонких сегментов. [66] При исследовании спектрального сращивания акустический спектр в заданный момент времени модель произнесенной гласной обращает фильтрацию рта, производя спектр голосовой щели. Затем вычислительная модель неотфильтрованного голосового сигнала подгоняется к обратно отфильтрованному акустическому сигналу для определения характеристик голосовой щели. [67] Визуальный анализ также доступен с использованием специализированного медицинского оборудования, такого как ультразвук и эндоскопия. [66] [h]
Гласные широко классифицируются по области рта, в которой они производятся, но поскольку они производятся без сужения в речевом тракте, их точное описание основано на измерении акустических коррелятов положения языка. Расположение языка во время производства гласных изменяет частоты, на которых резонирует полость, и именно эти резонансы — известные как форманты — измеряются и используются для характеристики гласных.
Высота гласного традиционно относится к самой высокой точке языка во время артикуляции. [68] Параметр высоты делится на четыре основных уровня: высокий (закрытый), близко-средний, открыто-средний и низкий (открытый). Гласные, высота которых находится в середине, называются средними. Слегка открытые закрытые гласные и слегка закрытые открытые гласные называются почти закрытыми и почти открытыми соответственно. Самые низкие гласные артикулируются не только с опущенным языком, но и с опусканием челюсти. [69]
Хотя МФА подразумевает, что существует семь уровней высоты гласных, маловероятно, что данный язык может минимально противопоставлять все семь уровней. Хомский и Халле предполагают, что существует только три уровня, [70] хотя для описания датского языка , по-видимому, необходимо четыре уровня высоты гласных , а некоторым языкам, возможно, даже нужно пять. [71]
Гласная задняя часть делится на три уровня: передняя, центральная и задняя. Языки обычно не противопоставляют минимально более двух уровней гласной задней части. Некоторые языки, которые, как утверждается, имеют трехстороннее различие задней части, включают нимборанский и норвежский . [72]
В большинстве языков губы во время произношения гласных можно классифицировать как округлые или неокругленные (растянутые), хотя были описаны и другие типы положения губ, такие как сжатие и выпячивание. Положение губ коррелирует с высотой и задним расположением: передние и низкие гласные, как правило, неокругленные, тогда как задние и высокие гласные, как правило, округлые. [73] Парные гласные в таблице МФА имеют округлую гласную слева и округленную справа. [74]
Наряду с универсальными гласными, описанными выше, некоторые языки имеют дополнительные особенности, такие как назальность , долгота и различные типы фонации, такие как глухой или скрипучий . Иногда для описания определенного гласного требуются более специализированные языковые жесты, такие как ротичность , продвинутый корень языка , фарингализация , резкость и фрикация. [75]
Знание места артикуляции недостаточно для полного описания согласного, не менее важен и способ, которым происходит сужение. Способы артикуляции описывают, как именно активный артикулятор изменяет, сужает или закрывает голосовой тракт. [76]
Смычки (также называемые взрывными) — это согласные, при которых поток воздуха полностью перекрыт. Во время стриктуры во рту создается давление, которое затем высвобождается в виде небольшого звукового всплеска, когда артикуляторы раздвигаются. Небная занавеска поднимается, так что воздух не может проходить через носовую полость. Если небная занавеска опускается и позволяет воздуху проходить через нос, получается носовая смычка. Однако фонетики почти всегда называют носовые смычки просто «носовыми». [76] Аффрикаты — это последовательность смычек, за которыми следует фрикативный звук в том же месте. [77]
Фрикативы — это согласные, при произнесении которых поток воздуха становится турбулентным из-за частичного, но не полного, перекрытия части речевого тракта. [76] Сибилянты — это особый тип фрикативов, при произнесении которых турбулентный поток воздуха направляется к зубам, [78] создавая пронзительный шипящий звук. [79]
Носовые (иногда их называют носовыми смычками) — это согласные, при произношении которых ротовая полость закрыта, а небная занавеска опущена, что позволяет воздуху проходить через нос. [80]
В аппроксиманте артикуляторы сближаются, но не до такой степени, чтобы допускался турбулентный поток воздуха. [79]
Латеральные согласные — это согласные, при произнесении которых поток воздуха затруднен вдоль центра голосового тракта, что позволяет потоку воздуха свободно проходить с одной или обеих сторон. [79] Латеральные согласные также определяются как согласные, при произнесении которых язык сокращается таким образом, что поток воздуха больше по бокам, чем по центру языка. [81] Первое определение не позволяет воздуху проходить через язык.
Трели — это согласные, при произнесении которых язык или губы приводятся в движение потоком воздуха. [82] Стриктура формируется таким образом, что поток воздуха вызывает повторяющуюся модель открытия и закрытия мягкого артикулятора(ов). [83] Апикальные трели обычно состоят из двух или трех периодов вибрации. [84]
Постукивания и хлопки — это одиночные, быстрые, обычно апикальные жесты, при которых язык бросается на нёбо, что сопоставимо с очень быстрой остановкой. [82] Иногда эти термины используются взаимозаменяемо, но некоторые фонетики проводят различие. [85] При постукивании язык касается нёба одним движением, тогда как при хлопке язык движется по касательной к нёбу, ударяя его попутно.
Во время гортанного механизма воздушного потока голосовая щель закрыта, захватывая часть воздуха. Это позволяет оставшемуся воздуху в голосовом тракте перемещаться отдельно. Движение вверх закрытой голосовой щели выдвинет этот воздух, что приведет к выбросу согласного . В качестве альтернативы голосовая щель может опуститься, всасывая больше воздуха в рот, что приведет к взрывному согласному . [86]
Щелчки — это остановки, при которых движение языка вызывает всасывание воздуха в рот, это называется велярным воздушным потоком . [87] Во время щелчка воздух становится разреженным между двумя артикуляционными закрытиями, производя громкий звук «щелчка», когда переднее закрытие отпускается. Освобождение переднего закрытия называется притоком щелчка. Освобождение заднего закрытия, которое может быть велярным или увулярным, называется истечением щелчка. Щелчки используются в нескольких африканских языковых семьях, таких как койсанские и банту . [ 88]
Легкие управляют почти всей речевой деятельностью, и их важность в фонетике обусловлена тем, что они создают давление для пульмонических звуков. Наиболее распространенными видами звука в разных языках являются пульмонический выход, когда воздух выдыхается из легких. [89] Возможно и обратное, хотя ни в одном языке не известно, чтобы пульмонические ингрессивные звуки были фонемами. [90] Многие языки, такие как шведский, используют их для паралингвистических артикуляций, таких как утверждения в ряде генетически и географически разнообразных языков. [91] Как грессивные, так и ингрессивные звуки основаны на удержании голосовых связок в определенном положении и использовании легких для втягивания воздуха через голосовые связки, так что они либо вибрируют (звонкие), либо не вибрируют (глухие). [89] Пульмонические артикуляции ограничены объемом воздуха, который может быть выдохнут за данный дыхательный цикл, известным как жизненная емкость легких .
Легкие используются для поддержания двух видов давления одновременно для создания и изменения фонации. Чтобы вообще создать фонацию, легкие должны поддерживать давление на 3–5 см H 2 O выше, чем давление над голосовой щелью. Однако небольшие и быстрые корректировки производятся в подсвязочном давлении для изменения речи для надсегментарных характеристик, таких как стресс. Для выполнения этих корректировок используется ряд грудных мышц. Поскольку легкие и грудная клетка растягиваются во время вдоха, упругие силы легких сами по себе могут создавать перепады давления, достаточные для фонации при объемах легких выше 50 процентов жизненной емкости. [92] Выше 50 процентов жизненной емкости дыхательные мышцы используются для «проверки» упругих сил грудной клетки для поддержания стабильного перепада давления. Ниже этого объема они используются для увеличения подсвязочного давления путем активного выдыхания воздуха.
Во время речи дыхательный цикл изменяется, чтобы соответствовать как языковым, так и биологическим потребностям. Выдох, обычно составляющий около 60 процентов дыхательного цикла в состоянии покоя, увеличивается до около 90 процентов дыхательного цикла. Поскольку метаболические потребности относительно стабильны, общий объем перемещаемого воздуха в большинстве случаев речи остается примерно таким же, как при тихом приливном дыхании. [93] Увеличение интенсивности речи на 18 дБ (громкий разговор) относительно мало влияет на объем перемещаемого воздуха. Поскольку их дыхательная система не так развита, как у взрослых, дети, как правило, используют большую долю своей жизненной емкости легких по сравнению со взрослыми, делая более глубокие вдохи. [94]
Модель источника-фильтра речи — это теория производства речи, которая объясняет связь между положением голосового тракта и акустическими последствиями. В рамках этой модели голосовой тракт можно смоделировать как источник шума, связанный с акустическим фильтром. [95] Источником шума во многих случаях является гортань во время процесса озвучивания, хотя другие источники шума можно смоделировать таким же образом. Форма надгортанного голосового тракта действует как фильтр, а различные конфигурации артикуляторов приводят к различным акустическим моделям. Эти изменения предсказуемы. Голосовой тракт можно смоделировать как последовательность трубок, закрытых с одного конца, с различными диаметрами, и с помощью уравнений для акустического резонанса можно вывести акустический эффект артикуляционной позы. [96] Процесс обратной фильтрации использует этот принцип для анализа исходного спектра, создаваемого голосовыми складками во время озвучивания. Используя обратный фильтр, можно отменить акустический эффект надгортанного голосового тракта, получив акустический спектр, создаваемый голосовыми связками. [97] Это позволяет проводить количественное исследование различных типов фонации.
Восприятие языка — это процесс, посредством которого языковой сигнал декодируется и понимается слушателем. [i] Для восприятия речи непрерывный акустический сигнал должен быть преобразован в дискретные языковые единицы, такие как фонемы , морфемы и слова . [98] Чтобы правильно идентифицировать и классифицировать звуки, слушатели отдают приоритет определенным аспектам сигнала, которые могут надежно различать языковые категории. [99] Хотя определенные сигналы имеют приоритет над другими, многие аспекты сигнала могут способствовать восприятию. Например, хотя устные языки отдают приоритет акустической информации, эффект Мак-Герка показывает, что визуальная информация используется для различения неоднозначной информации, когда акустические сигналы ненадежны. [100]
Хотя слушатели могут использовать разнообразную информацию для сегментации речевого сигнала, связь между акустическим сигналом и восприятием категории не является идеальным отображением. Из-за коартикуляции , шумной среды и индивидуальных различий существует высокая степень акустической изменчивости внутри категорий. [101] Известная как проблема перцептивной инвариантности , слушатели способны надежно воспринимать категории, несмотря на изменчивость в акустической реализации. [102] Чтобы сделать это, слушатели быстро приспосабливаются к новым говорящим и будут сдвигать свои границы между категориями, чтобы соответствовать акустическим различиям, которые делает их собеседник. [103]
Аудирование, процесс восприятия звуков, является первым этапом восприятия речи. Артикуляторы вызывают систематические изменения давления воздуха, которые перемещаются в виде звуковых волн к уху слушателя. Затем звуковые волны ударяются о барабанную перепонку слушателя , заставляя ее вибрировать. Вибрация барабанной перепонки передается слуховыми косточками — тремя маленькими косточками среднего уха — в улитку . [104] Улитка представляет собой спиральную, заполненную жидкостью трубку, разделенную по длине органом Корти , который содержит базилярную мембрану . Базилярная мембрана увеличивается в толщине по мере прохождения через улитку, заставляя различные частоты резонировать в разных местах. Эта тонотопическая конструкция позволяет уху анализировать звук способом, похожим на преобразование Фурье . [105]
Дифференциальная вибрация базилярной мембраны заставляет волосковые клетки внутри кортиева органа двигаться. Это вызывает деполяризацию волосковых клеток и в конечном итоге преобразование акустического сигнала в нейронный сигнал. [106] Хотя волосковые клетки сами по себе не производят потенциалы действия , они высвобождают нейротрансмиттер в синапсах с волокнами слухового нерва , что действительно производит потенциалы действия. Таким образом, паттерны колебаний на базилярной мембране преобразуются в пространственно-временные паттерны срабатывания, которые передают информацию о звуке в ствол мозга . [107]
Помимо согласных и гласных, фонетика также описывает свойства речи, которые не локализованы в сегментах , а в более крупных единицах речи, таких как слоги и фразы . Просодия включает в себя слуховые характеристики , такие как высота тона , скорость речи , длительность и громкость . Языки используют эти свойства в разной степени для реализации ударения , тональных акцентов и интонации — например, ударение в английском и испанском языках коррелирует с изменениями высоты тона и длительности, тогда как ударение в валлийском языке более последовательно коррелирует с высотой тона, чем с длительностью, а ударение в тайском языке коррелирует только с длительностью. [108]
Ранние теории восприятия речи, такие как моторная теория, пытались решить проблему перцептивной инвариантности, утверждая, что восприятие и производство речи тесно связаны. В своей самой сильной форме моторная теория утверждает, что восприятие речи требует от слушателя доступа к артикуляционному представлению звуков; [109] чтобы правильно классифицировать звук, слушатель реконструирует артикуляцию, которая воспроизводит этот звук, и, идентифицируя эти жесты, может восстановить предполагаемую лингвистическую категорию. [110] Хотя такие открытия, как эффект МакГурка и исследования случаев пациентов с неврологическими травмами, подтвердили моторную теорию, дальнейшие эксперименты не подтвердили сильную форму моторной теории, хотя есть некоторая поддержка более слабых форм моторной теории, которые утверждают недетерминированную связь между производством и восприятием. [110] [111] [112]
Последующие теории восприятия речи фокусируются на акустических сигналах для звуковых категорий и могут быть сгруппированы в две широкие категории: абстракционистские теории и эпизодические теории. [113] В абстракционистских теориях восприятие речи включает в себя идентификацию идеализированного лексического объекта на основе сигнала, сведенного к его необходимым компонентам, и нормализацию сигнала для противодействия изменчивости говорящего. Эпизодические теории, такие как модель образца, утверждают, что восприятие речи включает в себя доступ к подробным воспоминаниям (т. е. эпизодическим воспоминаниям ) ранее услышанных токенов. Проблема перцептивной инвариантности объясняется эпизодическими теориями как вопрос знакомства: нормализация является побочным продуктом воздействия более изменчивых распределений, а не дискретным процессом, как утверждают абстракционистские теории. [113]
Акустическая фонетика занимается акустическими свойствами звуков речи. Ощущение звука вызывается колебаниями давления, которые заставляют барабанную перепонку двигаться. Ухо преобразует это движение в нейронные сигналы, которые мозг регистрирует как звук. Акустические формы волн — это записи, которые измеряют эти колебания давления. [114]
Артикуляционная фонетика изучает способы образования звуков речи.
Слуховая фонетика изучает, как люди воспринимают звуки речи. Из-за анатомических особенностей слуховой системы, искажающих речевой сигнал, люди не воспринимают звуки речи как идеальные акустические записи. Например, слуховые впечатления от громкости , измеряемые в децибелах (дБ), не соответствуют линейно разнице в звуковом давлении. [115]
Несоответствие между акустическим анализом и тем, что слышит слушатель, особенно заметно в речевых звуках, которые имеют много высокочастотной энергии, таких как некоторые фрикативы. Чтобы примирить это несоответствие, были разработаны функциональные модели слуховой системы. [116]
Человеческие языки используют много разных звуков, и чтобы сравнивать их, лингвисты должны уметь описывать звуки способом, который не зависит от языка. Звуки речи можно описать несколькими способами. Чаще всего звуки речи обозначаются движениями рта, необходимыми для их воспроизведения. Согласные и гласные — это две грубые категории, которые фонетики определяют по движениям в звуке речи. Более мелкими дескрипторами являются такие параметры, как место артикуляции. Место артикуляции , способ артикуляции и озвончение используются для описания согласных и являются основными подразделениями таблицы согласных Международного фонетического алфавита . Гласные описываются по их высоте, глубине и округлению. Язык жестов описывается с использованием похожего, но отличного набора параметров для описания знаков: местоположение, движение, форма руки, ориентация ладони и немануальные особенности. В дополнение к артикуляционным описаниям звуки, используемые в устных языках, можно описать с помощью их акустики. Поскольку акустика является следствием артикуляции, оба метода описания достаточны для различения звуков, при этом выбор между системами зависит от исследуемой фонетической особенности.
Согласные — это звуки речи, которые артикулируются с полным или частичным закрытием голосового тракта . Они, как правило, производятся путем модификации воздушного потока, выдыхаемого из легких. Дыхательные органы, используемые для создания и изменения воздушного потока, делятся на три области: голосовой тракт (надгортанный), гортань и подсвязочная система. Воздушный поток может быть либо выходным (из голосового тракта), либо входным (в голосовой тракт). В пульмонических звуках воздушный поток производится легкими в подсвязочной системе и проходит через гортань и голосовой тракт. Глоттальные звуки используют воздушный поток, созданный движениями гортани без воздушного потока из легких. Щелкающие согласные артикулируются путем разрежения воздуха с помощью языка, за которым следует освобождение переднего закрытия языка.
Гласные — это слоговые звуки речи, которые произносятся без каких-либо препятствий в речевом тракте. [117] В отличие от согласных, которые обычно имеют определенные места артикуляции, гласные определяются по отношению к набору опорных гласных, называемых кардинальными гласными . Для определения гласных необходимы три свойства: высота языка, спинка языка и округлость губ. Гласные, которые артикулируются со стабильным качеством, называются монофтонгами ; сочетание двух отдельных гласных в одном слоге — дифтонг . [ 118] В МФА гласные представлены в форме трапеции, представляющей человеческий рот: вертикальная ось представляет рот от пола до крыши, а горизонтальная ось представляет передне-заднее измерение. [119]
Фонетическая транскрипция — это система транскрипции звуков , которые встречаются в языке, будь то устный или жестовый . Наиболее широко известная система фонетической транскрипции, Международный фонетический алфавит (МФА), предоставляет стандартизированный набор символов для устных звуков. [120] [121] Стандартизированная природа МФА позволяет его пользователям точно и последовательно транскрибировать звуки разных языков, диалектов и идиолектов . [120] [122] [123] МФА является полезным инструментом не только для изучения фонетики, но и для преподавания языка, профессионального актерского мастерства и патологии речи . [122]
Хотя ни один язык жестов не имеет стандартизированной системы письма, лингвисты разработали свои собственные системы обозначений, которые описывают форму руки, местоположение и движение. Система обозначений Hamburg Notation System (HamNoSys) похожа на IPA тем, что допускает различные уровни детализации. Некоторые системы обозначений, такие как KOMVA и Stokoe, были разработаны для использования в словарях; они также используют буквы алфавита местного языка для форм рук, тогда как HamNoSys представляет форму руки напрямую. SignWriting стремится стать простой в изучении системой письма для языков жестов, хотя она пока официально не принята ни одним сообществом глухих. [124]
В отличие от разговорных языков, слова в жестовых языках воспринимаются глазами, а не ушами. Знаки артикулируются руками, верхней частью тела и головой. Основными артикуляторами являются руки и предплечья. Относительные части руки описываются терминами проксимальный и дистальный . Проксимальный относится к части, расположенной ближе к туловищу, тогда как дистальная часть находится дальше от него. Например, движение запястья является дистальным по сравнению с движением локтя. Из-за того, что требуется меньше энергии, дистальные движения, как правило, производить легче. Различные факторы, такие как гибкость мышц и то, что они считаются табу , ограничивают то, что можно считать знаком. [125] Носители языка жестов не смотрят на руки своего собеседника. Вместо этого их взгляд фиксируется на лице. Поскольку периферическое зрение не так сфокусировано, как центр поля зрения, знаки, артикулируемые около лица, позволяют воспринимать более тонкие различия в движении пальцев и их расположении. [126]
В отличие от разговорных языков, языки жестов имеют два идентичных артикулятора: руки. Жесты могут использовать любую руку, которую они предпочитают, без нарушения коммуникации. Из-за универсальных неврологических ограничений двуручные жесты, как правило, имеют одинаковый тип артикуляции в обеих руках; это называется Условием симметрии. [125] Второе универсальное ограничение — Условие доминирования, которое гласит, что когда задействованы две формы рук, одна рука будет оставаться неподвижной и иметь более ограниченный набор форм рук по сравнению с доминирующей, движущейся рукой. [127] Кроме того, часто одна рука в двуручном жесте опускается во время неформальных разговоров, процесс называется слабым падением. [125] Так же, как слова в разговорных языках, коартикуляция может приводить к тому, что знаки влияют на форму друг друга. Примерами являются формы рук соседних знаков, которые становятся более похожими друг на друга ( ассимиляция ) или слабое падение (пример удаления ). [128]