Кеннет Нобл Стивенс (24 марта 1924 [1] – 19 августа 2013) был профессором электротехники и компьютерных наук имени Кларенса Дж. Лебеля, а также профессором медицинских наук и технологий в исследовательской лаборатории электроники Массачусетского технологического института . Стивенс был руководителем группы речевой коммуникации [2] в исследовательской лаборатории электроники (RLE) Массачусетского технологического института и был одним из ведущих мировых ученых в области акустической фонетики .
В 1999 году президент Билл Клинтон наградил его Национальной медалью науки , а в 2004 году — премией IEEE имени Джеймса Л. Фланагана за достижения в области обработки речи и звука .
Он умер в 2013 году от осложнений болезни Альцгеймера . [3]
Кен Стивенс родился в Торонто 23 марта 1924 года. [4] Его старший брат Пит родился в Англии; Кен родился четыре года спустя, вскоре после того, как семья эмигрировала в Канаду. Его детским желанием было стать врачом, потому что он восхищался дядей, который был врачом. [5] Он учился в средней школе при факультете образования Торонтского университета .
Стивенс учился в колледже на инженерном факультете Университета Торонто на полную стипендию. Он жил дома во время учебы в бакалавриате. Хотя сам Стивенс не мог сражаться во Второй мировой войне из-за своего нарушения зрения, его брат отсутствовал всю войну; его родители каждый вечер включали BBC, чтобы быть в курсе последних новостей. [5] Стивенс специализировался на инженерной физике в университете, [6] охватывая темы от проектирования моторизованных машин до базовой физики, которую преподавали на физическом факультете. Летом он работал в оборонной промышленности, в том числе одно лето в компании, которая разрабатывала радары. Он получил степени SB и SM в 1945 году. [7]
Стивенс был учителем со времен бакалавриата, когда он читал лекции по разделам домоводства, которые включали некоторые аспекты физики. [5] Получив степень магистра, он остался в Университете Торонто в качестве преподавателя, преподавая курсы молодым людям, вернувшимся с войны, включая своего старшего брата. [5] Он был членом Фонда Онтарио с 1945 по 1946 год, затем работал преподавателем в Университете Торонто до 1948 года. [7]
Во время обучения в магистратуре Стивенс заинтересовался теорией управления и посещал курсы на кафедре прикладной математики, где один из его профессоров порекомендовал ему подать заявку на поступление в докторантуру Массачусетского технологического института .
Вскоре после того, как Стивенс был принят в MIT, новый профессор по имени Лео Беранек заметил, что Стивенс выбрал акустику. Беранек связался со Стивенсом в Торонто, чтобы спросить, не станет ли он ассистентом преподавателя нового курса акустики Беранека, и Стивенс согласился. Вскоре после этого Беранек снова связался со Стивенсом, чтобы предложить ему исследовательскую должность в новом речевом проекте, на который Стивенс также согласился. Радиационная лаборатория в MIT (здание 20) была преобразована после войны в Исследовательскую лабораторию электроники (RLE); среди других лабораторий RLE размещала новую Акустическую лабораторию Беранека.
В ноябре 1949 года [8] офис рядом с офисом Кена был предоставлен приглашенному докторанту из Швеции по имени Гуннар Фант , с которым у него завязались дружба и сотрудничество, которые продлились более полувека. Стивенс сосредоточился на изучении гласных во время своего докторского исследования; в 1950 году он опубликовал короткую статью, в которой утверждал, что автокорреляция может быть использована для различения гласных, [9] в то время как его докторская диссертация 1952 года сообщала о перцептивных результатах для гласных, синтезированных с использованием набора электронных резонаторов. [10] Фант убедил Стивенса, что модель трансмиссионной линии речевого тракта более гибкая, чем модель резонатора, и они оба опубликовали эту работу вместе в 1953 году. [11]
Кен приписывает Фант связь между лингвистическим факультетом и исследовательской лабораторией электроники в Массачусетском технологическом институте. [5] Роман Якобсон , фонолог из Гарварда , имел офис в Массачусетском технологическом институте к 1957 году, в то время как Моррис Халле присоединился к лингвистическому факультету Массачусетского технологического института и перешел в RLE в 1951 году. Сотрудничество Стивенса с Халле началось с акустики, [12] но затем переросло в фокусировку на том, как акустика и артикуляция организуют звуковые системы языка. [13] [14] [15]
Стивенс защитил докторскую диссертацию в 1952 году; в его докторский комитет вошли его научный руководитель Лео Беранек , а также Дж. К. Р. Ликлайдер и Уолтер А. Розенблит . [5] Получив докторскую степень, Стивенс пошел работать в компанию Bolt, Beranek and Newman (теперь BBN Technologies ) на Гарвардской площади. [5] В начале 1950-х годов Беранек решил уйти с факультета MIT, чтобы работать полный рабочий день в BBN. Он знал, что Стивенс любит преподавать, поэтому он убедил Стивенса подать заявку на должность на факультете MIT. Стивенс так и сделал и присоединился к факультету в 1954 году.
Стивенс наиболее известен своим вкладом в области фонологии , восприятия речи и производства речи . Самая известная книга Стивенса, Акустическая фонетика, [16] организована в соответствии с отличительными чертами фонологической системы Стивенса.
Стивенс, пожалуй, наиболее известен своим предложением теории, которая отвечает на вопрос: почему звуки языков мира (их фонемы или сегменты) так похожи друг на друга? При первом изучении иностранного языка человек поражается замечательным различиям, которые могут существовать между звуковой системой одного языка и любой другой. Стивенс перевернул восприятие студента с ног на голову: вместо того, чтобы спрашивать, почему языки отличаются, он спросил, если звуковая система каждого языка совершенно произвольна, почему языки так похожи? Его ответ — квантовая теория речи . [17] Квантовая теория поддерживается теорией изменения языка, разработанной в сотрудничестве с Сэмюэлем Джеем Кейзером , которая постулирует существование избыточных или улучшающих функций. [18]
Методология Стивенса в исследовании звуков речи организована в три этапа. Первый этап заключается в использовании физики (в основном моделей трубок) для моделирования формы артикуляторов (например, формы передней и задней полости, закругление или неокругление губ и т. д.). На основе моделей артикуляционных трубок можно рассчитать резонансные частоты, которые являются формантными частотами. После расчета резонансных частот речевые данные собираются и анализируются для сравнения с теоретическими расчетами. Этот второй этап в основном экспериментальный, где представляющие интерес токены обычно записываются либо изолированно, либо встраиваются в контролируемую несущую фразу, обычно произносимую как несколькими женщинами, так и мужчинами — носителями языка. Ключ к сбору данных — контроль как можно большего количества факторов, чтобы акустические свидетельства, представляющие интерес, можно было исследовать с минимальным количеством артефактов. Последний этап исследования — сравнение результатов данных с теоретическими предсказаниями и учет возникающих различий. Различия иногда можно объяснить тем, что модели трубок обычно упрощаются, чтобы не учитывать потери из-за мягкости голосовых стенок (хотя резисторы могут быть добавлены к теоретической модели). Подсвязочная система также может влиять на продуктивную систему голосового тракта, когда голосовое отверстие большое (см. исследование подсвязочного резонанса при воздействии речи). Теоретические модельные прогнозы могут дать общие прогнозы о том, что можно ожидать найти в реальной речи, а доказательства из реальной речи также могут помочь уточнить исходную модель и дать лучшее представление о производстве речевых звуков.
Квантовая теория стремится элегантно описать (используя физику) и организовать все акустические характеристики всех возможных звуков в матрицу. (См. главу пять в Акустической фонетике) Конечным ограничением для всех звуков речи является сама физическая артикуляционная система, тем самым поддерживая утверждение о том, что может быть только конечный набор звуков среди языков. Причина, по которой набор звуков речи конечен, заключается в том, что, хотя движение артикуляторов является непрерывным, только определенные конфигурации имеют тенденцию быть артикуляционно и/или акустически стабильными, что приводит к фиксированным частотам для формант, которые образуют звуки, которые являются относительно универсальными для всех языков (т. е. гласные и согласные). Таким образом, каждый акустический звук можно описать несколькими определяющими характеристиками (обычно бинарными). Например, округление губ (либо включено, либо выключено) является характеристикой. Высота языка (либо высокая, либо низкая) является другой характеристикой. В дополнение к этим определяющим характеристикам, которые служат существенным описанием акустических звуков, существуют также улучшающие характеристики, которые помогают сделать звуки более узнаваемыми. Для каждой из этих характеристик можно применить методологию Стивенса, чтобы сначала использовать модель трубки для моделирования артикуляторов и прогнозирования резонансных частот, затем собрать данные для изучения акустических свойств этой характеристики и, наконец, согласовать их с теоретической моделью и суммировать акустические свойства этой характеристики.
Чтобы получить введение в мир речевой науки, можно сначала прочитать книгу "The Speech Chain" Денеса П. и Пинсона Э., где дается широкий обзор производства и передачи речи. Знакомятся со спектрограммами и формантными частотами, которые являются основным акустическим описанием звуковых сегментов.
Когда голосовые связки вибрируют, потоки воздуха проталкиваются (фильтруются) голосовым трактом, производя звук. Этот источник звука моделируется как источник тока в схеме, моделирующей производство звука. Изменения в голосовом тракте могут привести к изменению производимого звука. Частота вибрации женских голосовых связок, как правило, выше, чем у мужчин, что придает женским голосам более высокую высоту тона, чем мужским.
Исследования (Хэнсон, Х. М., 1997) показали, что существует разница между тем, как вибрируют голосовые связки у женщин и мужчин; у женщин голосовая щель шире, что придает женским голосам более хриплый оттенок, чем у мужских.
Подгортанная система относится к системе, которая находится ниже голосовой щели в организме человека. Она включает трахею , бронхи и легкие . По сути, это фиксированная система, поэтому она не меняется для каждого отдельного говорящего. Результаты исследований показали, что во время открытой фазы голосового цикла (когда голосовая щель открыта) связь вводится из-за подгортанной системы, проявляясь акустически как пары полюс/ноль в частотной области. Эти пары полюс/ноль, введенные связью, предположительно служат запрещенными или нестабильными областями в спектрах, выступая в качестве естественных границ для таких гласных , как +передний или +задний.
Для взрослых мужчин резонансные частоты их подсвязочной системы были измерены (с использованием инвазивных методов) и составили 600, 1550 и 2200 Гц. (Акустическая фонетика, стр. 197, Ишизака и др., Крейн и Бовес). Подсвязочные резонансные частоты женщин немного выше из-за их меньших размеров. Один из неинвазивных способов измерения этих пиков — использование акселерометра, размещенного над грудинной вырезкой (Хенке), для регистрации ускорения кожи во время фонации. Вибрация будет захватывать резонансные частоты ниже голосовой щели (подсвязочной системы).
Речевой тракт относится к проходу, который находится над голосовой щелью, вплоть до открытия губ. Для моделирования голосового тракта обычно используется модель из двух трубок, одна из которых охватывает размер (площадь поперечного сечения и длину) задней полости, а другая моделирует переднюю полость. Резонансные частоты, рассчитанные с помощью модели трубки, являются формантными частотами. Для образования гласной шва /ə/, голосовой тракт относительно открыт на всем протяжении от голосовой щели до рта, поэтому модель трубки можно рассматривать как относительно однородную открытую трубку, делающую резонансные частоты (или форманты) равномерно разнесенными. Излучение во рту привело бы к тому, что эти резонансные частоты были бы примерно на пять процентов ниже. (Акустика Фонетика, стр. 139) Женские голосовые тракты (в среднем 14,1 см) в среднем короче мужских голосовых трактов (в среднем 17,7 см), что делает их имеющими более высокие формантные частоты, чем у мужчин.
Поскольку стенки речевого тракта мягкие, в нем теряется энергия, что увеличивает полосу пропускания формант.
Когда небно-глоточный порт открывается во время произнесения определенных звуков, таких как /н/ и /м/, происходит сцепление за счет пупочной полости, что придает выходному звуку носовой оттенок.
Квантовая теория предполагает, что фонологический инвентарь языка определяется в первую очередь акустическими характеристиками каждого сегмента, с границами, указанными акустико-артикуляционным отображением. Подразумевается, что фонологические сегменты должны иметь некоторый тип акустической инвариантности. [19] Блюмштейн и Стивенс [20] продемонстрировали то, что, по-видимому, является инвариантной связью между акустическим спектром и воспринимаемым звуком: добавляя энергию к спектру всплеска «pa» на определенной частоте, можно превратить его в «ta» или «ka» соответственно, в зависимости от частоты. Наличие дополнительной энергии вызывает восприятие язычного согласного; ее отсутствие вызывает восприятие губного.
Недавняя работа Стивенса преобразовала теорию акустической инвариантности в поверхностную иерархическую перцептивную модель — модель акустических ориентиров и отличительных особенностей .
Во время творческого отпуска в KTH в Швеции в 1962 году Стивенс добровольно принял участие в экспериментах по кинорентгенографии , которые проводил Свен Оман. Кинорентгенографические фильмы Стивенса являются одними из самых широко распространенных; копии существуют на лазерных дисках, а некоторые доступны онлайн. [21]
Вернувшись в Массачусетский технологический институт, Стивенс согласился руководить исследованиями студента-стоматолога Джозефа С. Перкелла. Знания Перкелла в области анатомии полости рта позволили ему перенести рентгеновские снимки Стивенса на бумагу и опубликовать результаты. [22]
Другие вклады в изучение речевого производства включают модель, с помощью которой можно предсказать спектральную форму турбулентного речевого возбуждения (в зависимости от размеров турбулентной струи), и работу, связанную с конфигурациями голосовых складок, которые приводят к различным режимам фонации. [23]
Фактически, спектральные свойства (форманты, полоса пропускания формант, другие характеристики гортани) всех возможных звуковых фонем во всех языках теоретически могут быть смоделированы и предсказаны с использованием физических моделей резонаторов. Базовые трубчатые резонаторы могут быть использованы для получения общего прогноза формант для гласных. Дополнительное уточнение базовой модели используется путем добавления резисторов и/или конденсаторов в модель для представления потерь энергии из-за стенок голосового тракта. Акустическая связь из-за подсвязочной системы также может быть смоделирована путем добавления дополнительных трубок в модель исходного голосового тракта, вводя полюс/ноль в спектры, которые представляют эффекты подсвязочной связи. (Расположение этих пар полюс/ноль является резонансными частотами подсвязочной системы). Характеристики гортани, такие как высота голоса (F0), открытый коэффициент (H1-H2) и степень придыхания (H1-A3), также могут быть смоделированы и измерены по спектрам. (Hanson & Stevens).
Стивенс присоединился к Массачусетскому технологическому институту в качестве доцента в 1954 году. [24] Он стал доцентом в 1957 году, полным профессором в 1963 году и был назначен профессором под председательством Кларенса Дж. Лебеля в 1977 году. [7] Один из его давних коллег, Деннис Клатт (который написал DECtalk, работая в лаборатории Стивенса), сказал, что «Как лидер, Кен известен своей преданностью студентам и своей чудесной способностью руководить загруженной лабораторией, при этом создавая видимость управления по принципу благожелательной анархии». [4]
Первая докторская диссертация, подписанная Стивенсом в Массачусетском технологическом институте, была диссертацией его однокурсника Джеймса Л. Фланагана , написанной в 1955 году. Фланаган поступил в аспирантуру Массачусетского технологического института в том же году, что и Стивенс, но без предварительной степени магистра; он получил степень магистра в 1950 году под руководством Беранека, а затем закончил докторскую диссертацию под руководством Стивенса в 1955 году. [25]
В 2001 году Стивенс подсчитал, что под его руководством защитили около сорока докторских диссертаций. [5]
По случаю получения им Золотой медали Акустического общества Америки в 1995 году коллеги написали о группе Стивенса Speech Group, что «за время своего существования, почти четыре десятилетия», она «была выдающейся в поддержке, которую она оказывала женщинам-исследователям, многие из которых впоследствии заняли высшие эшелоны исследовательских лабораторий по всему миру». [4] Коллеги называли лабораторию Стивенса «национальным достоянием» [6].
Стивенс принимал активное участие в работе Акустического общества Америки со времени его аспирантуры. Он был членом исполнительного совета с 1963 по 1966 год, [26] вице-президентом с 1971 по 1972 год и президентом общества с 1976 по 1977 год. [27] Он является членом ASA. В 1983 году он получил его Серебряную медаль в области речевой коммуникации , а в 1995 году он получил от общества Золотую медаль . [4]
Стивенс также активно работал в IEEE , где он имел звание IEEE Life Fellow. В 2004 году Кен Стивенс и Гуннар Фант стали первыми победителями премии IEEE James L. Flanagan Speech and Audio Processing Award . [28]
Стивенс был членом Американской академии искусств и наук , членом Национальной инженерной академии , [29] членом Национальной академии наук , [30] и в 1999 году был награжден Национальной медалью США за науку . [6]