stringtranslate.com

Компьютерная лингвистика

Компьютерная лингвистика — это междисциплинарная область, занимающаяся компьютерным моделированием естественного языка , а также изучением соответствующих компьютерных подходов к лингвистическим вопросам. В целом, компьютерная лингвистика опирается на лингвистику , информатику , искусственный интеллект , математику , логику , философию , когнитивную науку , когнитивную психологию , психолингвистику , антропологию и нейронауку , среди прочих.

Происхождение

Область пересекалась с искусственным интеллектом с тех пор, как в 1950-х годах в Соединенных Штатах предпринимались попытки использовать компьютеры для автоматического перевода текстов с иностранных языков, в частности, русских научных журналов, на английский язык. [1] Поскольку подходы, основанные на правилах, позволяли выполнять арифметические (систематические) вычисления гораздо быстрее и точнее, чем люди, ожидалось, что лексику , морфологию , синтаксис и семантику можно будет изучить также с помощью явных правил. После провала подходов, основанных на правилах , Дэвид Хейс [2] придумал этот термин, чтобы отличить область от ИИ, и стал соучредителем Ассоциации компьютерной лингвистики (ACL) и Международного комитета по компьютерной лингвистике (ICCL) в 1970-х и 1980-х годах. То, что начиналось как попытка перевода между языками, превратилось в гораздо более широкую область обработки естественного языка . [3] [4]

Аннотированные корпуса

Для того, чтобы иметь возможность тщательно изучать английский язык , был крайне необходим аннотированный текстовый корпус. Penn Treebank [5] был одним из наиболее используемых корпусов. Он состоял из компьютерных руководств IBM, транскрибированных телефонных разговоров и других текстов, в совокупности содержащих более 4,5 миллионов слов американского английского, аннотированных с использованием как разметки частей речи , так и синтаксических скобок. [6]

Были проанализированы корпусы предложений на японском языке, и была обнаружена закономерность логарифмической нормальности в зависимости от длины предложения. [7]

Моделирование усвоения языка

Тот факт, что в процессе освоения языка дети в основном сталкиваются только с положительными доказательствами [8] , что означает, что предоставляются только доказательства того, что является правильной формой, и никаких доказательств того, что является неправильным [9], был ограничением для моделей в то время, поскольку доступные сейчас модели глубокого обучения не были доступны в конце 1980-х годов. [10]

Было показано, что языки можно изучать с помощью комбинации простых данных, вводимых постепенно, по мере того, как у ребенка развивается лучшая память и более продолжительная концентрация внимания [11] , что объясняет длительный период усвоения языка у младенцев и детей. [11]

Роботы использовались для проверки лингвистических теорий. [12] Модели, способные учиться так же, как дети, были созданы на основе модели возможностей , в которой были созданы сопоставления между действиями, восприятиями и эффектами и связаны с произнесенными словами. Что особенно важно, эти роботы могли приобретать функционирующие сопоставления слов со значениями без необходимости в грамматической структуре.

Используя уравнение Прайса и динамику урн Полиа , исследователи создали систему, которая не только предсказывает будущую лингвистическую эволюцию, но и дает представление об эволюционной истории современных языков. [13]

Теории Хомского

Теории Хомского оказали влияние на компьютерную лингвистику, особенно на понимание того, как младенцы изучают сложные грамматические структуры, такие как те, что описаны в нормальной форме Хомского . [14] Были предприняты попытки определить, как младенец изучают «ненормальную грамматику», как теоретизирует нормальная форма Хомского. [9] Исследования в этой области объединяют структурные подходы с вычислительными моделями для анализа больших лингвистических корпусов, таких как Penn Treebank , помогая раскрыть закономерности в усвоении языка. [15]

Смотрите также

Ссылки

  1. Джон Хатчинс: Ретроспектива и перспектива в компьютерном переводе. Архивировано 14 апреля 2008 г. в Wayback Machine Proceedings VII MT Summit, 1999 г., стр. 30–44.
  2. ^ "Умершие члены". Члены ICCL . Архивировано из оригинала 17 мая 2017 года . Получено 15 ноября 2017 года .
  3. ^ Обработка естественного языка Лиз Лидди, Эдуард Хови, Джимми Лин, Джон Прагер, Драгомир Радев, Люси Вандервенде, Ральф Вайшедель
  4. ^ Арнольд Б. Барах: Переводческая машина 1975: и грядущие перемены.
  5. ^ Маркус, М. и Марцинкевич, М. (1993). «Создание большого аннотированного корпуса английского языка: The Penn Treebank» (PDF) . Компьютерная лингвистика . 19 (2): 313–330. Архивировано (PDF) из оригинала 2022-10-09.
  6. ^ Тейлор, Энн (2003). "1". Treebanks . Spring Netherlands. стр. 5–22.
  7. ^ Фурухаши, С. и Хаякава, И. (2012). «Логнормальность распределения длин предложений в японском языке». Журнал Физического общества Японии . 81 (3): 034004. Bibcode : 2012JPSJ...81c4004F. doi : 10.1143/JPSJ.81.034004.
  8. ^ Боуэрман, М. (1988). Проблема «отсутствия отрицательных доказательств»: как дети избегают построения слишком общей грамматики. Объяснение языковых универсалий.
  9. ^ ab Braine, MDS (1971). О двух типах моделей интернализации грамматик. В DI Slobin (ред.), Онтогенез грамматики: теоретическая перспектива. Нью-Йорк: Academic Press.
  10. ^ Powers, DMW & Turk, CCR (1989). Машинное обучение естественному языку . Springer-Verlag. ISBN 978-0-387-19557-5
  11. ^ ab Elman, Jeffrey L. (1993). «Обучение и развитие в нейронных сетях: важность начала с малого». Cognition . 48 (1): 71–99. CiteSeerX 10.1.1.135.4937 . doi :10.1016/0010-0277(93)90058-4. PMID  8403835. S2CID  2105042. 
  12. ^ Сальви, Г.; Монтесано, Л.; Бернардино, А.; Сантос-Виктор, Дж. (2012). «Языковая самонастройка: изучение значений слов из ассоциации восприятие-действие». Труды IEEE по системам, человеку и кибернетике — Часть B: Кибернетика . 42 (3): 660–71. arXiv : 1711.09714 . doi : 10.1109/TSMCB.2011.2172420. PMID  22106152. S2CID  977486.
  13. ^ Gong, T.; Shuai, L.; Tamariz, M. & Jäger, G. (2012). E. Scalas (ред.). «Изучение языковых изменений с использованием уравнения цены и динамики Pólya-urn». PLOS ONE . 7 (3): e33171. Bibcode : 2012PLoSO...733171G. doi : 10.1371/journal.pone.0033171 . PMC 3299756. PMID  22427981 . 
  14. ^ Йогита, Бансал (2016). "Insight to Computational Linguistics" (PDF) . International Journal 4.10. стр. 94 . Получено 22 сентября 2024 г. .
  15. ^ Йогита, Бансал (2016). "Insight to Computational Linguistics" (PDF) . International Journal 4.10. стр. 94 . Получено 22 сентября 2024 г. .

Дальнейшее чтение

Внешние ссылки