Компьютерная лингвистика

Компьютерная лингвистика — это междисциплинарная область, занимающаяся компьютерным моделированием естественного языка , а также изучением соответствующих вычислительных подходов к лингвистическим вопросам. В целом, компьютерная лингвистика опирается на лингвистику , информатику , искусственный интеллект , математику , логику , философию , когнитивную науку , когнитивную психологию , психолингвистику , антропологию и нейробиологию , среди других.

Происхождение

Эта область пересекается с искусственным интеллектом со времен попыток США в 1950-х годах использовать компьютеры для автоматического перевода текстов с иностранных языков, особенно русских научных журналов, на английский язык. ^[1] Поскольку подходы, основанные на правилах, могли выполнять арифметические (систематические) вычисления намного быстрее и точнее, чем люди, ожидалось, что лексика , морфология , синтаксис и семантика также могут быть изучены с использованием явных правил. После провала подходов, основанных на правилах , Дэвид Хейс ^[2] придумал этот термин, чтобы отличить эту область от искусственного интеллекта, и стал соучредителем Ассоциации компьютерной лингвистики (ACL) и Международного комитета по компьютерной лингвистике (ICCL). 1970-е и 1980-е годы. То, что началось как попытка перевода между языками, превратилось в гораздо более широкую область обработки естественного языка . ^[3]^[4]

Аннотированные корпуса

Для того чтобы иметь возможность придирчиво изучать английский язык , очень нужен был аннотированный текстовый корпус. Penn Treebank ^[5] был одним из наиболее часто используемых корпораций. Он состоял из компьютерных руководств IBM, расшифровок телефонных разговоров и других текстов, в общей сложности содержащих более 4,5 миллионов слов американского английского языка, аннотированных с использованием как тегов частей речи , так и синтаксических скобок. ^[6]

Были проанализированы корпуса японских предложений и обнаружена закономерность логарифмической нормальности в зависимости от длины предложения. ^[7]

Моделирование овладения языком

Тот факт, что во время овладения языком дети в основном подвергаются только положительным доказательствам, ^[8] означает, что предоставляются единственные доказательства того, какая форма является правильной, и нет доказательств того, что неправильная, ^[9] был ограничением для модели в то время, потому что доступные сейчас модели глубокого обучения не были доступны в конце 1980-х годов. ^[10]

Было показано, что языки можно изучать с помощью комбинации простых вводных данных, предъявляемых постепенно по мере того, как у ребенка развивается лучшая память и продолжительность концентрации внимания, ^[11] , что объясняет длительный период овладения языком у младенцев и детей. ^[11]

Роботы использовались для проверки лингвистических теорий. ^[12] Модели, позволяющие учиться так же, как дети, были созданы на основе модели доступности , в которой были созданы сопоставления между действиями, восприятиями и эффектами, которые были связаны с произнесенными словами. Важно отметить, что эти роботы смогли получить функционирующие сопоставления слов и значений без необходимости использования грамматической структуры.

Используя уравнение Прайса и динамику урн Полиа , исследователи создали систему, которая не только предсказывает будущую лингвистическую эволюцию, но и дает представление об истории эволюции современных языков. ^[13]

Теории Хомского

Были предприняты попытки определить, как младенец усваивает «ненормальную грамматику», как это теоретизирует нормальная форма Хомского, без изучения «чрезмерно обобщенной версии» и «застревания». ^[9]

Смотрите также

дальнейшее чтение

Бейтс, М. (1995). «Модели понимания естественного языка». Труды Национальной академии наук Соединенных Штатов Америки . 92 (22): 9977–9982. Бибкод : 1995PNAS...92.9977B. дои : 10.1073/pnas.92.22.9977 . ПМК 40721 . ПМИД 7479812.
Стивен Берд, Юэн Кляйн и Эдвард Лопер (2009). Обработка естественного языка с помощью Python . О'Рейли Медиа. ISBN 978-0-596-51649-9 .
Дэниел Джурафски и Джеймс Х. Мартин (2008). Обработка речи и языка , 2-е издание. Пирсон Прентис Холл. ISBN 978-0-13-187321-6 .
Мохамед Закария КУРДИ (2016). Обработка естественного языка и компьютерная лингвистика: речь, морфология и синтаксис , Том 1. ISTE-Wiley. ISBN 978-1848218482 .
Мохамед Закария КУРДИ (2017). Обработка естественного языка и компьютерная лингвистика: семантика, дискурс и приложения , Том 2. ISTE-Wiley. ISBN 978-1848219212 .

Внешние ссылки

В Викиверситете есть учебные ресурсы по компьютерной лингвистике.

Викискладе есть медиафайлы, связанные с компьютерной лингвистикой .

Ассоциация компьютерной лингвистики (ACL)
- ACL Антология исследовательских работ
- ACL Wiki для компьютерной лингвистики
Ежегодные конференции CICLing по компьютерной лингвистике. Архивировано 6 февраля 2019 г. в Wayback Machine.
Компьютерная лингвистика – Семинар по приложениям
Бесплатная онлайн-вводная книга по компьютерной лингвистике на Wayback Machine (архивировано 25 января 2008 г.)
Мир языковых технологий
Ресурсы для обработки текста, речи и языка
Исследовательская группа по компьютерной лингвистике. Архивировано 1 августа 2013 г. в Wayback Machine.