Компьютерная лингвистика

Компьютерная лингвистика — это междисциплинарная область, занимающаяся компьютерным моделированием естественного языка , а также изучением соответствующих компьютерных подходов к лингвистическим вопросам. В целом, компьютерная лингвистика опирается на лингвистику , информатику , искусственный интеллект , математику , логику , философию , когнитивную науку , когнитивную психологию , психолингвистику , антропологию и нейронауку , среди прочих.

Происхождение

Область пересекалась с искусственным интеллектом с тех пор, как в 1950-х годах в Соединенных Штатах предпринимались попытки использовать компьютеры для автоматического перевода текстов с иностранных языков, в частности, русских научных журналов, на английский язык. ^[1] Поскольку подходы, основанные на правилах, позволяли выполнять арифметические (систематические) вычисления гораздо быстрее и точнее, чем люди, ожидалось, что лексику , морфологию , синтаксис и семантику можно будет изучить также с помощью явных правил. После провала подходов, основанных на правилах , Дэвид Хейс ^[2] придумал этот термин, чтобы отличить область от ИИ, и стал соучредителем Ассоциации компьютерной лингвистики (ACL) и Международного комитета по компьютерной лингвистике (ICCL) в 1970-х и 1980-х годах. То, что начиналось как попытка перевода между языками, превратилось в гораздо более широкую область обработки естественного языка . ^[3]^[4]

Аннотированные корпуса

Для того, чтобы иметь возможность тщательно изучать английский язык , был крайне необходим аннотированный текстовый корпус. Penn Treebank ^[5] был одним из наиболее используемых корпусов. Он состоял из компьютерных руководств IBM, транскрибированных телефонных разговоров и других текстов, в совокупности содержащих более 4,5 миллионов слов американского английского, аннотированных с использованием как разметки частей речи , так и синтаксических скобок. ^[6]

Были проанализированы корпусы предложений на японском языке, и была обнаружена закономерность логарифмической нормальности в зависимости от длины предложения. ^[7]

Моделирование усвоения языка

Тот факт, что в процессе освоения языка дети в основном сталкиваются только с положительными доказательствами ^[8] , что означает, что предоставляются только доказательства того, что является правильной формой, и никаких доказательств того, что является неправильным ^[9], был ограничением для моделей в то время, поскольку доступные сейчас модели глубокого обучения не были доступны в конце 1980-х годов. ^[10]

Было показано, что языки можно изучать с помощью комбинации простых данных, вводимых постепенно, по мере того, как у ребенка развивается лучшая память и более продолжительная концентрация внимания ^[11] , что объясняет длительный период усвоения языка у младенцев и детей. ^[11]

Роботы использовались для проверки лингвистических теорий. ^[12] Модели, способные учиться так же, как дети, были созданы на основе модели возможностей , в которой были созданы сопоставления между действиями, восприятиями и эффектами и связаны с произнесенными словами. Что особенно важно, эти роботы могли приобретать функционирующие сопоставления слов со значениями без необходимости в грамматической структуре.

Используя уравнение Прайса и динамику урн Полиа , исследователи создали систему, которая не только предсказывает будущую лингвистическую эволюцию, но и дает представление об эволюционной истории современных языков. ^[13]

Теории Хомского

Теории Хомского оказали влияние на компьютерную лингвистику, особенно на понимание того, как младенцы изучают сложные грамматические структуры, такие как те, что описаны в нормальной форме Хомского . ^[14] Были предприняты попытки определить, как младенец изучают «ненормальную грамматику», как теоретизирует нормальная форма Хомского. ^[9] Исследования в этой области объединяют структурные подходы с вычислительными моделями для анализа больших лингвистических корпусов, таких как Penn Treebank , помогая раскрыть закономерности в усвоении языка. ^[15]

Смотрите также

Ссылки

↑ Джон Хатчинс: Ретроспектива и перспектива в компьютерном переводе. Архивировано 14 апреля 2008 г. в Wayback Machine Proceedings VII MT Summit, 1999 г., стр. 30–44.
^ "Умершие члены". Члены ICCL . Архивировано из оригинала 17 мая 2017 года . Получено 15 ноября 2017 года .
^ Обработка естественного языка Лиз Лидди, Эдуард Хови, Джимми Лин, Джон Прагер, Драгомир Радев, Люси Вандервенде, Ральф Вайшедель
^ Арнольд Б. Барах: Переводческая машина 1975: и грядущие перемены.
^ Маркус, М. и Марцинкевич, М. (1993). «Создание большого аннотированного корпуса английского языка: The Penn Treebank» (PDF) . Компьютерная лингвистика . 19 (2): 313–330. Архивировано (PDF) из оригинала 2022-10-09.
^ Тейлор, Энн (2003). "1". Treebanks . Spring Netherlands. стр. 5–22.
^ Фурухаши, С. и Хаякава, И. (2012). «Логнормальность распределения длин предложений в японском языке». Журнал Физического общества Японии . 81 (3): 034004. Bibcode : 2012JPSJ...81c4004F. doi : 10.1143/JPSJ.81.034004.
^ Боуэрман, М. (1988). Проблема «отсутствия отрицательных доказательств»: как дети избегают построения слишком общей грамматики. Объяснение языковых универсалий.
^ ab Braine, MDS (1971). О двух типах моделей интернализации грамматик. В DI Slobin (ред.), Онтогенез грамматики: теоретическая перспектива. Нью-Йорк: Academic Press.
^ Powers, DMW & Turk, CCR (1989). Машинное обучение естественному языку . Springer-Verlag. ISBN 978-0-387-19557-5 .
^ ab Elman, Jeffrey L. (1993). «Обучение и развитие в нейронных сетях: важность начала с малого». Cognition . 48 (1): 71–99. CiteSeerX 10.1.1.135.4937 . doi :10.1016/0010-0277(93)90058-4. PMID 8403835. S2CID 2105042.
^ Сальви, Г.; Монтесано, Л.; Бернардино, А.; Сантос-Виктор, Дж. (2012). «Языковая самонастройка: изучение значений слов из ассоциации восприятие-действие». Труды IEEE по системам, человеку и кибернетике — Часть B: Кибернетика . 42 (3): 660–71. arXiv : 1711.09714 . doi : 10.1109/TSMCB.2011.2172420. PMID 22106152. S2CID 977486.
^ Gong, T.; Shuai, L.; Tamariz, M. & Jäger, G. (2012). E. Scalas (ред.). «Изучение языковых изменений с использованием уравнения цены и динамики Pólya-urn». PLOS ONE . 7 (3): e33171. Bibcode : 2012PLoSO...733171G. doi : 10.1371/journal.pone.0033171 . PMC 3299756. PMID 22427981 .
^ Йогита, Бансал (2016). "Insight to Computational Linguistics" (PDF) . International Journal 4.10. стр. 94 . Получено 22 сентября 2024 г. .
^ Йогита, Бансал (2016). "Insight to Computational Linguistics" (PDF) . International Journal 4.10. стр. 94 . Получено 22 сентября 2024 г. .

Дальнейшее чтение

Бейтс, М. (1995). «Модели понимания естественного языка». Труды Национальной академии наук Соединенных Штатов Америки . 92 (22): 9977–9982. Bibcode : 1995PNAS...92.9977B. doi : 10.1073 /pnas.92.22.9977 . PMC 40721. PMID 7479812.
Стивен Берд, Эван Кляйн и Эдвард Лопер (2009). Обработка естественного языка с помощью Python . O'Reilly Media. ISBN 978-0-596-51649-9 .
Дэниел Джурафски и Джеймс Х. Мартин (2008). Обработка речи и языка , 2-е издание. Pearson Prentice Hall. ISBN 978-0-13-187321-6 .
Мохамед Закария КУРДИ (2016). Обработка естественного языка и компьютерная лингвистика: речь, морфология и синтаксис , том 1. ISTE-Wiley. ISBN 978-1848218482 .
Мохамед Закария КУРДИ (2017). Обработка естественного языка и компьютерная лингвистика: семантика, дискурс и приложения , том 2. ISTE-Wiley. ISBN 978-1848219212 .

Внешние ссылки

В Викиверситете есть обучающие ресурсы по компьютерной лингвистике

На Викискладе есть медиафайлы по теме «Компьютерная лингвистика» .

Ассоциация компьютерной лингвистики (ACL)
- Антология научных работ ACL
- ACL Wiki для компьютерной лингвистики
Ежегодные конференции CICLing по компьютерной лингвистике Архивировано 06.02.2019 в Wayback Machine
Семинар по компьютерной лингвистике – приложения
Бесплатная вводная книга по компьютерной лингвистике в Интернете на Wayback Machine (архив 25 января 2008 г.)
Мир языковых технологий
Ресурсы для обработки текста, речи и языка
Исследовательская группа по компьютерной лингвистике Архивировано 01.08.2013 на Wayback Machine