Использование вычислительных инструментов для изучения лингвистики
Компьютерная лингвистика — это междисциплинарная область, занимающаяся компьютерным моделированием естественного языка , а также изучением соответствующих компьютерных подходов к лингвистическим вопросам. В целом, компьютерная лингвистика опирается на лингвистику , информатику , искусственный интеллект , математику , логику , философию , когнитивную науку , когнитивную психологию , психолингвистику , антропологию и нейронауку , среди прочих.
Происхождение
Область пересекалась с искусственным интеллектом с тех пор, как в 1950-х годах в Соединенных Штатах предпринимались попытки использовать компьютеры для автоматического перевода текстов с иностранных языков, в частности, русских научных журналов, на английский язык. [1] Поскольку подходы, основанные на правилах, позволяли выполнять арифметические (систематические) вычисления гораздо быстрее и точнее, чем люди, ожидалось, что лексику , морфологию , синтаксис и семантику можно будет изучить также с помощью явных правил. После провала подходов, основанных на правилах , Дэвид Хейс [2] придумал этот термин, чтобы отличить область от ИИ, и стал соучредителем Ассоциации компьютерной лингвистики (ACL) и Международного комитета по компьютерной лингвистике (ICCL) в 1970-х и 1980-х годах. То, что начиналось как попытка перевода между языками, превратилось в гораздо более широкую область обработки естественного языка . [3] [4]
Аннотированные корпуса
Для того, чтобы иметь возможность тщательно изучать английский язык , был крайне необходим аннотированный текстовый корпус. Penn Treebank [5] был одним из наиболее используемых корпусов. Он состоял из компьютерных руководств IBM, транскрибированных телефонных разговоров и других текстов, в совокупности содержащих более 4,5 миллионов слов американского английского, аннотированных с использованием как частеречной разметки, так и синтаксических скобок. [6]
Были проанализированы корпуса предложений на японском языке, и была обнаружена закономерность логарифмической нормальности в зависимости от длины предложения. [7]
Моделирование усвоения языка
Тот факт, что в процессе освоения языка дети в основном сталкиваются только с положительными доказательствами [8] , что означает, что предоставляются только доказательства того, что является правильной формой, и никаких доказательств того, что является неправильным [9], был ограничением для моделей в то время, поскольку доступные сейчас модели глубокого обучения не были доступны в конце 1980-х годов. [10]
Было показано, что языки можно изучать с помощью комбинации простых данных, вводимых постепенно, по мере того, как у ребенка развивается лучшая память и более продолжительная концентрация внимания [11] , что объясняет длительный период усвоения языка у младенцев и детей. [11]
Роботы использовались для проверки лингвистических теорий. [12] Модели, способные учиться так же, как дети, были созданы на основе модели возможностей , в которой были созданы сопоставления между действиями, восприятиями и эффектами и связаны с произнесенными словами. Что особенно важно, эти роботы могли приобретать функционирующие сопоставления слов со значениями без необходимости в грамматической структуре.
Используя уравнение Прайса и динамику урн Полиа , исследователи создали систему, которая не только предсказывает будущую лингвистическую эволюцию, но и дает представление об эволюционной истории современных языков. [13]
Теории Хомского
Теории Хомского оказали влияние на компьютерную лингвистику, особенно на понимание того, как младенцы изучают сложные грамматические структуры, такие как те, что описаны в нормальной форме Хомского . [14] Были предприняты попытки определить, как младенец изучают «ненормальную грамматику», как теоретизирует нормальная форма Хомского. [9] Исследования в этой области объединяют структурные подходы с вычислительными моделями для анализа больших лингвистических корпусов, таких как Penn Treebank , помогая раскрыть закономерности в усвоении языка. [15]
Смотрите также
Ссылки
- ↑ Джон Хатчинс: Ретроспектива и перспектива в компьютерном переводе. Архивировано 14 апреля 2008 г. в Wayback Machine Proceedings VII MT Summit, 1999 г., стр. 30–44.
- ^ "Умершие члены". Члены ICCL . Архивировано из оригинала 17 мая 2017 года . Получено 15 ноября 2017 года .
- ^ Обработка естественного языка Лиз Лидди, Эдуард Хови, Джимми Лин, Джон Прагер, Драгомир Радев, Люси Вандервенде, Ральф Вайшедель
- ^ Арнольд Б. Барах: Переводческая машина 1975: и грядущие перемены.
- ^ Маркус, М. и Марцинкевич, М. (1993). «Создание большого аннотированного корпуса английского языка: The Penn Treebank» (PDF) . Компьютерная лингвистика . 19 (2): 313–330. Архивировано (PDF) из оригинала 2022-10-09.
- ^ Тейлор, Энн (2003). "1". Treebanks . Spring Netherlands. стр. 5–22.
- ^ Фурухаши, С. и Хаякава, И. (2012). «Логнормальность распределения длин предложений в японском языке». Журнал Физического общества Японии . 81 (3): 034004. Bibcode : 2012JPSJ...81c4004F. doi : 10.1143/JPSJ.81.034004.
- ^ Боуэрман, М. (1988). Проблема «отсутствия отрицательных доказательств»: как дети избегают построения слишком общей грамматики. Объяснение языковых универсалий.
- ^ ab Braine, MDS (1971). О двух типах моделей интернализации грамматик. В DI Slobin (ред.), Онтогенез грамматики: теоретическая перспектива. Нью-Йорк: Academic Press.
- ^ Powers, DMW & Turk, CCR (1989). Машинное обучение естественному языку . Springer-Verlag. ISBN 978-0-387-19557-5 .
- ^ ab Elman, Jeffrey L. (1993). «Обучение и развитие в нейронных сетях: важность начала с малого». Cognition . 48 (1): 71–99. CiteSeerX 10.1.1.135.4937 . doi :10.1016/0010-0277(93)90058-4. PMID 8403835. S2CID 2105042.
- ^ Сальви, Г.; Монтесано, Л.; Бернардино, А.; Сантос-Виктор, Дж. (2012). «Языковая самонастройка: изучение значений слов из ассоциации восприятие-действие». Труды IEEE по системам, человеку и кибернетике — Часть B: Кибернетика . 42 (3): 660–71. arXiv : 1711.09714 . doi : 10.1109/TSMCB.2011.2172420. PMID 22106152. S2CID 977486.
- ^ Gong, T.; Shuai, L.; Tamariz, M. & Jäger, G. (2012). E. Scalas (ред.). «Изучение языковых изменений с использованием уравнения цены и динамики Pólya-urn». PLOS ONE . 7 (3): e33171. Bibcode : 2012PLoSO...733171G. doi : 10.1371/journal.pone.0033171 . PMC 3299756. PMID 22427981 .
- ^ Йогита, Бансал (2016). "Insight to Computational Linguistics" (PDF) . International Journal 4.10. стр. 94 . Получено 22 сентября 2024 г. .
- ^ Йогита, Бансал (2016). "Insight to Computational Linguistics" (PDF) . International Journal 4.10. стр. 94 . Получено 22 сентября 2024 г. .
Дальнейшее чтение
- Бейтс, М. (1995). «Модели понимания естественного языка». Труды Национальной академии наук Соединенных Штатов Америки . 92 (22): 9977–9982. Bibcode : 1995PNAS...92.9977B. doi : 10.1073 /pnas.92.22.9977 . PMC 40721. PMID 7479812.
- Стивен Берд, Эван Кляйн и Эдвард Лопер (2009). Обработка естественного языка с помощью Python . O'Reilly Media. ISBN 978-0-596-51649-9 .
- Дэниел Джурафски и Джеймс Х. Мартин (2008). Обработка речи и языка , 2-е издание. Pearson Prentice Hall. ISBN 978-0-13-187321-6 .
- Мохамед Закария КУРДИ (2016). Обработка естественного языка и компьютерная лингвистика: речь, морфология и синтаксис , том 1. ISTE-Wiley. ISBN 978-1848218482 .
- Мохамед Закария КУРДИ (2017). Обработка естественного языка и компьютерная лингвистика: семантика, дискурс и приложения , том 2. ISTE-Wiley. ISBN 978-1848219212 .
Внешние ссылки
В Викиверситете есть обучающие ресурсы по компьютерной лингвистике
На Викискладе есть медиафайлы по теме «Компьютерная лингвистика» .
- Ассоциация компьютерной лингвистики (ACL)
- Антология научных работ ACL
- ACL Wiki для компьютерной лингвистики
- Ежегодные конференции CICLing по компьютерной лингвистике Архивировано 06.02.2019 в Wayback Machine
- Семинар по компьютерной лингвистике – приложения
- Бесплатная вводная книга по компьютерной лингвистике в Интернете на Wayback Machine (архив 25 января 2008 г.)
- Мир языковых технологий
- Ресурсы для обработки текста, речи и языка
- Исследовательская группа по компьютерной лингвистике Архивировано 01.08.2013 на Wayback Machine