Использование вычислительных инструментов для изучения лингвистики
Компьютерная лингвистика — это междисциплинарная область, занимающаяся компьютерным моделированием естественного языка , а также изучением соответствующих вычислительных подходов к лингвистическим вопросам. В целом, компьютерная лингвистика опирается на лингвистику , информатику , искусственный интеллект , математику , логику , философию , когнитивную науку , когнитивную психологию , психолингвистику , антропологию и нейробиологию , среди других.
Происхождение
Эта область пересекается с искусственным интеллектом со времен попыток США в 1950-х годах использовать компьютеры для автоматического перевода текстов с иностранных языков, особенно русских научных журналов, на английский язык. [1] Поскольку подходы, основанные на правилах, могли выполнять арифметические (систематические) вычисления намного быстрее и точнее, чем люди, ожидалось, что лексика , морфология , синтаксис и семантика также могут быть изучены с использованием явных правил. После провала подходов, основанных на правилах , Дэвид Хейс [2] придумал этот термин, чтобы отличить эту область от искусственного интеллекта, и стал соучредителем Ассоциации компьютерной лингвистики (ACL) и Международного комитета по компьютерной лингвистике (ICCL). 1970-е и 1980-е годы. То, что началось как попытка перевода между языками, превратилось в гораздо более широкую область обработки естественного языка . [3] [4]
Аннотированные корпуса
Для того чтобы иметь возможность придирчиво изучать английский язык , очень нужен был аннотированный текстовый корпус. Penn Treebank [5] был одним из наиболее часто используемых корпораций. Он состоял из компьютерных руководств IBM, расшифровок телефонных разговоров и других текстов, в общей сложности содержащих более 4,5 миллионов слов американского английского языка, аннотированных с использованием как тегов частей речи , так и синтаксических скобок. [6]
Были проанализированы корпуса японских предложений и обнаружена закономерность логарифмической нормальности в зависимости от длины предложения. [7]
Моделирование овладения языком
Тот факт, что во время овладения языком дети в основном подвергаются только положительным доказательствам, [8] означает, что предоставляются единственные доказательства того, какая форма является правильной, и нет доказательств того, что неправильная, [9] был ограничением для модели в то время, потому что доступные сейчас модели глубокого обучения не были доступны в конце 1980-х годов. [10]
Было показано, что языки можно изучать с помощью комбинации простых вводных данных, предъявляемых постепенно по мере того, как у ребенка развивается лучшая память и продолжительность концентрации внимания, [11] , что объясняет длительный период овладения языком у младенцев и детей. [11]
Роботы использовались для проверки лингвистических теорий. [12] Модели, позволяющие учиться так же, как дети, были созданы на основе модели доступности , в которой были созданы сопоставления между действиями, восприятиями и эффектами, которые были связаны с произнесенными словами. Важно отметить, что эти роботы смогли получить функционирующие сопоставления слов и значений без необходимости использования грамматической структуры.
Используя уравнение Прайса и динамику урн Полиа , исследователи создали систему, которая не только предсказывает будущую лингвистическую эволюцию, но и дает представление об истории эволюции современных языков. [13]
Теории Хомского
Были предприняты попытки определить, как младенец усваивает «ненормальную грамматику», как это теоретизирует нормальная форма Хомского, без изучения «чрезмерно обобщенной версии» и «застревания». [9]
Смотрите также
Рекомендации
- ^ Джон Хатчинс: Ретроспектива и перспективы компьютерного перевода. Архивировано 14 апреля 2008 г. в журнале Wayback Machine Proceedings of MT Summit VII, 1999, стр. 30–44.
- ^ «Умершие участники». Члены МККЛ . Архивировано из оригинала 17 мая 2017 года . Проверено 15 ноября 2017 г.
- ^ Обработка естественного языка Лиз Лидди, Эдуард Хови, Джимми Лин, Джон Прагер, Драгомир Радев, Люси Вандервенде, Ральф Вайшедель
- ^ Арнольд Б. Барах: Машина-переводчик 1975: и грядущие изменения.
- ^ Маркус, М. и Марцинкевич, М. (1993). «Создание большого аннотированного корпуса английского языка: The Penn Treebank» (PDF) . Компьютерная лингвистика . 19 (2): 313–330. Архивировано (PDF) из оригинала 9 октября 2022 г.
- ^ Тейлор, Энн (2003). «1». Древесные берега . Весенние Нидерланды. стр. 5–22.
- ^ Фурухаши, С. и Хаякава, Ю. (2012). «Логнормальность распределения длины японских предложений». Журнал Физического общества Японии . 81 (3): 034004. Бибкод : 2012JPSJ...81c4004F. дои : 10.1143/JPSJ.81.034004.
- ^ Бауэрман, М. (1988). Проблема «отсутствия отрицательных доказательств»: как детям избежать построения слишком общей грамматики. Объяснение языковых универсалий.
- ^ аб Брейн, MDS (1971). О двух типах моделей интериоризации грамматик. В книге Д. И. Слобин (ред.) Онтогенез грамматики: теоретический взгляд. Нью-Йорк: Академическая пресса.
- ^ Пауэрс, DMW и Терк, CCR (1989). Машинное обучение естественного языка . Спрингер-Верлаг. ISBN 978-0-387-19557-5 .
- ^ аб Элман, Джеффри Л. (1993). «Обучение и развитие нейронных сетей: важность начинать с малого». Познание . 48 (1): 71–99. CiteSeerX 10.1.1.135.4937 . дои : 10.1016/0010-0277(93)90058-4. PMID 8403835. S2CID 2105042.
- ^ Сальви, Г.; Монтесано, Л.; Бернардино, А.; Сантос-Виктор, Дж. (2012). «Языковая загрузка: изучение значений слов на основе ассоциации восприятие-действие». Транзакции IEEE о системах, человеке и кибернетике. Часть B: Кибернетика . 42 (3): 660–71. arXiv : 1711.09714 . дои : 10.1109/TSMCB.2011.2172420. PMID 22106152. S2CID 977486.
- ^ Гонг, Т.; Шуай, Л.; Тамарис М. и Ягер Г. (2012). Э. Скалас (ред.). «Изучение языковых изменений с использованием уравнения цен и динамики полиурн». ПЛОС ОДИН . 7 (3): e33171. Бибкод : 2012PLoSO...733171G. дои : 10.1371/journal.pone.0033171 . ПМК 3299756 . ПМИД 22427981.
дальнейшее чтение
- Бейтс, М. (1995). «Модели понимания естественного языка». Труды Национальной академии наук Соединенных Штатов Америки . 92 (22): 9977–9982. Бибкод : 1995PNAS...92.9977B. дои : 10.1073/pnas.92.22.9977 . ПМК 40721 . ПМИД 7479812.
- Стивен Берд, Юэн Кляйн и Эдвард Лопер (2009). Обработка естественного языка с помощью Python . О'Рейли Медиа. ISBN 978-0-596-51649-9 .
- Дэниел Джурафски и Джеймс Х. Мартин (2008). Обработка речи и языка , 2-е издание. Пирсон Прентис Холл. ISBN 978-0-13-187321-6 .
- Мохамед Закария КУРДИ (2016). Обработка естественного языка и компьютерная лингвистика: речь, морфология и синтаксис , Том 1. ISTE-Wiley. ISBN 978-1848218482 .
- Мохамед Закария КУРДИ (2017). Обработка естественного языка и компьютерная лингвистика: семантика, дискурс и приложения , Том 2. ISTE-Wiley. ISBN 978-1848219212 .
Внешние ссылки
В Викиверситете есть учебные ресурсы по компьютерной лингвистике.
Викискладе есть медиафайлы, связанные с компьютерной лингвистикой .
- Ассоциация компьютерной лингвистики (ACL)
- ACL Антология исследовательских работ
- ACL Wiki для компьютерной лингвистики
- Ежегодные конференции CICLing по компьютерной лингвистике. Архивировано 6 февраля 2019 г. в Wayback Machine.
- Компьютерная лингвистика – Семинар по приложениям
- Бесплатная онлайн-вводная книга по компьютерной лингвистике на Wayback Machine (архивировано 25 января 2008 г.)
- Мир языковых технологий
- Ресурсы для обработки текста, речи и языка
- Исследовательская группа по компьютерной лингвистике. Архивировано 1 августа 2013 г. в Wayback Machine.