stringtranslate.com

Компьютерная лингвистика

Компьютерная лингвистика — это междисциплинарная область, занимающаяся компьютерным моделированием естественного языка , а также изучением соответствующих вычислительных подходов к лингвистическим вопросам. В целом, компьютерная лингвистика опирается на лингвистику , информатику , искусственный интеллект , математику , логику , философию , когнитивную науку , когнитивную психологию , психолингвистику , антропологию и нейробиологию , среди других.

Происхождение

Эта область пересекается с искусственным интеллектом со времен попыток США в 1950-х годах использовать компьютеры для автоматического перевода текстов с иностранных языков, особенно русских научных журналов, на английский язык. [1] Поскольку подходы, основанные на правилах, могли выполнять арифметические (систематические) вычисления намного быстрее и точнее, чем люди, ожидалось, что лексика , морфология , синтаксис и семантика также могут быть изучены с использованием явных правил. После провала подходов, основанных на правилах , Дэвид Хейс [2] придумал этот термин, чтобы отличить эту область от искусственного интеллекта, и стал соучредителем Ассоциации компьютерной лингвистики (ACL) и Международного комитета по компьютерной лингвистике (ICCL). 1970-е и 1980-е годы. То, что началось как попытка перевода между языками, превратилось в гораздо более широкую область обработки естественного языка . [3] [4]

Аннотированные корпуса

Для того чтобы иметь возможность придирчиво изучать английский язык , очень нужен был аннотированный текстовый корпус. Penn Treebank [5] был одним из наиболее часто используемых корпораций. Он состоял из компьютерных руководств IBM, расшифровок телефонных разговоров и других текстов, в общей сложности содержащих более 4,5 миллионов слов американского английского языка, аннотированных с использованием как тегов частей речи , так и синтаксических скобок. [6]

Были проанализированы корпуса японских предложений и обнаружена закономерность логарифмической нормальности в зависимости от длины предложения. [7]

Моделирование овладения языком

Тот факт, что во время овладения языком дети в основном подвергаются только положительным доказательствам, [8] означает, что предоставляются единственные доказательства того, какая форма является правильной, и нет доказательств того, что неправильная, [9] был ограничением для модели в то время, потому что доступные сейчас модели глубокого обучения не были доступны в конце 1980-х годов. [10]

Было показано, что языки можно изучать с помощью комбинации простых вводных данных, предъявляемых постепенно по мере того, как у ребенка развивается лучшая память и продолжительность концентрации внимания, [11] , что объясняет длительный период овладения языком у младенцев и детей. [11]

Роботы использовались для проверки лингвистических теорий. [12] Модели, позволяющие учиться так же, как дети, были созданы на основе модели доступности , в которой были созданы сопоставления между действиями, восприятиями и эффектами, которые были связаны с произнесенными словами. Важно отметить, что эти роботы смогли получить функционирующие сопоставления слов и значений без необходимости использования грамматической структуры.

Используя уравнение Прайса и динамику урн Полиа , исследователи создали систему, которая не только предсказывает будущую лингвистическую эволюцию, но и дает представление об истории эволюции современных языков. [13]

Теории Хомского

Были предприняты попытки определить, как младенец усваивает «ненормальную грамматику», как это теоретизирует нормальная форма Хомского, без изучения «чрезмерно обобщенной версии» и «застревания». [9]

Смотрите также

Рекомендации

  1. ^ Джон Хатчинс: Ретроспектива и перспективы компьютерного перевода. Архивировано 14 апреля 2008 г. в журнале Wayback Machine Proceedings of MT Summit VII, 1999, стр. 30–44.
  2. ^ «Умершие участники». Члены МККЛ . Архивировано из оригинала 17 мая 2017 года . Проверено 15 ноября 2017 г.
  3. ^ Обработка естественного языка Лиз Лидди, Эдуард Хови, Джимми Лин, Джон Прагер, Драгомир Радев, Люси Вандервенде, Ральф Вайшедель
  4. ^ Арнольд Б. Барах: Машина-переводчик 1975: и грядущие изменения.
  5. ^ Маркус, М. и Марцинкевич, М. (1993). «Создание большого аннотированного корпуса английского языка: The Penn Treebank» (PDF) . Компьютерная лингвистика . 19 (2): 313–330. Архивировано (PDF) из оригинала 9 октября 2022 г.
  6. ^ Тейлор, Энн (2003). «1». Древесные берега . Весенние Нидерланды. стр. 5–22.
  7. ^ Фурухаши, С. и Хаякава, Ю. (2012). «Логнормальность распределения длины японских предложений». Журнал Физического общества Японии . 81 (3): 034004. Бибкод : 2012JPSJ...81c4004F. дои : 10.1143/JPSJ.81.034004.
  8. ^ Бауэрман, М. (1988). Проблема «отсутствия отрицательных доказательств»: как детям избежать построения слишком общей грамматики. Объяснение языковых универсалий.
  9. ^ аб Брейн, MDS (1971). О двух типах моделей интериоризации грамматик. В книге Д. И. Слобин (ред.) Онтогенез грамматики: теоретический взгляд. Нью-Йорк: Академическая пресса.
  10. ^ Пауэрс, DMW и Терк, CCR (1989). Машинное обучение естественного языка . Спрингер-Верлаг. ISBN 978-0-387-19557-5
  11. ^ аб Элман, Джеффри Л. (1993). «Обучение и развитие нейронных сетей: важность начинать с малого». Познание . 48 (1): 71–99. CiteSeerX 10.1.1.135.4937 . дои : 10.1016/0010-0277(93)90058-4. PMID  8403835. S2CID  2105042. 
  12. ^ Сальви, Г.; Монтесано, Л.; Бернардино, А.; Сантос-Виктор, Дж. (2012). «Языковая загрузка: изучение значений слов на основе ассоциации восприятие-действие». Транзакции IEEE о системах, человеке и кибернетике. Часть B: Кибернетика . 42 (3): 660–71. arXiv : 1711.09714 . дои : 10.1109/TSMCB.2011.2172420. PMID  22106152. S2CID  977486.
  13. ^ Гонг, Т.; Шуай, Л.; Тамарис М. и Ягер Г. (2012). Э. Скалас (ред.). «Изучение языковых изменений с использованием уравнения цен и динамики полиурн». ПЛОС ОДИН . 7 (3): e33171. Бибкод : 2012PLoSO...733171G. дои : 10.1371/journal.pone.0033171 . ПМК 3299756 . ПМИД  22427981. 

дальнейшее чтение

Внешние ссылки