Обработка естественного языка

Обработка естественного языка ( NLP ) — междисциплинарная подобласть компьютерной науки и искусственного интеллекта . Она в первую очередь занимается предоставлением компьютерам возможности обрабатывать данные, закодированные на естественном языке , и, таким образом, тесно связана с поиском информации , представлением знаний и вычислительной лингвистикой , подобластью лингвистики . Обычно данные собираются в текстовых корпусах с использованием подходов на основе правил, статистических или нейронных подходов в машинном обучении и глубоком обучении .

Основными задачами обработки естественного языка являются распознавание речи , классификация текста , понимание естественного языка и генерация естественного языка .

История

Обработка естественного языка берет свое начало в 1950-х годах. ^[1] Уже в 1950 году Алан Тьюринг опубликовал статью под названием « Вычислительная техника и интеллект », в которой предложил то, что сейчас называется тестом Тьюринга , в качестве критерия интеллекта, хотя в то время это не было сформулировано как проблема, отдельная от искусственного интеллекта. Предлагаемый тест включает задачу, которая включает в себя автоматизированную интерпретацию и генерацию естественного языка.

Символическое НЛП (1950-е – начало 1990-х гг.)

Предпосылка символического НЛП хорошо изложена в эксперименте Джона Сирла в китайской комнате : имея набор правил (например, китайский разговорник с вопросами и соответствующими ответами), компьютер имитирует понимание естественного языка (или другие задачи НЛП), применяя эти правила к данным, с которыми он сталкивается.

1950-е годы : Джорджтаунский эксперимент 1954 года включал полностью автоматический перевод более шестидесяти русских предложений на английский язык. Авторы утверждали, что в течение трех или пяти лет машинный перевод станет решенной проблемой. ^[2] Однако реальный прогресс был гораздо медленнее, и после отчета ALPAC в 1966 году, который показал, что десять лет исследований не оправдали ожиданий, финансирование машинного перевода было резко сокращено. Мало дальнейших исследований в области машинного перевода проводилось в Америке (хотя некоторые исследования продолжались в других местах, таких как Япония и Европа ^[3] ) до конца 1980-х годов, когда были разработаны первые статистические системы машинного перевода .
1960-е : Некоторые особенно успешные системы обработки естественного языка, разработанные в 1960-х годах, были SHRDLU , система естественного языка, работающая в ограниченных « блочных мирах » с ограниченным словарным запасом, и ELIZA , симуляция роджерианского психотерапевта , написанная Джозефом Вайценбаумом между 1964 и 1966 годами. Не используя почти никакой информации о человеческих мыслях или эмоциях, ELIZA иногда обеспечивала поразительно человеческое взаимодействие. Когда «пациент» превышал очень маленькую базу знаний, ELIZA могла предоставить общий ответ, например, отвечая на «У меня болит голова» «Почему вы говорите, что у вас болит голова?». Успешная работа Росса Куиллиан над естественным языком была продемонстрирована со словарным запасом всего из двадцати слов, потому что это было все, что помещалось в памяти компьютера в то время. ^[4]

1970-е : В 1970-е годы многие программисты начали писать «концептуальные онтологии », которые структурировали информацию реального мира в понятные компьютеру данные. Примерами являются MARGIE (Schank, 1975), SAM (Cullingford, 1978), PAM (Wilensky, 1978), TaleSpin (Meehan, 1976), QUALM (Lehnert, 1977), Politics (Carbonell, 1979) и Plot Units (Lehnert 1981). В это время были написаны первые чатботы (например, PARRY ).
1980-е : 1980-е и начало 1990-х годов знаменуют расцвет символических методов в NLP. Основные направления того времени включали исследования синтаксического анализа на основе правил (например, разработка HPSG как вычислительной операционализации генеративной грамматики ), морфологии (например, двухуровневой морфологии ^[5] ), семантики (например, алгоритма Леска ), референции (например, в рамках теории центрирования ^[6] ) и других областей понимания естественного языка (например, в теории риторической структуры ). Другие направления исследований были продолжены, например, разработка чатботов с Рэктером и Джабберваки . Важным событием (которое в конечном итоге привело к статистическому повороту в 1990-х годах) стало растущее значение количественной оценки в этот период. ^[7]

Статистическое НЛП (1990-е–2010-е годы)

Вплоть до 1980-х годов большинство систем обработки естественного языка основывались на сложных наборах рукописных правил. Однако, начиная с конца 1980-х годов, произошла революция в обработке естественного языка с введением алгоритмов машинного обучения для обработки языка. Это было связано как с постоянным ростом вычислительной мощности (см. закон Мура ), так и с постепенным уменьшением доминирования лингвистических теорий Хомского (например, трансформационной грамматики ), теоретические основы которых препятствовали развитию корпусной лингвистики , лежащей в основе подхода машинного обучения к обработке языка. ^[8]

1990-е годы : Многие из заметных ранних успехов в статистических методах обработки естественного языка произошли в области машинного перевода , особенно благодаря работе в IBM Research, например, моделям выравнивания IBM . Эти системы смогли воспользоваться существующими многоязычными текстовыми корпусами , которые были созданы парламентом Канады и Европейским союзом в результате законов, требующих перевода всех правительственных протоколов на все официальные языки соответствующих систем государственного управления. Однако большинство других систем зависели от корпусов, специально разработанных для задач, реализуемых этими системами, что было (и часто продолжает быть) основным ограничением в успехе этих систем. В результате большая часть исследований была направлена на методы более эффективного обучения на основе ограниченных объемов данных.
2000-е годы : С ростом Интернета, с середины 1990-х годов стали доступны все большие объемы необработанных (неаннотированных) языковых данных. Таким образом, исследования все больше сосредотачиваются на неконтролируемых и полуконтролируемых алгоритмах обучения. Такие алгоритмы могут обучаться на данных, которые не были вручную аннотированы желаемыми ответами или с использованием комбинации аннотированных и неаннотированных данных. Как правило, эта задача намного сложнее, чем контролируемое обучение , и обычно дает менее точные результаты для заданного объема входных данных. Однако существует огромное количество неаннотированных данных (включая, среди прочего, весь контент Всемирной паутины ), которые часто могут компенсировать худшие результаты, если используемый алгоритм имеет достаточно низкую временную сложность, чтобы быть практичным.

Нейронное НЛП (настоящее время)

В 2003 году модель n-грамм слов , на тот момент лучший статистический алгоритм, была превзойдена многослойным персептроном (с одним скрытым слоем и длиной контекста в несколько слов, обученным на 14 миллионах слов с кластером ЦП в языковом моделировании ) Йошуа Бенджио и соавторами. ^[9]

В 2010 году Томаш Миколов (тогда аспирант Брненского технического университета ) с соавторами применил простую рекуррентную нейронную сеть с одним скрытым слоем для моделирования языка ^[10] , а в последующие годы он продолжил разработку Word2vec . В 2010-х годах методы машинного обучения в стиле репрезентативного обучения и глубокой нейронной сети (со множеством скрытых слоев) получили широкое распространение в обработке естественного языка. Эта популярность была отчасти обусловлена потоком результатов, показывающих, что такие методы ^[11]^[12] могут достигать самых современных результатов во многих задачах на естественном языке, например, в моделировании языка ^[13] и синтаксическом анализе. ^[14]^[15] Это становится все более важным в медицине и здравоохранении , где NLP помогает анализировать заметки и текст в электронных медицинских картах , которые в противном случае были бы недоступны для изучения при поиске улучшения ухода ^[16] или защиты конфиденциальности пациентов. ^[17]

Подходы: символический, статистический, нейронные сети.

Символический подход, т. е. ручное кодирование набора правил для манипулирования символами в сочетании с поиском в словаре, был исторически первым подходом, использованным как в ИИ в целом, так и в обработке естественного языка в частности: ^[18]^[19] например, при написании грамматик или разработке эвристических правил для стемминга .

С другой стороны, подходы машинного обучения , включающие как статистические, так и нейронные сети, имеют много преимуществ по сравнению с символьным подходом:

Как статистические, так и нейронные сети могут в большей степени сосредоточиться на наиболее распространенных случаях, извлеченных из корпуса текстов, тогда как подход, основанный на правилах, должен в равной степени предоставлять правила как для редких, так и для распространенных случаев.

Языковые модели , созданные с помощью статистических или нейронных сетей, более устойчивы как к незнакомым (например, содержащим слова или структуры, которые ранее не встречались), так и к ошибочным входным данным (например, с неправильно написанными словами или случайно пропущенными словами) по сравнению с системами, основанными на правилах, создание которых также требует больших затрат.

Чем больше такая (вероятностная) языковая модель, тем точнее она становится, в отличие от систем, основанных на правилах, которые могут добиться точности только за счет увеличения количества и сложности правил, что приводит к трудноразрешимым проблемам.

Хотя в 2020 году системы управления символами на основе правил все еще использовались, с появлением в 2023 году степеней магистра права они по большей части устарели .

До этого они широко использовались:

когда объем обучающих данных недостаточен для успешного применения методов машинного обучения, например, для машинного перевода языков с низкими ресурсами, таких как предоставляемые системой Apertium ,
для предварительной обработки в конвейерах обработки естественного языка, например, токенизации или
для постобработки и преобразования выходных данных конвейеров обработки естественного языка, например, для извлечения знаний из синтаксических анализов.

Статистический подход

В конце 1980-х и середине 1990-х годов статистический подход положил конец периоду « зимы» ИИ , который был вызван неэффективностью подходов, основанных на правилах. ^[20]^[21]

Самые ранние деревья решений , создающие системы жестких правил if–then , все еще были очень похожи на старые подходы, основанные на правилах. Только введение скрытых марковских моделей , применяемых к разметке частей речи, возвестило о конце старого подхода, основанного на правилах.

Нейронные сети

Основным недостатком статистических методов является то, что они требуют сложной разработки признаков . С 2015 года ^[22] статистический подход был заменен подходом нейронных сетей , использующим семантические сети ^[23] и вложения слов для захвата семантических свойств слов.

Промежуточные задачи (например, разметка частей речи и анализ зависимостей) больше не нужны.

Нейронный машинный перевод , основанный на недавно изобретенных на тот момент преобразованиях последовательности в последовательность , сделал устаревшими промежуточные этапы, такие как выравнивание слов, ранее необходимые для статистического машинного перевода .

Распространенные задачи НЛП

Ниже приведен список некоторых наиболее часто исследуемых задач в обработке естественного языка. Некоторые из этих задач имеют прямое применение в реальном мире, в то время как другие чаще служат подзадачами, которые используются для помощи в решении более крупных задач.

Хотя задачи обработки естественного языка тесно переплетены, для удобства их можно разделить на категории. Ниже приведено приблизительное разделение.

Обработка текста и речи

Оптическое распознавание символов (OCR): По изображению, представляющему печатный текст, определите соответствующий текст.

Распознавание речи: Учитывая звуковой фрагмент речи человека или людей, определите текстовое представление речи. Это противоположно преобразованию текста в речь и является одной из чрезвычайно сложных проблем, в просторечии называемых « полным ИИ » (см. выше). В естественной речи почти нет пауз между последовательными словами, и, таким образом, сегментация речи является необходимой подзадачей распознавания речи (см. ниже). В большинстве разговорных языков звуки, представляющие последовательные буквы, смешиваются друг с другом в процессе, называемом коартикуляцией , поэтому преобразование аналогового сигнала в дискретные символы может быть очень сложным процессом. Кроме того, учитывая, что слова на одном и том же языке произносятся людьми с разными акцентами, программное обеспечение для распознавания речи должно быть способно распознавать широкий спектр входных данных как идентичные друг другу с точки зрения их текстового эквивалента.
Сегментация речи: Учитывая звуковой фрагмент речи человека или людей, разбейте его на слова. Подзадача распознавания речи и обычно группируется с ней.

Преобразование текста в речь: Учитывая текст, преобразуйте эти единицы и создайте устное представление. Текст в речь может быть использован для помощи людям с нарушениями зрения. ^[24]

Сегментация слов ( токенизация ): Токенизация — это процесс, используемый в текстовом анализе, который делит текст на отдельные слова или фрагменты слов. Этот метод приводит к двум ключевым компонентам: индексу слов и токенизированному тексту. Индекс слов — это список, который сопоставляет уникальные слова с определенными числовыми идентификаторами, а токенизированный текст заменяет каждое слово соответствующим ему числовым токеном. Эти числовые токены затем используются в различных методах глубокого обучения. ^[25]; Для такого языка, как английский , это довольно тривиально, поскольку слова обычно разделяются пробелами. Однако некоторые письменные языки, такие как китайский , японский и тайский, не отмечают границы слов таким образом, и в этих языках сегментация текста является важной задачей, требующей знания словарного запаса и морфологии слов в языке. Иногда этот процесс также используется в таких случаях, как создание мешка слов (BOW) в процессе добычи данных. ^{[ необходима цитата ]}

Морфологический анализ

Лемматизация: Задача удаления только флективных окончаний и возврата базовой словарной формы слова, которая также известна как лемма. Лемматизация — это еще один метод приведения слов к их нормализованной форме. Но в этом случае преобразование фактически использует словарь для отображения слов в их фактическую форму. ^[26]
Морфологическая сегментация: Разделите слова на отдельные морфемы и определите класс морфем. Сложность этой задачи во многом зависит от сложности морфологии ( т . е . структуры слов) рассматриваемого языка. Английский язык имеет довольно простую морфологию, особенно флективную морфологию , и поэтому часто можно полностью игнорировать эту задачу и просто моделировать все возможные формы слова (например, «открытый, открывает, открыл, открывающийся») как отдельные слова. Однако в таких языках, как турецкий или мейтей , сильно агглютинированный индийский язык, такой подход невозможен, поскольку каждая словарная запись имеет тысячи возможных словоформ. ^[27]
Тегирование частей речи: Дано предложение, определите часть речи (POS) для каждого слова. Многие слова, особенно общеупотребительные, могут служить несколькими частями речи. Например, «book» может быть существительным ( «the book on the table») или глаголом («to book a flight»); «set» может быть существительным, глаголом или прилагательным ; а «out» может быть любой из по крайней мере пяти различных частей речи.

Стемминг: Процесс приведения склоняемых (или иногда производных) слов к базовой форме (например, «close» будет корнем для «closed», «closing», «close», «closer» и т. д.). Стемминг даёт похожие результаты, что и лемматизация, но делает это на основе правил, а не словаря.

Синтаксический анализ

Введение в грамматику ^[28]: Создайте формальную грамматику , описывающую синтаксис языка.
Разрыв предложения (также известный как « разрешение неоднозначности границ предложения »): Для данного фрагмента текста найдите границы предложений. Границы предложений часто отмечаются точками или другими знаками препинания , но эти же символы могут служить и другим целям (например, для обозначения сокращений ).
Разбор: Определите дерево разбора (грамматический анализ) данного предложения. Грамматика для естественных языков неоднозначна , и типичные предложения имеют несколько возможных анализов: возможно, это удивительно, но для типичного предложения могут быть тысячи потенциальных разборов (большинство из которых покажутся человеку совершенно бессмысленными). Существует два основных типа разбора: разбор зависимостей и разбор составляющих . Разбор зависимостей фокусируется на отношениях между словами в предложении (отмечая такие вещи, как первичные объекты и предикаты), тогда как разбор составляющих фокусируется на построении дерева разбора с использованием вероятностной контекстно-свободной грамматики (PCFG) (см. также стохастическую грамматику ).

Лексическая семантика (отдельных слов в контексте)

Лексическая семантика: Каково вычислительное значение отдельных слов в контексте?
Распределительная семантика: Как мы можем извлечь семантические представления из данных?
Распознавание именованных сущностей (NER): Учитывая поток текста, определите, какие элементы в тексте соответствуют именам собственным, таким как люди или места, и каков тип каждого такого имени (например, лицо, местоположение, организация). Хотя заглавные буквы могут помочь в распознавании именованных сущностей в таких языках, как английский, эта информация не может помочь в определении типа именованной сущности и в любом случае часто является неточной или недостаточной. Например, первая буква предложения также пишется с заглавной буквы, а именованные сущности часто охватывают несколько слов, только некоторые из которых пишутся с заглавной буквы. Кроме того, во многих других языках с не-западной письменностью (например, китайский или арабский ) вообще нет заглавных букв, и даже языки с заглавными буквами могут не всегда использовать их для различения имен. Например, немецкий язык пишет все существительные с заглавной буквы , независимо от того, являются ли они именами, а французский и испанский языки не пишут заглавные буквы в именах, которые служат прилагательными . Другое название этой задачи — классификация токенов. ^[29]

Анализ настроений (см. также Мультимодальный анализ настроений ): Анализ настроений — это вычислительный метод, используемый для идентификации и классификации эмоционального намерения, стоящего за текстом. Этот метод включает анализ текста для определения того, является ли выраженное настроение положительным, отрицательным или нейтральным. Модели для классификации настроений обычно используют такие входные данные, как n-граммы слов , функции Term Frequency-Inverse Document Frequency (TF-IDF), функции, сгенерированные вручную, или используют модели глубокого обучения, разработанные для распознавания как долгосрочных, так и краткосрочных зависимостей в текстовых последовательностях. Приложения анализа настроений разнообразны и распространяются на такие задачи, как категоризация отзывов клиентов на различных онлайн-платформах. ^[25]
Извлечение терминологии: Целью извлечения терминологии является автоматическое извлечение релевантных терминов из заданного корпуса.
Разрешение словесной неоднозначности (WSD): Многие слова имеют более одного значения ; нам нужно выбрать значение, которое имеет наибольший смысл в контексте. Для этой задачи нам обычно дают список слов и связанных с ними значений слов, например, из словаря или онлайн-ресурса, такого как WordNet .
Связывание сущностей: Многие слова — обычно имена собственные — относятся к именованным сущностям ; здесь нам необходимо выбрать сущность (известную личность, место, компанию и т. д.), которая упоминается в контексте.

Реляционная семантика (семантика отдельных предложений)

Извлечение отношений: Используя фрагмент текста, определите связи между именованными сущностями (например, кто на ком женат).
Семантический анализ: Для заданного фрагмента текста (обычно предложения) создайте формальное представление его семантики либо в виде графика (например, в разборе AMR ), либо в соответствии с логическим формализмом (например, в разборе DRT ). Эта задача обычно включает аспекты нескольких более элементарных задач NLP из семантики (например, маркировка семантических ролей, устранение неоднозначности словесного смысла) и может быть расширена для включения полноценного анализа дискурса (например, анализ дискурса, кореференция; см. понимание естественного языка ниже).
Маркировка семантических ролей (см. также неявную маркировку семантических ролей ниже): Для одного предложения определите и разрешите неоднозначность семантических предикатов (например, глагольных фреймов ), затем определите и классифицируйте элементы фрейма ( семантические роли ).

Дискурс (семантика за пределами отдельных предложений)

Разрешение кореференции: Учитывая предложение или более крупный фрагмент текста, определите, какие слова («упоминания») относятся к тем же объектам («сущностям»). Разрешение анафоры является конкретным примером этой задачи и конкретно касается сопоставления местоимений с существительными или именами, к которым они относятся. Более общая задача разрешения кореферентности также включает в себя выявление так называемых «соотношений моста», включающих выражения ссылки . Например, в таком предложении, как «Он вошел в дом Джона через парадную дверь», «парадная дверь» является выражением ссылки, а отношение моста, которое необходимо определить, заключается в том, что дверь, на которую делается ссылка, является парадной дверью дома Джона (а не какой-то другой конструкции, которая также может быть упомянута).
Анализ дискурса: Эта рубрика включает несколько связанных задач. Одна из задач — разбор дискурса, т. е. определение структуры дискурса связанного текста, т. е. природы дискурсивных отношений между предложениями (например, разработка, объяснение, контраст). Другая возможная задача — распознавание и классификация речевых актов в фрагменте текста (например, вопрос «да-нет», вопрос по содержанию, утверждение, суждение и т. д.).

Неявная маркировка семантической роли: Дано одно предложение, идентифицируйте и снимите неоднозначность семантических предикатов (например, глагольных фреймов ) и их явных семантических ролей в текущем предложении (см. Маркировка семантических ролей выше). Затем идентифицируйте семантические роли, которые явно не реализованы в текущем предложении, классифицируйте их на аргументы, которые явно реализованы в другом месте текста, и те, которые не указаны, и разрешите первые по локальному тексту. Тесно связанной задачей является разрешение нулевой анафоры, т. е. расширение разрешения кореференции на языки pro-drop .

Распознавание текстовой импликации: Дано два текстовых фрагмента, определите, влечет ли истинность одного из них истинность другого, влечет ли отрицание другого или позволяет другому быть либо истинным, либо ложным. ^[30]

Сегментация и распознавание тем: Имея фрагмент текста, разделите его на сегменты, каждый из которых посвящен определенной теме, и определите тему сегмента.

Добыча аргументов: Целью добычи аргументов является автоматическое извлечение и идентификация аргументативных структур из текста на естественном языке с помощью компьютерных программ. ^[31] Такие аргументативные структуры включают в себя предпосылки, выводы, схему аргументации и связь между основным и вспомогательным аргументом или основным и контраргументом в дискурсе. ^[32]^[33]

Приложения НЛП более высокого уровня

Автоматическое реферирование (реферирование текста): Создать читабельное резюме фрагмента текста. Часто используется для предоставления резюме текста известного типа, например, научных работ, статей в финансовом разделе газеты.
Исправление грамматических ошибок: Обнаружение и исправление грамматических ошибок включает в себя широкий спектр проблем на всех уровнях лингвистического анализа (фонология/орфография, морфология, синтаксис, семантика, прагматика). Исправление грамматических ошибок имеет большое значение, поскольку оно затрагивает сотни миллионов людей, которые используют или изучают английский как второй язык. Таким образом, с 2011 года оно стало предметом ряда общих задач. ^[34]^[35]^[36] Что касается орфографии, морфологии, синтаксиса и некоторых аспектов семантики, то благодаря разработке мощных нейронных языковых моделей, таких как GPT-2 , это теперь (2019) можно считать в значительной степени решенной проблемой и продавать в различных коммерческих приложениях.
Логический перевод: Перевести текст с естественного языка на язык формальной логики.
Машинный перевод (МП): Автоматически переводить текст с одного человеческого языка на другой. Это одна из самых сложных проблем, и она относится к классу проблем, которые в разговорной речи называют « полными для ИИ », то есть требующими всех различных типов знаний, которыми обладают люди (грамматика, семантика, факты о реальном мире и т. д.) для правильного решения.
Понимание естественного языка (NLU): Преобразовывать фрагменты текста в более формальные представления, такие как логические структуры первого порядка , которыми легче манипулировать компьютерным программам. Понимание естественного языка включает в себя идентификацию предполагаемой семантики из множества возможных семантик, которые могут быть получены из выражения естественного языка, которое обычно принимает форму организованных обозначений понятий естественного языка. Введение и создание метамодели и онтологии языка являются эффективными, однако эмпирическими решениями. Явная формализация семантики естественного языка без путаницы с неявными предположениями, такими как предположение о закрытом мире (CWA) против предположения об открытом мире или субъективное Да/Нет против объективного Истина/Ложь, ожидается для построения основы формализации семантики. ^[37]
Генерация естественного языка (NLG):: Преобразуйте информацию из компьютерных баз данных или семантических намерений в понятный человеческий язык.
Поколение книг: Не является задачей NLP как таковой, а расширением генерации естественного языка и других задач NLP является создание полноценных книг. Первая сгенерированная машиной книга была создана системой, основанной на правилах, в 1984 году (Racter, The policeman's beard is half-constructed ). ^[38] Первая опубликованная работа нейронной сети была опубликована в 2018 году, 1 the Road , продаваемая как роман, содержит шестьдесят миллионов слов. Обе эти системы в основном представляют собой сложные, но бессмысленные (без семантики) языковые модели . Первая сгенерированная машиной научная книга была опубликована в 2019 году (Beta Writer, Lithium-Ion Batterys , Springer, Cham). ^[39] В отличие от Racter и 1 the Road , это основано на фактических знаниях и основано на резюмировании текста.
Документ ИИ: Платформа Document AI находится поверх технологии NLP, позволяя пользователям без предварительного опыта работы с искусственным интеллектом, машинным обучением или NLP быстро обучить компьютер извлекать необходимые им данные из разных типов документов. Document AI на основе NLP позволяет нетехническим группам, например юристам, бизнес-аналитикам и бухгалтерам, быстро получать доступ к информации, скрытой в документах. ^[40]
Управление диалогом: Компьютерные системы, предназначенные для общения с человеком.
Вопрос ответ: Если задан вопрос на человеческом языке, определите ответ. Типичные вопросы имеют конкретный правильный ответ (например, «Какая столица Канады?»), но иногда рассматриваются и открытые вопросы (например, «В чем смысл жизни?»).
Генерация текста в изображение: Учитывая описание изображения, сгенерируйте изображение, которое соответствует описанию. ^[41]
Генерация текста в сцену: Учитывая описание сцены, сгенерируйте 3D-модель сцены. ^[42]^[43]
Текст-в-видео: Учитывая описание видео, сгенерируйте видео, которое соответствует описанию. ^[44]^[45]

Общие тенденции и (возможные) будущие направления

На основе давних тенденций в этой области можно экстраполировать будущие направления НЛП. По состоянию на 2020 год можно наблюдать три тенденции среди тем давней серии CoNLL Shared Tasks: ^[46]

Интерес к все более абстрактным, «когнитивным» аспектам естественного языка (1999–2001: поверхностный синтаксический анализ, 2002–03: распознавание именованных сущностей, 2006–09/2017–18: синтаксис зависимостей, 2004–05/2008–09 маркировка семантических ролей, 2011–12 кореферентность, 2015–16: синтаксический анализ дискурса, 2019: семантический синтаксический анализ).
Растущий интерес к многоязычию и, потенциально, мультимодальности (английский с 1999 г.; испанский, голландский с 2002 г.; немецкий с 2003 г.; болгарский, датский, японский, португальский, словенский, шведский, турецкий с 2006 г.; баскский, каталонский, китайский, греческий, венгерский, итальянский, турецкий с 2007 г.; чешский с 2009 г.; арабский с 2012 г.; 2017 г.: 40+ языков; 2018 г.: 60+/100+ языков)
Устранение символических представлений (методы, основанные на правилах, в пользу слабо контролируемых методов, обучения представлениям и сквозных систем)

Познание

Большинство приложений NLP более высокого уровня включают аспекты, которые эмулируют интеллектуальное поведение и очевидное понимание естественного языка. Говоря шире, техническая операционализация все более продвинутых аспектов когнитивного поведения представляет собой одну из траекторий развития NLP (см. тенденции среди общих задач CoNLL выше).

Познание относится к «ментальному действию или процессу приобретения знаний и понимания посредством мысли, опыта и чувств». ^[47] Когнитивная наука — это междисциплинарное научное исследование разума и его процессов. ^[48] Когнитивная лингвистика — это междисциплинарная отрасль лингвистики, объединяющая знания и исследования как психологии, так и лингвистики. ^[49] Особенно в эпоху символического НЛП область компьютерной лингвистики поддерживала тесные связи с когнитивными исследованиями.

В качестве примера Джордж Лакофф предлагает методологию построения алгоритмов обработки естественного языка (NLP) с точки зрения когнитивной науки, а также выводы когнитивной лингвистики ^[50] с двумя определяющими аспектами:

Примените теорию концептуальной метафоры , которую Лакофф объясняет как «понимание одной идеи в терминах другой», что дает представление о намерении автора. ^[51] Например, рассмотрим английское слово big . При использовании в сравнении («That is a big tree») намерение автора состоит в том, чтобы подразумевать, что дерево физически велико по сравнению с другими деревьями или опытом автора. При использовании метафорически («Tomorrow is a big day») намерение автора подразумевает важность . Намерение, стоящее за другими использованиями, например, «She is a big person», останется несколько двусмысленным как для человека, так и для когнитивного алгоритма НЛП без дополнительной информации.
Назначьте относительные меры значения слову, фразе, предложению или фрагменту текста на основе информации, представленной до и после анализируемого фрагмента текста, например, с помощью вероятностной контекстно-свободной грамматики (PCFG). Математическое уравнение для таких алгоритмов представлено в патенте США 9269353: ^[52]

{RMM(токен_{N})}={PMM(токен_{N})}\times {\frac {1}{2d}}\left(\sum _{i=-d}^{d}{((PMM(токен_{N})}\times {PF(токен_{Ni},токен_{N},токен_{N+i}))_{i}}\right)

Где

RMM — это относительная мера смысла

токен — это любой блок текста, предложения, фразы или слова

N — количество анализируемых токенов.

PMM — это вероятная мера смысла, основанная на корпусе

d — ненулевое положение токена в последовательности из N токенов

PF — это функция вероятности, специфичная для языка.

Связи с когнитивной лингвистикой являются частью исторического наследия NLP, но они реже рассматривались после статистического поворота в 1990-х годах. Тем не менее, подходы к разработке когнитивных моделей в направлении технически операционализируемых фреймворков рассматривались в контексте различных фреймворков, например, когнитивной грамматики, ^[53] функциональной грамматики, ^[54] грамматики конструкций, ^[55] вычислительной психолингвистики и когнитивной нейронауки (например, ACT-R ), однако с ограниченным внедрением в мейнстрим NLP (что измеряется присутствием на крупных конференциях [ ^56] ACL ). Совсем недавно идеи когнитивного NLP были возрождены как подход к достижению объяснимости , например, под понятием «когнитивный ИИ». ^[57] Аналогичным образом, идеи когнитивного НЛП присущи нейронным моделям, мультимодальному НЛП (хотя редко выражаются явно) ^[58] и разработкам в области искусственного интеллекта , в частности инструментам и технологиям, использующим подходы больших языковых моделей ^[59] и новым направлениям в области общего искусственного интеллекта, основанным на принципе свободной энергии ^[60] британского нейробиолога и теоретика из Университетского колледжа Лондона Карла Дж. Фристона .

Смотрите также

Ссылки

^ «НЛП».
^ Хатчинс, Дж. (2005). «История машинного перевода в двух словах» (PDF) .^{[ самостоятельно опубликованный источник ]}
^ «ALPAC: (печально)известный отчет», Джон Хатчинс, MT News International, № 14, июнь 1996 г., стр. 9–12.
^ Crevier 1993, стр. 146–148 , см. также Buchanan 2005, стр. 56 : «Ранние программы были обязательно ограничены в области действия размером и скоростью памяти»
^ Коскенниеми, Киммо (1983), Двухуровневая морфология: общая вычислительная модель распознавания и создания словоформ (PDF) , Кафедра общей лингвистики, Хельсинкский университет
^ Джоши, А. К. и Вайнштейн, С. (1981, август). Контроль вывода: роль некоторых аспектов центрирования структуры дискурса. В IJCAI (стр. 385–387).
^ Guida, G.; Mauri, G. (июль 1986 г.). «Оценка систем обработки естественного языка: проблемы и подходы». Труды IEEE . 74 (7): 1026–1035. doi :10.1109/PROC.1986.13580. ISSN 1558-2256. S2CID 30688575.
^ Хомскианская лингвистика поощряет исследование « краевых случаев », которые подчеркивают ограничения ее теоретических моделей (сравнимых с патологическими явлениями в математике), обычно создаваемых с помощью мысленных экспериментов , а не систематическое исследование типичных явлений, которые происходят в реальных данных, как это имеет место в корпусной лингвистике . Создание и использование таких корпусов реальных данных является фундаментальной частью алгоритмов машинного обучения для обработки естественного языка. Кроме того, теоретические основы хомскианской лингвистики, такие как так называемый аргумент « бедности стимула », подразумевают, что общие алгоритмы обучения, которые обычно используются в машинном обучении, не могут быть успешными в обработке языка. В результате парадигма Хомскианского препятствовала применению таких моделей к обработке языка.
^ Бенжио, Йошуа; Дюшарм, Режан; Винсент, Паскаль; Жанвин, Кристиан (1 марта 2003 г.). «Нейронная вероятностная языковая модель». Журнал исследований машинного обучения . 3 : 1137–1155 – через ACM Digital Library.
^ Миколов, Томаш; Карафиат, Мартин; Бургет, Лукаш; Черноцкий, Ян; Худанпур, Санджив (26 сентября 2010 г.). «Языковая модель на основе рекуррентной нейронной сети» (PDF) . Интерспич 2010 . стр. 1045–1048. doi : 10.21437/Interspeech.2010-343. S2CID 17048224. {{cite book}}: |journal=проигнорировано ( помощь )
^ Голдберг, Йоав (2016). «Учебник по моделям нейронных сетей для обработки естественного языка». Журнал исследований искусственного интеллекта . 57 : 345–420. arXiv : 1807.10854 . doi : 10.1613/jair.4992. S2CID 8273530.
^ Гудфеллоу, Ян; Бенджио, Йошуа; Курвилль, Аарон (2016). Глубокое обучение. MIT Press.
^ Юзефович, Рафал; Виньялс, Ориол; Шустер, Майк; Шазир, Ноам; Ву, Йонгхуэй (2016). Исследование пределов моделирования языка . arXiv : 1602.02410 . Bibcode : 2016arXiv160202410J.
^ Choe, Do Kook; Charniak, Eugene. «Parsing as Language Modeling». Emnlp 2016. Архивировано из оригинала 23-10-2018 . Получено 22-10-2018 .
^ Виньялс, Ориол и др. (2014). «Грамматика как иностранный язык» (PDF) . Nips2015 . arXiv : 1412.7449 . Bibcode :2014arXiv1412.7449V.
^ Турчин, Александр; Флорес Буйлес, Луиза Ф. (19.03.2021). «Использование обработки естественного языка для измерения и улучшения качества лечения диабета: систематический обзор». Журнал «Наука и технологии диабета» . 15 (3): 553–560. doi : 10.1177/19322968211000831. ISSN 1932-2968. PMC 8120048. PMID 33736486 .
^ Ли, Дженнифер; Янг, Сэмюэл; Холланд-Холл, Синтия; Сезгин, Эмре; Джилл, Манджот; Линвуд, Саймон; Хуан, Юнгуи; Хоффман, Джеффри (10.06.2022). «Распространенность чувствительных терминов в клинических заметках с использованием методов обработки естественного языка: наблюдательное исследование». JMIR Medical Informatics . 10 (6): e38482. doi : 10.2196/38482 . ISSN 2291-9694. PMC 9233261. PMID 35687381 .
^ Виноград, Терри (1971). Процедуры как представление данных в компьютерной программе для понимания естественного языка (диссертация).
^ Schank, Roger C.; Abelson, Robert P. (1977). Сценарии, планы, цели и понимание: исследование структур человеческого знания . Hillsdale: Erlbaum. ISBN 0-470-99033-3.
^ Марк Джонсон. Как статистическая революция меняет (компьютерную) лингвистику. Труды семинара EACL 2009 по взаимодействию между лингвистикой и компьютерной лингвистикой.
^ Филип Резник. Четыре революции. Language Log, 5 февраля 2011 г.
^ Сохер, Ричард. «Учебник Deep Learning For NLP-ACL 2012». www.socher.org . Получено 17 августа 2020 г.Это был ранний учебник по глубокому обучению на ACL 2012, который вызвал как интерес, так и (в то время) скептицизм большинства участников. До этого нейронное обучение в основном отвергалось из-за отсутствия статистической интерпретируемости. До 2015 года глубокое обучение превратилось в основную структуру NLP. [Ссылка не работает, попробуйте http://web.stanford.edu/class/cs224n/]
^ Сегев, Элад (2022). Семантический сетевой анализ в социальных науках. Лондон: Routledge. ISBN 9780367636524. Архивировано из оригинала 5 декабря 2021 г. . Получено 5 декабря 2021 г. .
^ Yi, Chucai; Tian, Yingli (2012), «Вспомогательное чтение текста со сложного фона для слепых людей», Анализ и распознавание документов с помощью камеры , Конспект лекций по информатике, т. 7139, Springer Berlin Heidelberg, стр. 15–28, CiteSeerX 10.1.1.668.869 , doi :10.1007/978-3-642-29364-1_2, ISBN 9783642293634
^ ab "Обработка естественного языка (НЛП) - Полное руководство". www.deeplearning.ai . 2023-01-11 . Получено 2024-05-05 .
^ "Что такое обработка естественного языка? Введение в обработку естественного языка в машинном обучении". GyanSetu! . 2020-12-06 . Получено 2021-01-09 .
^ Кишорджит, Н.; Видья, Радж РК.; Нирмал, Й.; Шиваджи, Б. (2012). «Идентификация морфемы Манипури» (PDF) . Труды 3-го семинара по обработке естественного языка Южной и Юго-Восточной Азии (SANLP) . COLING 2012, Мумбаи, декабрь 2012 г.: 95–108.{{cite journal}}: CS1 maint: местоположение ( ссылка )
^ Кляйн, Дэн; Мэннинг, Кристофер Д. (2002). "Индукция грамматики естественного языка с использованием модели компонентного контекста" (PDF) . Достижения в области нейронных систем обработки информации .
^ Кариампужа, Уильям; Алиея, Джоконда; Ку, Сью; Санджак, Джалеал; Мате, Эви; Сид, Эрик; Шатлен, Хейли; Ядав, Арджун; Сюй, Яньцзи; Чжу, Цянь (2023). «Точное извлечение информации для эпидемиологии редких заболеваний в масштабе». Журнал трансляционной медицины . 21 (1): 157. doi : 10.1186/s12967-023-04011-y . PMC 9972634. PMID 36855134 .
^ PASCAL Распознавание текстовой зависимости (RTE-7) https://tac.nist.gov//2011/RTE/
^ Липпи, Марко; Торрони, Паоло (2016-04-20). «Argumentation Mining: State of the Art and Emerging Trends». ACM Transactions on Internet Technology . 16 (2): 1–25. doi : 10.1145/2850417. hdl : 11585/523460 . ISSN 1533-5399. S2CID 9561587.
^ "Argument Mining – IJCAI2016 Tutorial". www.i3s.unice.fr . Получено 2021-03-09 .
^ "Подходы НЛП к вычислительной аргументации – ACL 2016, Берлин" . Получено 2021-03-09 .
^ Администрация. "Центр языковых технологий (CLT)". Университет Маккуори . Получено 11 января 2021 г.
^ «Общее задание: исправление грамматических ошибок». www.comp.nus.edu.sg . Получено 11.01.2021 .
^ «Общее задание: исправление грамматических ошибок». www.comp.nus.edu.sg . Получено 11.01.2021 .
^ Дуань, Юконг; Круз, Кристоф (2011). «Формализация семантики естественного языка через концептуализацию из существования». Международный журнал инноваций, менеджмента и технологий . 2 (1): 37–42. Архивировано из оригинала 2011-10-09.
^ "UBUWEB :: Racter". www.ubu.com . Получено 2020-08-17 .
↑ Писатель, Бета (2019). Литий-ионные аккумуляторы . doi :10.1007/978-3-030-16800-1. ISBN 978-3-030-16799-8. S2CID 155818532.
^ «Document Understanding AI on Google Cloud (Cloud Next '19) – YouTube». www.youtube.com . 11 апреля 2019 г. Архивировано из оригинала 2021-10-30 . Получено 2021-01-11 .
^ Робертсон, Ади (2022-04-06). «Генератор изображений DALL-E AI от OpenAI теперь может редактировать и изображения». The Verge . Получено 2022-06-07 .
^ "Стэнфордская группа обработки естественного языка". nlp.stanford.edu . Получено 2022-06-07 .
^ Coyne, Bob; Sproat, Richard (2001-08-01). "WordsEye". Труды 28-й ежегодной конференции по компьютерной графике и интерактивным технологиям . SIGGRAPH '01. Нью-Йорк, штат Нью-Йорк, США: Ассоциация вычислительной техники. стр. 487–496. doi :10.1145/383259.383316. ISBN 978-1-58113-374-5. S2CID 3842372.
^ "Google объявляет о достижениях ИИ в преобразовании текста в видео, языковом переводе и многом другом". VentureBeat . 2022-11-02 . Получено 2022-11-09 .
^ Винсент, Джеймс (29.09.2022). «Новый генератор искусственного интеллекта Meta для преобразования текста в видео похож на DALL-E для видео». The Verge . Получено 09.11.2022 .
^ "Предыдущие общие задачи | CoNLL". www.conll.org . Получено 2021-01-11 .
^ "Cognition". Lexico . Oxford University Press и Dictionary.com . Архивировано из оригинала 15 июля 2020 г. Получено 6 мая 2020 г.
^ «Спросите когнитивного ученого». Американская федерация учителей . 8 августа 2014 г. Когнитивная наука — это междисциплинарная область исследований в области лингвистики, психологии, нейронауки, философии, компьютерных наук и антропологии, которая стремится понять разум.
^ Робинсон, Питер (2008). Справочник по когнитивной лингвистике и освоению второго языка . Routledge. С. 3–8. ISBN 978-0-805-85352-0.
^ Лакофф, Джордж (1999). Философия во плоти: воплощенный разум и его вызов западной философии; Приложение: нейронная теория языковой парадигмы . New York Basic Books. С. 569–583. ISBN 978-0-465-05674-3.
^ Штраус, Клаудия (1999). Когнитивная теория культурного значения . Cambridge University Press. С. 156–164. ISBN 978-0-521-59541-4.
^ Патент США 9269353
^ "Универсальная концептуальная когнитивная аннотация (UCCA)". Универсальная концептуальная когнитивная аннотация (UCCA) . Получено 2021-01-11 .
^ Родригес, ФК, и Майрал-Усон, Р. (2016). Построение вычислительной грамматики RRG. Ономазеин , (34), 86–117.
^ "Fluid Construction Grammar – Полностью функциональная система обработки для строительных грамматик" . Получено 2021-01-11 .
^ "Портал участников ACL | Портал участников Ассоциации компьютерной лингвистики". www.aclweb.org . Получено 11.01.2021 .
^ "Фрагменты и правила". W3C . Получено 2021-01-11 .
^ Socher, Richard; Karpathy, Andrej; Le, Quoc V.; Manning, Christopher D.; Ng, Andrew Y. (2014). «Обоснованная композиционная семантика для поиска и описания изображений с помощью предложений». Труды Ассоциации компьютерной лингвистики . 2 : 207–218. doi : 10.1162/tacl_a_00177 . S2CID 2317858.
^ Дасгупта, Ишита; Лампинен, Эндрю К.; Чан, Стефани CY; Кресвелл, Антония; Кумаран, Дхаршан; Макклелланд, Джеймс Л.; Хилл, Феликс (2022). «Языковые модели демонстрируют влияние содержания, подобное человеческому, на рассуждение, Дасгупта, Лампинен и др.». arXiv : 2207.07051 [cs.CL].
^ Фристон, Карл Дж. (2022). Активный вывод: принцип свободной энергии в разуме, мозге и поведении; Глава 4. Генеративные модели активного вывода . Издательство MIT. ISBN 978-0-262-36997-8.

Дальнейшее чтение

Бейтс, М. (1995). «Модели понимания естественного языка». Труды Национальной академии наук Соединенных Штатов Америки . 92 (22): 9977–9982. Bibcode : 1995PNAS...92.9977B. doi : 10.1073 /pnas.92.22.9977 . PMC 40721. PMID 7479812.
Стивен Берд, Эван Кляйн и Эдвард Лопер (2009). Обработка естественного языка с помощью Python . O'Reilly Media. ISBN 978-0-596-51649-9 .
Кенна Хьюз-Каслберри, «Загадка убийства: литературная головоломка « Челюсть Каина» , которая десятилетиями ставила людей в тупик, раскрывает ограничения алгоритмов обработки естественного языка», Scientific American , т. 329, № 4 (ноябрь 2023 г.), стр. 81–82. «Это соревнование по расследованию убийства показало, что, хотя модели НЛП ( обработки естественного языка ) способны на невероятные подвиги, их возможности во многом ограничены объемом контекста , который они получают. Это [...] может вызвать [трудности] для исследователей, которые надеются использовать их для таких вещей, как анализ древних языков . В некоторых случаях существует мало исторических записей о давно исчезнувших цивилизациях, которые могли бы служить учебными данными для такой цели». (стр. 82.)
Дэниел Джурафски и Джеймс Х. Мартин (2008). Обработка речи и языка , 2-е издание. Pearson Prentice Hall. ISBN 978-0-13-187321-6 .
Мохамед Закария Курди (2016). Обработка естественного языка и компьютерная лингвистика: речь, морфология и синтаксис , том 1. ISTE-Wiley. ISBN 978-1848218482 .
Мохамед Закария Курди (2017). Обработка естественного языка и компьютерная лингвистика: семантика, дискурс и приложения , том 2. ISTE-Wiley. ISBN 978-1848219212 .
Кристофер Д. Мэннинг, Прабхакар Рагхаван и Хинрих Шютце (2008). Введение в информационный поиск . Cambridge University Press. ISBN 978-0-521-86571-5 . Официальные версии html и pdf доступны бесплатно.
Кристофер Д. Мэннинг и Хинрих Шютце (1999). Основы статистической обработки естественного языка . Издательство MIT. ISBN 978-0-262-13360-9 .
Дэвид М. В. Пауэрс и Кристофер К. Р. Турк (1989). Машинное обучение естественному языку . Springer-Verlag. ISBN 978-0-387-19557-5 .

Внешние ссылки

Медиа, связанные с обработкой естественного языка на Wikimedia Commons