stringtranslate.com

Корпус арабского Корана

Синтаксическое дерево зависимости для стиха (67:1)

Корпус арабского языка Корана ( арабский : المدونة القرآنية العربية , латинизированныйаль-модвана аль-Курани аль-Арабия ) представляет собой аннотированный лингвистический ресурс, состоящий из 77 430 слов коранического арабского языка. Целью проекта является предоставление морфологических и синтаксических аннотаций исследователям, желающим изучить язык Корана. [1] [2] [3] [4] [5]

Функции

Грамматический анализ помогает читателям глубже раскрыть подробные предполагаемые значения каждого стиха и предложения. Каждое слово Корана помечено его частью речи, а также несколькими морфологическими признаками. В отличие от других аннотированных арабских корпусов, грамматическая структура, принятая в Кораническом корпусе, является традиционной арабской грамматикой i'rab ( إﻋﺮﺍﺏ ). Исследовательский проект возглавляет Кайс Дьюкс из Университета Лидса [4] , и он является частью исследовательской группы по вычислительной технике арабского языка в Школе вычислительной техники под руководством Эрика Этвелла [6] .

Аннотированный корпус включает в себя: [1] [7]

Аннотация корпуса присваивает каждому слову тег части речи и морфологические признаки. Например, аннотация включает в себя решение о том, является ли слово существительным или глаголом, и склоняется ли оно к мужскому или женскому роду. Первый этап проекта включал автоматическую маркировку частей речи путем применения к тексту технологии вычисления арабского языка. Затем аннотация для каждого из 77 430 слов в Коране была поэтапно проверена двумя аннотаторами, и улучшения все еще продолжаются для дальнейшего повышения точности.

Лингвистическое исследование Корана, использующее аннотированный корпус, включает в себя обучение скрытых марковских тегов частей речи для арабского языка, [8] автоматическую категоризацию глав Корана [9] и просодический анализ текста. [10]

Кроме того, проект предоставляет дословный перевод Корана на основе принятых английских источников, вместо создания нового перевода Корана. [4]

Смотрите также

Ссылки

  1. ^ ab K. Dukes, E. Atwell и N. Habash (2011). Руководимое сотрудничество по синтаксической аннотации коранического арабского языка. Журнал языковых ресурсов и оценки (LREJ). Специальный выпуск по совместно созданным языковым ресурсам.
  2. ^ Руководил совместной работой по синтаксической аннотации арабского текста Корана в ResearchGate . Загружено Низаром Хабашем, Колумбийский университет .
  3. ^ K. Dukes и T. Buckwalter (2010). Дерево зависимостей Корана с использованием традиционной арабской грамматики. В трудах 7-й Международной конференции по информатике и системам (INFOS). Каир, Египет.
  4. ^ abc Коранический арабский корпус. Архивировано 23 февраля 2013 г. на Wayback Machine в The Muslim Tribune. 20 июня 2011 г.
  5. ^ Эрик Этвелл, Клэр Брайерли, Кайс Дьюкс, Маджди Савалха и Абдул-Баки Шараф. Подход искусственного интеллекта к арабскому и исламскому контенту в Интернете [ постоянная мертвая ссылка ] , стр. 2. Эр-Рияд : Университет короля Сауда , 2011.
  6. ^ Инженерное дело. «Профиль доктора Эрика Этвелла — Школа вычислительной техники — Университет Лидса». www.comp.leeds.ac.uk .
  7. ^ K. Dukes и Habash, N. (2011). Одношаговый статистический анализ гибридных синтаксических представлений зависимости-избирательности. Международная конференция по технологиям анализа (IWPT). Дублин, Ирландия.
  8. ^ М. Альбаред, Н. Омар и М. Аб Азиз (2011). Разработка конкурентоспособного HMM арабского POS-теггера с использованием малого учебного корпуса. Интеллектуальные информационные системы и системы баз данных. Springer Berlin, Гейдельберг.
  9. ^ AM Sharaf и E. Atwell (2011). Автоматическая категоризация глав Корана. 7-я Международная компьютерная конференция на арабском языке (ICCA11). Эр-Рияд, Саудовская Аравия.
  10. ^ C. Brierley, M. Sawalha и E. Atwell (2012). Boundary Annotated Qur'an Corpus for Arabic Phrase Break Prediction. Архивировано 15 декабря 2018 г. на ежегодном симпозиуме Wayback Machine IVACS. Кембридж.

Внешние ссылки