Корпус арабского языка Корана ( арабский : المدونة القرآنية العربية , латинизированный : аль-модвана аль-Курани аль-Арабия ) представляет собой аннотированный лингвистический ресурс, состоящий из 77 430 слов коранического арабского языка. Целью проекта является предоставление морфологических и синтаксических аннотаций исследователям, желающим изучить язык Корана. [1] [2] [3] [4] [5]
Функции
Грамматический анализ помогает читателям глубже раскрыть подробные предполагаемые значения каждого стиха и предложения. Каждое слово Корана помечено его частью речи, а также несколькими морфологическими признаками. В отличие от других аннотированных арабских корпусов, грамматическая структура, принятая в Кораническом корпусе, является традиционной арабской грамматикой i'rab ( إﻋﺮﺍﺏ ). Исследовательский проект возглавляет Кайс Дьюкс из Университета Лидса [4] , и он является частью исследовательской группы по вычислительной технике арабского языка в Школе вычислительной техники под руководством Эрика Этвелла [6] .
Аннотированный корпус включает в себя: [1] [7]
Проверенный вручную корпус арабских текстов Корана с разметкой частей речи .
Аннотированный древовидный банк коранических текстов на арабском языке.
Новая визуализация традиционной арабской грамматики посредством графиков зависимостей.
Морфологический поиск Корана.
Машиночитаемый морфологический словарь коранических слов на английском языке.
Конкорданс частей речи для коранического арабского языка, организованный по леммам.
Онлайн-доска объявлений для добровольцев сообщества.
Аннотация корпуса присваивает каждому слову тег части речи и морфологические признаки. Например, аннотация включает в себя решение о том, является ли слово существительным или глаголом, и склоняется ли оно к мужскому или женскому роду. Первый этап проекта включал автоматическую маркировку частей речи путем применения к тексту технологии вычисления арабского языка. Затем аннотация для каждого из 77 430 слов в Коране была поэтапно проверена двумя аннотаторами, и улучшения все еще продолжаются для дальнейшего повышения точности.
Лингвистическое исследование Корана, использующее аннотированный корпус, включает в себя обучение скрытых марковских тегов частей речи для арабского языка, [8] автоматическую категоризацию глав Корана [9] и просодический анализ текста. [10]
Кроме того, проект предоставляет дословный перевод Корана на основе принятых английских источников, вместо создания нового перевода Корана. [4]
^ ab K. Dukes, E. Atwell и N. Habash (2011). Руководимое сотрудничество по синтаксической аннотации коранического арабского языка. Журнал языковых ресурсов и оценки (LREJ). Специальный выпуск по совместно созданным языковым ресурсам.
^ Руководил совместной работой по синтаксической аннотации арабского текста Корана в ResearchGate . Загружено Низаром Хабашем, Колумбийский университет .
^ K. Dukes и T. Buckwalter (2010). Дерево зависимостей Корана с использованием традиционной арабской грамматики. В трудах 7-й Международной конференции по информатике и системам (INFOS). Каир, Египет.
^ abc Коранический арабский корпус. Архивировано 23 февраля 2013 г. на Wayback Machine в The Muslim Tribune. 20 июня 2011 г.
^ Эрик Этвелл, Клэр Брайерли, Кайс Дьюкс, Маджди Савалха и Абдул-Баки Шараф. Подход искусственного интеллекта к арабскому и исламскому контенту в Интернете [ постоянная мертвая ссылка ] , стр. 2. Эр-Рияд : Университет короля Сауда , 2011.
^ Инженерное дело. «Профиль доктора Эрика Этвелла — Школа вычислительной техники — Университет Лидса». www.comp.leeds.ac.uk .
^ K. Dukes и Habash, N. (2011). Одношаговый статистический анализ гибридных синтаксических представлений зависимости-избирательности. Международная конференция по технологиям анализа (IWPT). Дублин, Ирландия.
^ М. Альбаред, Н. Омар и М. Аб Азиз (2011). Разработка конкурентоспособного HMM арабского POS-теггера с использованием малого учебного корпуса. Интеллектуальные информационные системы и системы баз данных. Springer Berlin, Гейдельберг.
^ AM Sharaf и E. Atwell (2011). Автоматическая категоризация глав Корана. 7-я Международная компьютерная конференция на арабском языке (ICCA11). Эр-Рияд, Саудовская Аравия.
^ C. Brierley, M. Sawalha и E. Atwell (2012). Boundary Annotated Qur'an Corpus for Arabic Phrase Break Prediction. Архивировано 15 декабря 2018 г. на ежегодном симпозиуме Wayback Machine IVACS. Кембридж.