В арабском письме есть множество диакритических знаков , в том числе указывающие на согласные, известные как иджам ( إِعْجَام ), и дополнительные диакритические знаки, известные как ташкиль ( تَشْكِيل ). К последним относятся знаки гласных, называемые харакат ( حَرَكَات ; сг. حَرَكَة , харака ).
Арабское письмо представляет собой модифицированный абджад , где все буквы являются согласными, что позволяет читателю заполнять гласные звуки. Короткие согласные и долгие гласные представлены буквами, но короткие гласные и длительность согласных обычно не указываются на письме. Ташкиль является необязательным для представления отсутствующих гласных и длительности согласных. Современный арабский язык всегда пишется с помощью иджама — указания на согласные, но только религиозные тексты, детские книги и произведения для учащихся пишутся с помощью полного ташкиля — указателя гласных и длительности согласных. Однако нередко авторы добавляют диакритические знаки к слову или букве, когда грамматический падеж или значение считаются иным образом неоднозначными. Кроме того, классические произведения и исторические документы, представленные широкой публике, часто передаются с помощью полного ташкиля , чтобы компенсировать пробел в понимании, возникший в результате стилистических изменений на протяжении веков.
Буквальное значение تَشْكِيل tashkīl — «вариация». Поскольку обычный арабский текст не дает достаточно информации о правильном произношении, основная цель tashkīl (и ḥarakāt ) — предоставить фонетическое руководство или фонетическую помощь; т. е. показать правильное произношение для детей, которые учатся читать, или иностранных учащихся.
Большая часть арабского письма написана без харакат (или кратких гласных). Однако они обычно используются в текстах, требующих строгого соблюдения точного произношения. Это касается, прежде всего, Корана ⟨ ٱلْقُرْآن ⟩ ( al -Qurʾān ) и поэзии . Также довольно часто харакат добавляют в хадисы ⟨ ٱلْحَدِيث ⟩ ( al-ḥadīth ; множественное число: al-ḥādīth ) и Библию . Другое применение — детская литература. Более того, харакат используются в обычных текстах в отдельных словах, когда неоднозначность произношения не может быть легко разрешена только из контекста. Арабские словари с гласными предоставляют информацию о правильном произношении как носителям арабского языка, так и иностранцам. В искусстве и каллиграфии харакат может использоваться просто потому , что его написание считается эстетически приятным.
Пример полностью огласованного ( огласованного ) арабского слова из « Бисмиллах» :
بِسْمِ ٱللَّٰهِ ٱلرَّحْمَٰنِ ٱلرَّحِيمِ
бисми л-лахи р-рахмани р-рахим
Во имя Бога Всемилостивого, Особенно Милосердного.
Некоторые учебники арабского языка для иностранцев теперь используют харакат в качестве фонетического руководства, чтобы облегчить изучение чтения на арабском языке. Другой метод, используемый в учебниках, — фонетическая романизация невокализованных текстов. Полностью озвученные арабские тексты (т. е. арабские тексты с харакат /диакритическими знаками) востребованы изучающими арабский язык. Некоторые онлайн-двуязычные словари также предоставляют харакат в качестве фонетического руководства, подобно английским словарям, предоставляющим транскрипцию.
Harakāt حَرَكَات , что буквально означает «движения», — это короткие гласные знаки. Существует некоторая двусмысленность относительно того, какие tashkīl также являются harakāt ; tanwīn , например, являются маркерами как гласных, так и согласных .
Fatḥah ⟨ فَتْحَة ⟩ — это маленькая диагональная линия, расположенная над буквой, и представляющая собой краткий /a/ (как звук /a/ в английском слове "cat"). Само слово fatḥah ( فَتْحَة ) означает открытие и относится к открытию рта при произношении /a/ . Например, с dāl ( далее — базовый согласный в следующих примерах): ⟨ دَ ⟩ /da/ .
Когда фатха ставится перед простой буквой ⟨ ا ⟩ ( alif ) (т. е. не имеющей хамзы или собственной гласной), она представляет собой длинный /aː/ (близкий к звуку "a" в английском слове "dad", с открытым передним гласным /æː/, а не задним /ɑː/, как в "father"). Например: ⟨ دَا ⟩ /daː/ . Фатха обычно не пишется в таких случаях. Когда фатха ставится перед буквой ⟨ ﻱ ⟩ (yā'), она создает /aj/ (как в "l ie "); а когда ставится перед буквой ⟨ و ⟩ (wāw), она создает /aw/ (как в "c ow ").
Хотя в паре с простой буквой создается открытый передний гласный (/a/), часто реализуемый как почти открытый (/ æ /), стандарт также допускает вариации, особенно при определенных окружающих условиях. Обычно, чтобы иметь более центральное (/ ä /) или заднее (/ ɑ /) произношение, слово содержит соседний задний согласный, такой как эмфатический, а также qāf или rā' . Подобное «заднее» качество испытывают и другие гласные в присутствии таких согласных, однако не так радикально реализуется, как в случае fatḥah . [1] [2] [3]
Буквы «фатха » кодируются следующим образом: U+0618 ؘ АРАБСКАЯ СТРОЧНАЯ ФАТХА, U+064E َАРАБСКАЯ ФАТХА, U+FE76 ﹶАРАБСКАЯ ФАТХА ИЗОЛИРОВАННАЯ ФОРМАили U+FE77 ﹷАРАБСКАЯ ФАТХА СРЕДНЯЯ ФОРМА.
Подобная диагональная линия под буквой называется касрах ⟨ كَسْرَة ⟩ и обозначает краткий /i/ (как в «me», «be») и его аллофоны [i, ɪ, e, e̞, ɛ] (как в «Tim», «sit»). Например: ⟨ دِ ⟩ /di/ . [4]
Когда касрах ставится перед простой буквой ⟨ ﻱ ⟩ ( yā' ), он представляет собой длинный /iː/ (как в английском слове "steed"). Например: ⟨ دِي ⟩ /diː/ . Касра обычно не пишется в таких случаях, но если yā' произносится как дифтонг /aj/ , фатха должна быть написана на предыдущей букве, чтобы избежать неправильного произношения. Слово kasrah означает "ломка". [1]
Касра кодируется как U+061A ؚАРАБСКАЯ СТРОЧНАЯ КАСРА, U+0650 ِАРАБСКАЯ КАСРА, U+FE7A ﹺАРАБСКАЯ КАСРА ИЗОЛИРОВАННАЯ ФОРМАили U+FE7B ﹻАРАБСКАЯ КАСРА СРЕДНЯЯ ФОРМА.
ḍammah ⟨ ضَمَّة ⟩ — это небольшой диакритический знак в виде завитка, который ставится над буквой и представляет собой краткий /u/ (как в «duke», более короткий «you») и его аллофоны [u, ʊ, o, o̞, ɔ] (как в «put» или «bull»). Например: ⟨ دُ ⟩ /du/ . [4]
Когда ḍammah ставится перед простой буквой ⟨ و ⟩ ( wāw ), она представляет собой длинный /uː/ (как звук 'oo' в английском слове "swoop"). Например: ⟨ دُو ⟩ /duː/ . ḍammah обычно не пишется в таких случаях, но если wāw произносится как дифтонг /aw/ , fatḥah следует писать на предшествующей согласной, чтобы избежать неправильного произношения. [1]
Слово ḍammah (ضَمَّة) в данном контексте означает округление , поскольку это единственный округленный гласный в гласном инвентаре арабского языка.
Дамма кодируется как U+0619 ؙАРАБСКАЯ СТРОЧНАЯ ДАММА, U+064F ُАРАБСКАЯ ДАММА, U+FE78 ﹸАРАБСКАЯ ДАММА ИЗОЛИРОВАННАЯ ФОРМАили U+FE79 ﹹАРАБСКАЯ ДАММА СРЕДНЯЯ ФОРМА.
Надстрочный индекс (или кинжал) алиф ⟨ أَلِف خَنْجَرِيَّة ⟩ ( алиф ханджария ) пишется как короткая вертикальная черта поверх буквы. Он указывает на длинный звук /aː/, для которого алиф обычно не пишется. Например: ⟨ هَٰذَا ⟩ ( хадха ) или ⟨ رَحْمَٰن ⟩ ( рахман ).
Кинжал алиф встречается только в нескольких словах, но они включают в себя некоторые общие; однако он редко пишется, даже в полностью озвученных текстах. Большинство клавиатур не имеют кинжала алиф . Слово Аллах ⟨ الله ⟩ ( Аллах ) обычно получается автоматически путем ввода алиф лям лям хаʾ . Слово состоит из алиф + лигатура удвоенного лям с шаддой и кинжала алиф над лям , за которым следует ха' .
Мадда ⟨ مَدَّة ⟩ — это диакритический знак в форме тильды , который может стоять только над буквой алифа (آ) и обозначает гортанную смычку /ʔ/, за которой следует долгий /aː/ .
Теоретически, та же последовательность /ʔaː/ может быть представлена двумя алифами , как в * ⟨ أَا ⟩ , где хамза над первым алифом представляет /ʔ/, а второй алиф представляет /aː/ . Однако последовательные алифы никогда не используются в арабской орфографии. Вместо этого эта последовательность всегда должна быть записана как один алиф с маддой над ним, комбинация, известная как алиф мадда . Например: ⟨ قُرْآن ⟩ /qurˈʔaːn/ .
В коранических писаниях маддах ставится на любую другую букву, чтобы обозначить название буквы, хотя некоторые буквы могут иметь кинжал алиф . Например: ⟨ لٓمٓصٓ ⟩ ( lām - mīm - ṣād ) или ⟨ يـٰسٓ ⟩ ( yāʼ-sīn)
Васла ⟨ وَصْلَة ⟩ , алиф васла ⟨ أَلِف وَصْلَة ⟩ или хамзат васл ⟨ هَمْزَة وَصْل ⟩ выглядит как головка маленького сада на вершине алифа ⟨ ٱ ⟩ (также обозначается алифом ⟨ ا ⟩ без хамзы ) . Это означает, что алиф не произносится, когда его слово не начинает предложение. Например: ⟨ بِٱسْمِ ⟩ ( bismi ), но ⟨ ٱمْشُوا۟ ⟩ ( imshū не mshū ). Это потому, что в арабском языке за первой согласной в слове всегда должен следовать гласный звук: Если вторая буква от васла имеет касру, алиф-васла дает звук /и/. Однако, когда вторая буква от него имеет дамму, она дает звук /у/.
Он встречается только в начале слов, но может встречаться после предлогов и определенного артикля. Он обычно встречается в повелительных глаголах, совершенном виде глагольных основ VII–X и их глагольных существительных ( maṣdar ). Алиф определенного артикля считается васлахом .
Встречается в словосочетаниях и предложениях (связная речь, а не изолированные/словарные формы):
Как и надстрочный знак алиф, он не используется в полностью огласованных шрифтах, за исключением священных текстов, таких как Коран и арабизированная Библия.
Сукун ⟨ سُكُونْ ⟩ — это круглый диакритический знак, который ставится над буквой ( ْ ). Он указывает на то, что за буквой, к которой он прикреплён, не следует гласная, т. е. нулевая гласная.
Это необходимый символ для записи согласных-гласных-согласных слогов, которые очень распространены в арабском языке. Например: ⟨ دَدْ ⟩ ( dad ).
Сукун также может использоваться для представления дифтонга. Фатха , за которой следует буква ⟨ ﻱ ⟩ ( yā' ) с сукуном над ней ( ـَيْ ), обозначает дифтонг ay ( IPA /aj/ ). Фатха , за которой следует буква ⟨ ﻭ ⟩ ( wāw ) с сукуном ( ـَوْ ) , обозначает / aw/ .
Сукуны кодируются U+0652 ْАРАБСКИЙ СУКУН, U+FE7E ﹾАРАБСКИЙ СУКУН ИЗОЛИРОВАННАЯ ФОРМАили U+FE7F ﹿАРАБСКИЙ СУКУН СРЕДНЯЯ ФОРМА.
Сукун может также иметь альтернативную форму маленькой высокой головки ḥāʾ ( U+06E1 ۡ ARABIC SMALL HIGH DOLTLESS HEAD OF KHAH ), особенно в некоторых Коранах. Могут существовать и другие формы (например, как маленькая запятая над ⟨ʼ⟩ или как циркумфлекс ⟨ˆ⟩ в настаʿлик ) . [5]
Три гласных диакритических знака могут быть удвоены в конце слова, чтобы указать, что за гласным следует согласный n . Они могут считаться или не считаться харакатами и известны как tanwīn ⟨ تَنْوِين ⟩ , или нунация. Знаки указывают слева направо -an, -in, -un .
Эти окончания используются как непаузальные грамматические окончания неопределенного падежа в литературном арабском языке или классическом арабском языке ( только триптоты ). В озвученном тексте они могут быть написаны, даже если они не произносятся (см. pausa ). См. i'rāb для получения более подробной информации. Во многих разговорных арабских диалектах окончания отсутствуют. Во многих учебниках арабского языка стандартный арабский язык вводится без этих окончаний. Грамматические окончания могут не быть написаны в некоторых озвученных арабских текстах, поскольку знание i'rāb различается от страны к стране, и существует тенденция к упрощению арабской грамматики.
Знак ⟨ ـً ⟩ чаще всего пишется в сочетании с ⟨ ـًا ⟩ ( alif ), ⟨ ةً ⟩ ( tā' marbūṭah ), ⟨ أً ⟩ (alif hamzah) или отдельно ⟨ ءً ⟩ ( hamzah ). Alif всегда следует писать (за исключением слов, оканчивающихся на tā' marbūṭah, hamzah или diptotes), даже если an не пишется. Грамматические падежи и окончания tanwīn в неопределенных формах triptote:
Шадда или шадда ⟨ شَدَّة ⟩ ( шадда ), или ташдид ⟨ تَشْدِيد ⟩ ( ташдид ), представляет собой диакритический знак , имеющий форму маленькой письменной латинской буквы « w ».
Он используется для обозначения геминации (удвоения согласного или дополнительной длины), что является фонематическим в арабском языке. Он пишется над согласным, который должен быть удвоен. Это единственный харакат , который обычно используется в обычном написании, чтобы избежать двусмысленности . Например: ⟨ دّ ⟩ /dd/ ; медресе ⟨ مَدْرَسَة ⟩ ('школа') против мударриса ⟨ مُدَرِّسَة ⟩ ('учитель', женщина). Обратите внимание, что когда удвоенная буква содержит гласную, то гласная присоединяется к шадде, а не к самой букве: ⟨ دَّ ⟩ /dda/ , ⟨ دِّ ⟩ /ddi/ .
Шадда кодируется U+0651 ّАРАБСКИЙ ШАДДА, U+FE7C ﹼАРАБСКИЙ ШАДДА ИЗОЛИРОВАННАЯ ФОРМАили U+FE7D ﹽАРАБСКИЙ ШАДДА СРЕДНЯЯ ФОРМА.
Иджам ( إِعْجَام ; иногда также называемый нукат ) [6] — это диакритические знаки, которые различают различные согласные, имеющие одинаковую форму ( расм ), такие как ⟨ ص ⟩ /sˤ/ , ⟨ ض ⟩ /dˤ/ . Обычно иджам не считаются диакритическими знаками , а частью буквы.
Ранние рукописи Корана не использовали диакритические знаки ни для гласных, ни для различения различных значений расма . Сначала было введено обозначение гласных в виде красной точки, помещаемой над, под или рядом с расмом , а позже было введено обозначение согласных в виде тонких, коротких черных одиночных или множественных черточек, помещаемых над или под расмом . Эти иджамы стали черными точками примерно в то же время, когда харакат стали маленькими черными буквами или штрихами.
Обычно египтяне не используют точки под конечной йа ( ي ), которая выглядит точно так же, как алиф максура ( ى ) в рукописном и печатном виде. Эта практика также используется в копиях мусхафа ( Корана ) , написанных 'Усманом Таха . Такое же объединение йа и алиф максура произошло в персидском языке , в результате чего появилось то, что стандарт Unicode называет « арабской буквой фарси йе », которая выглядит точно так же, как йа в начальной и средней формах, но точно так же, как алиф максура в конечной и изолированной формах.
В то время, когда иджам был необязательным, незаостренные буквы были неоднозначны. Чтобы прояснить, что буква будет отсутствовать иджам в заостренном тексте, буква могла быть отмечена небольшим v-образным или чайкообразным диакритическим знаком сверху, а также надстрочным полукругом (полумесяцем), подстрочной точкой (за исключением случая ⟨ ح ⟩ ; три точки использовались с ⟨ س ⟩ ) или подстрочной миниатюрой самой буквы. Надстрочный штрих, известный как jarrah , напоминающий длинную fatħah , использовался для сокращенного (ассимилированного) sin . Таким образом, ⟨ ڛ سۣ سۡ سٚ ⟩ использовались для указания того, что рассматриваемая буква была действительно ⟨ س ⟩ , а не ⟨ ش ⟩ . [7] Эти знаки, известные под общим названием 'alāmātu-l-ihmāl , до сих пор иногда используются в современной арабской каллиграфии , либо по своему первоначальному назначению (т. е. для обозначения букв без иджама ), либо часто как чисто декоративные заполнители пространства. Маленький ک над кафом в его конечных и изолированных формах ⟨ ك ـك ⟩ изначально был 'alāmatu-l-ihmāl , который стал постоянной частью буквы. Ранее этот знак также мог появляться над средней формой каф , когда эта буква писалась без штриха на ее выносном элементе . Когда каф писался без этого штриха, его можно было принять за лам , поэтому каф отличался надстрочным индексом каф или маленьким надстрочным индексом хамза ( набрах ), а лам — надстрочным индексом лам ( лам-алиф-мим ). [8]
Хотя обычно это иногда не считается буквой алфавита, хамза هَمْزة ( хамза , гортанная смычка ), часто стоит как отдельная буква на письме, пишется в текстах без точек и не считается ташкилем . Она может появляться как буква сама по себе или как диакритический знак над или под алифом , вавом или йа .
То, какая буква должна использоваться для поддержки хамзы, зависит от качества соседних гласных и ее расположения в слове;
Рассмотрим следующие слова: ⟨ أَخ ⟩ /ʔax/ («брат»), ⟨ إسْماعِيل ⟩ /ʔismaːʕiːl/ («Исмаил»), ⟨ أُمّ ⟩ /ʔumm/ («мать»). Все три приведенных выше слова «начинаются» с гласной, открывающей слог, и в каждом случае алиф используется для обозначения начальной гортанной остановки ( фактического начала). Но если мы рассмотрим средние слоги, «начинающиеся» с гласной: ⟨ نَشْأة ⟩ /naʃʔa/ («происхождение»), ⟨ أَفْئِدة ⟩ /ʔafʔida/ («сердца» — обратите внимание на слог /ʔi/ ; единственное число ⟨ فُؤاد ⟩ / fuʔaːd/ ), ⟨ رُؤُوس ⟩ /ruʔuːs/ («головы», единственное число ⟨ رَأْس ⟩ /raʔs/ ), то ситуация будет иной, как отмечено выше. Подробнее см. в подробной статье о хамзе .
Диакритические знаки, не используемые в современном стандартном арабском языке, но используемые в других языках, использующих арабскую графику, а иногда и для записи арабских диалектов, включают (список не является исчерпывающим):
Исторически арабское письмо было принято и использовалось многими тональными языками, примерами служат сяоэрцзин для мандаринского китайского языка , а также письмо аджами, принятое для записи различных языков Западной Африки. Однако арабское письмо никогда не имело собственного способа представления тонов, пока не было адаптировано для языка рохинджа . Фонна рохинджа — это 3 тоновых маркера, которые являются частью стандартизированной и принятой орфографической конвенции рохинджа. Это остается единственным известным примером тоновых маркеров в арабском письме . [14] [15]
Маркеры тона действуют как «модификаторы» диакритических знаков гласных. Проще говоря, они являются «диакритическими знаками для диакритических знаков». Они пишутся «снаружи» слова, то есть они пишутся над диакритическим знаком гласных, если диакритический знак написан над словом, и они пишутся под диакритическим знаком, если диакритический знак написан под словом. Они пишутся только там, где есть диакритические знаки гласных. Это важно отметить, так как без диакритического знака невозможно отличить маркеры тона от I'jām , т. е. точек, которые используются для фонетического различения согласных.
Харбай
Харбай , как его называют рохинджа, — это одна точка, которая ставится над Fatḥah и Ḍammah , или завитой Fatḥah и завитой Ḍammah (гласные диакритические знаки, уникальные для рохинджа), или их соответствующими версиями Fatḥatan и Ḍammatan , и ставится под Kasrah или завитой Kasrah , или их соответствующей версией Kasratan . (например, دً࣪ / دٌ࣪ / دࣨ࣪ / دٍ࣭ ) Этот маркер тона указывает на короткий высокий тон ( /˥/ ). [14] [15]
Тела
Тела , как ее называют в рохинджа, — это две точки, которые ставятся над Fatḥah и Ḍammah , или завитой Fatḥah и завитой Ḍammah , или их соответствующими версиями Fatḥatan и Ḍammatan , и ставятся под Kasrah или завитой Kasrah , или их соответствующей версией Kasratan . (например, دَ࣫ / دُ࣫ / دِ࣮ ) Этот маркер тона указывает на долгий нисходящий тон ( /˥˩/ ). [14] [15]
Тана
Тана , как ее называют в рохинджа, представляет собой петлеобразную линию, похожую на рыбу, которая помещается поверх Fatḥah и Ḍammah , или завитой Fatḥah и завитой Ḍammah , или их соответствующих версий Fatḥatan и Ḍammatan , и помещается под Kasrah или завитой Kasrah , или их соответствующей версией Kasratan . (например, دࣤ࣬ / دࣥ࣬ / دࣦ࣯ ) Этот маркер тона указывает на долгий восходящий тон ( /˨˦/ ). [14] [15]
Согласно традиции, первым, кто ввел систему хараката, был Али , который назначил Абу аль-Асвада ад-Дуали для этой задачи. Абу аль-Асвад придумал систему точек для обозначения трех кратких гласных (вместе с соответствующими им аллофонами) арабского языка. Эта система точек предшествовала иджаму , точкам, используемым для различения разных согласных.
Система Харакат Абу аль-Асвада отличалась от системы, которую мы знаем сегодня. Система использовала красные точки, и каждое расположение или позиция указывали на другую краткую гласную.
Точка над буквой обозначала гласную «а» , точка под ней обозначала гласную « и» , точка сбоку от буквы обозначала гласную « у» , а две точки обозначали танвин .
Однако в ранних рукописях Корана знаки гласных использовались не для каждой буквы, где они требовались, а только для тех букв, где они были необходимы для правильного прочтения.
Предшественником системы, которую мы знаем сегодня, является система Аль-Фарахиди. Аль-Фарахиди обнаружил, что задача письма с использованием двух разных цветов была утомительной и непрактичной. Еще одной сложностью было то, что к тому времени уже был введен иджам , который, хотя и представлял собой короткие штрихи, а не круглые точки, которые мы видим сегодня, означал, что без различия цветов их можно было спутать.
Соответственно, он заменил харакат маленькими надстрочными буквами: маленькими алиф, йа' и вав для кратких гласных, соответствующих долгим гласным, записанным этими буквами, маленькой с(х)ин для шадда (удвоенный), маленькой ха' для хафифа (короткий согласный; больше не используется). Его система по сути та, которую мы знаем сегодня. [17]
Процесс автоматического восстановления диакритических знаков называется диакритизацией или восстановлением диакритических знаков. Это полезно для избежания двусмысленности в таких приложениях, как арабский машинный перевод , преобразование текста в речь и поиск информации . Были разработаны алгоритмы автоматической диакритической расстановки. [18] [19] Для современного стандартного арабского языка современный алгоритм имеет коэффициент ошибок в словах (WER) 4,79%. Наиболее распространенными ошибками являются собственные имена и окончания падежей . [20] Аналогичные алгоритмы существуют и для других разновидностей арабского языка . [21]
{{cite book}}
: CS1 maint: проигнорированы ошибки ISBN ( ссылка )