В арабском письме имеется множество диакритических знаков , в том числе указывающие на согласные, известные как иджам ( إِعْجَام ), и дополнительные диакритические знаки, известные как ташкил ( تَشْكِيل ). Последние включают в себя знаки гласных, называемые харакат ( حَرَكَات ; единственное число: حَرَكَة , харака ).
Арабское письмо представляет собой модифицированный абджад , в котором короткие согласные и долгие гласные представлены буквами, а короткие гласные и длина согласного обычно не указываются в письменной форме. Ташкил не является обязательным для обозначения отсутствующих гласных и длины согласного. В современном арабском языке всегда используется иджам — указание на согласную, но только религиозные тексты, детские книги и произведения для учащихся пишутся с полным ташкилом — указателем гласных и длиной согласной. Однако авторы нередко добавляют диакритические знаки к слову или букве, когда грамматический падеж или значение в противном случае считаются неоднозначными. Кроме того, классические произведения и исторические документы, представляемые широкой публике, часто передаются с полным ташкилом , чтобы компенсировать пробел в понимании, возникший в результате стилистических изменений на протяжении веков.
Буквальное значение слова تَشْكِيل ташкил – «формирование». Поскольку обычный арабский текст не дает достаточно информации о правильном произношении, основная цель ташкила (и хараката ) — предоставить фонетическое руководство или фонетическую помощь; т.е. показывать правильное произношение детям, которые учатся читать, или изучающим иностранные языки.
Большая часть арабского письма написана без хараката (или кратких гласных). Однако они обычно используются в текстах, требующих строгого соблюдения точного произношения. Это справедливо, прежде всего, в отношении Корана ⟨ ٱلْقُرْآن ⟩ ( аль-Коран ) и поэзии . Также довольно распространено добавление хараката к хадисам ⟨ ٱلْحَدِيث ⟩ ( аль-хадис ; множественное число: аль-хадис ) и Библии . Другое применение - в детской литературе. Более того, харакат используется в обычных текстах отдельными словами, когда двусмысленность произношения не может быть легко разрешена только на основе контекста. Словари арабского языка со знаками гласных предоставляют информацию о правильном произношении как носителям арабского языка, так и иностранцам. В искусстве и каллиграфии харакат можно использовать просто потому, что его написание считается эстетически приятным .
Пример полностью огласованного ( огласованного или огласованного ) арабского языка из Бисмиллы :
بِسْمِ ٱللَّٰهِ ٱلرَّحْمَٰنِ ٱلرَّحِيمِ
бисми -ллахи р-рахмани р-рахим !
Во имя Бога Всемилостивого, Особенно Милосердного.
В некоторых учебниках арабского языка для иностранцев харакат теперь используется в качестве фонетического руководства, чтобы облегчить изучение арабского языка. Другой метод, используемый в учебниках, - это фонетическая латинизация неозвученных текстов. Полностью озвученные арабские тексты (т.е. арабские тексты с харакатом /диакритическими знаками) востребованы изучающими арабский язык. Некоторые двуязычные онлайн-словари также предоставляют харакат в качестве фонетического руководства, аналогично английским словарям, обеспечивающим транскрипцию.
Харакат حَرَكَات , что буквально означает «движения» , представляет собой краткие гласные знаки. Существует некоторая неясность относительно того, какие ташкилы также являются харакатом ; Танвин , например, являются маркерами как гласных, так и согласных .
Фатха ⟨ فَتْحَة ⟩ — это небольшая диагональная линия, расположенная над буквой и обозначающая короткий звук /a/ ( как звук /a/ в английском слове «кошка»). Само слово фатха ( فَتْحَة ) означает «открытие» и относится к открытию рта при произнесении /а/ . Например, с dāl (далее – основная согласная в следующих примерах): ⟨ دَ ⟩ /da/ .
Когда фетха ставится перед простой буквой ⟨ ا ⟩ ( алиф ) (т.е. буквой, не имеющей собственной хамзы или гласной), она представляет собой длинный /aː/ (близкий к звуку «а» в английском слове «папа»). ", с открытой гласной переднего ряда /æː/, а не задней /ɑː/, как в "отец"). Например: ⟨ دَا ⟩ /daː/ . В таких случаях фетха обычно не пишется. Когда фатх ставится перед буквой ⟨ ﻱ ⟩ (йа'), образуется /aj/ (как в «l ie »); а если поставить перед буквой ⟨ و ⟩ (wāw), то образуется /aw/ (как в «cow » ).
Хотя в сочетании с простой буквой образуется открытая гласная переднего ряда (/a/), часто реализуемая как почти открытая (/ æ /), стандарт также допускает вариации, особенно в определенных окружающих условиях. Обычно, чтобы иметь более центральное (/ ä /) или заднее (/ ɑ /) произношение, слово включает ближайший задний согласный, такой как эмфатические знаки, а также qāf или rā' . Аналогичному «заднему» качеству подвергаются и другие гласные в присутствии таких согласных, однако это не так резко проявляется, как в случае с фатхой . [1] [2] [3]
Подобная диагональная линия под буквой называется касра ⟨ كَسْرَة ⟩ и обозначает короткий /i/ (как в «мне», «быть») и его аллофоны [i, ɪ, e, e̞, ɛ] (как в « Тим», «сидеть»). Например: ⟨ دِ ⟩ /ди/ . [4]
Когда касра ставится перед простой буквой ⟨ ﻱ ⟩ ( yā' ), она представляет собой длинный /iː/ (как в английском слове «конь»). Например: ⟨ دِي ⟩ /diː/ . Касра в таких случаях обычно не пишется, но если «йа» произносится как дифтонг /адж/ , то фатха следует писать на предшествующей согласной, чтобы избежать неправильного произношения . Слово Касра означает «ломка». [1]
Камма ⟨ ضَمَّة ⟩ — небольшой диакритический знак в виде завитка, помещенный над буквой для обозначения короткого / u / (как в «герцог», более короткого «вы») и его аллофонов [u, ʊ, o, o̞, ɔ] ( как в «путе» или «быке»). Например: ⟨ دُ ⟩ /du/ . [4]
Когда Хамма ставится перед простой буквой ⟨ و ⟩ ( вав ), она представляет собой длинный звук /uː/ (как звук «оо» в английском слове «swoop»). Например: ⟨ دُو ⟩ /duː/ . Хамма в таких случаях обычно не пишется, но если wāw произносится как дифтонг /aw/ , то фатха следует писать на предшествующей согласной, чтобы избежать неправильного произношения. [1]
Слово Хамма (ضَمَّة) в данном контексте означает округление , поскольку это единственная округленная гласная в списке гласных арабского языка.
Надстрочный индекс (или кинжал) алиф ⟨ أَلِف خَنْجَرِيَّة ⟩ ( алиф ханджария ) пишется как короткая вертикальная черта поверх согласной. Он указывает на длинный звук /aː/ , для которого алиф обычно не пишется. Например: ⟨ هَٰذَا ⟩ ( хадха ) или ⟨ رَحْمَٰن ⟩ ( рахман ).
Кинжал алиф встречается всего в нескольких словах, но среди них есть и распространенные; однако его редко пишут, даже в полностью озвученных текстах. Большинство клавиатур не имеют Dagger Alif . Слово Аллах ⟨ الله ⟩ ( Аллах ) обычно создается автоматически при вводе алиф лам лам ха' . Слово состоит из алиф + лигатуры двойного лам с шаддой и кинжалом алиф над лам .
Мадда ⟨ مَدَّة ⟩ — это диакритический знак в форме тильды , который может появляться только поверх алифа (آ) и указывает на гортанную точку /ʔ/ , за которой следует длинный /aː/ .
Теоретически, одна и та же последовательность /ʔaː/ также может быть представлена двумя алифами , как в * ⟨ أَا ⟩ , где хамза над первым алифом представляет /ʔ/ , а второй алиф представляет /aː/ . Однако последовательные алифы никогда не используются в арабской орфографии. Вместо этого эта последовательность всегда должна быть записана как один алиф с маддой над ним, комбинация, известная как алиф мадда . Например: ⟨ قُرْآن ⟩ /qurˈʔaːn/ .
Васлах ⟨ وَصْلَة ⟩ , алиф вааллах ⟨ أَلِف وَصْلَة ⟩ или хамзат вауль ⟨ هَمْزَة وَصْل ⟩ выглядит как маленькая буква ṣ ad поверх алифа ⟨ ٱ ⟩ ( также обозначается алифом ⟨ ا ⟩ без хамзы ) . Это означает, что алиф не произносится, если его слово не начинает предложение. Например: ⟨ بِٱسْمِ ⟩ ( бисми ), но ⟨ ٱمْشُوا۟ ⟩ ( имшу, а не мшу ). Это связано с тем, что ни одно арабское слово не может начинаться с согласной без гласной: если вторая буква слова «васла» имеет касару, то «алиф-васлах» дает звук /i/. Однако когда во второй букве есть дамма, получается звук /у/.
Встречается только в начале слов, но может встречаться и после предлогов и определенного артикля. Обычно он встречается в повелительных глаголах, в глагольных основах с VII по X и в их отглагольных существительных ( maṣdar ). Алиф определенного артикля считается васлахом .
Встречается во словосочетаниях и предложениях (связная речь, а не изолированные/словарные формы):
Как и надстрочный индекс алиф, он не пишется полностью озвученными буквами, за исключением священных текстов, таких как Коран и арабизированная Библия.
Сукун ⟨ سُكُونْ ⟩ — это диакритический знак в форме круга , помещенный над буквой ( ْ ). Это указывает на то, что за согласной, к которой она присоединяется, не следует гласная, т. е. нулевая гласная.
Это необходимый символ для написания согласных-гласных-согласных слогов, которые очень распространены в арабском языке. Например: ⟨ دَدْ ⟩ ( папа ).
Сукун также может использоваться для обозначения дифтонга . Фатха , за которой следует буква ⟨ ﻱ ⟩ ( йа ' ) с сукуном над ней ( ـَيْ ), указывает на дифтонг ай ( IPA /aj/ ). Фатха , за которой следует буква ⟨ ﻭ ⟩ ( вав ) с сукуном ( ـَوْ ), указывает на /aw/ .
Сукун также может иметь альтернативную форму маленькой высокой головы хаха ( U + 06E1 ۡ ), особенно в некоторых Коранах. Могут существовать и другие формы (например, маленькая запятая над ⟨ʼ⟩ или циркумфлекс ⟨ˆ⟩ в насталик ). [5]
Три диакритических знака гласных могут быть удвоены в конце слова, чтобы указать, что за гласной следует согласная n . Они могут считаться или не считаться харакатами и известны как танвин ⟨ تَنْوِين ⟩ , или нунация. Знаки обозначают слева направо -un, -in, -an .
Эти окончания используются как непаузальные грамматические окончания неопределенного падежа в литературном арабском языке или классическом арабском языке ( только триптоты ). В озвученном тексте они могут быть написаны, даже если они не произносятся (см. пауза ). См . Ираб для более подробной информации. Во многих разговорных арабских диалектах окончания отсутствуют. Во многих учебниках арабского языка стандартный арабский язык представлен без этих окончаний. Грамматические окончания могут не записываться в некоторых озвученных арабских текстах, поскольку знание ираба варьируется от страны к стране, и существует тенденция к упрощению арабской грамматики.
Знак ⟨ ـً ⟩ чаще всего пишется в сочетании с ⟨ ـًا ⟩ ( алиф ), ⟨ ةً ⟩ ( та' марбута ), ⟨ أً ⟩ (алиф хамза) или отдельно стоящим ⟨ ءً ⟩ ( хамза ). Всегда следует писать «Алиф» (за исключением слов, оканчивающихся на «та' марбута», «хамза » или «диптот»), даже если «а» нет. Грамматические падежи и окончания танвин в неопределенных триптотных формах:
Шадда или шадда ⟨ شَدَّة ⟩ ( шадда ), или ташдид ⟨ تَشْدِيد ⟩ ( ташдид ), представляет собой диакритический знак , имеющий форму маленькой письменной латинской буквы « w ».
Он используется для обозначения геминации (удвоения согласных или дополнительной длины), что в арабском языке является фонематическим. Оно пишется над согласной, которую нужно удвоить. Это единственная хараката , которая обычно используется в обычном написании во избежание двусмысленности . Например: ⟨ دّ ⟩ /dd/ ; медресе ⟨ مَدْرَسَة ⟩ («школа») против мударриса ⟨ مُدَرِّسَة ⟩ («учитель», женщина).
Иджам ⟨ إِعْجَام ⟩ (иногда также называемый nuqaṭ ) [6] - это диакритические точки, которые различают различные согласные, имеющие одинаковую форму ( rasm ), такие как ⟨ ـبـ ⟩ /b/ ب, ⟨ ـتـ ⟩ /t / ت , ⟨ ـثـ ⟩ /θ/ ث, ⟨ ـنـ ⟩ /n/ ن и ⟨ ـيـ ⟩ /j/ ي. Обычно иджам считаются не диакритическими знаками, а частью буквы.
Ранние рукописи Корана не использовали диакритические знаки ни для гласных, ни для различения различных значений расма . Сначала было введено указание на гласные в виде красной точки, расположенной над, под или рядом с развилкой , а позже было введено указание на согласные в виде тонких, коротких черных одиночных или нескольких черточек, помещенных над или под развилкой ( изображением). Эти иджамы стали черными точками примерно в то же время, когда харакат превратился в маленькие черные буквы или штрихи.
Обычно египтяне не используют точки в конце yā' ⟨ ي ⟩ , которое в рукописном и печатном виде выглядит точно так же, как алиф макура ⟨ ى ⟩ . Эта практика также используется в копиях мусхафа ( Корана ) , написанных Усманом Таха . Такое же объединение йа и алиф максура произошло в персидском языке , в результате чего в стандарте Юникода появилось то, что в стандарте Юникода называется « арабской буквой фарси йе », которая выглядит точно так же, как йа в начальной и средней формах, но точно так же, как алиф максура в конечной и средней формах. изолированные формы ⟨ یـ ـیـ ـی ⟩ .
В то время, когда иджам был необязательным, буквы без точек были двусмысленными. Чтобы уточнить, что в выделенном тексте букве не будет иджама (т. е. ⟨ ح ⟩ /ħ/ , ⟨ د ⟩ /d/ , ⟨ ر ⟩ /r/ , ⟨ س ⟩ /s/ , ⟨ ص ⟩ /sˤ/ , ⟨ ط ⟩ /tˤ/ , ⟨ ع ⟩ /ʕ/ , ⟨ ل ⟩ /l/ , ⟨ ه ⟩ /h/ ), буква может быть отмечена небольшим диакритическим знаком в форме буквы V или чайки выше, а также надстрочным полукругом (полумесяц), подстрочная точка (кроме случая ⟨ ح ⟩ ; с ⟨ س ⟩ использовались три точки ) или миниатюрная подстрочная буква самой буквы. Надстрочная черта, известная как джарра , напоминающая длинную фатху , использовалась для обозначения сокращенного (ассимилированного) греха . Таким образом, все ⟨ ڛ سۣ سۡ سٚ ⟩ использовались для обозначения того, что рассматриваемая буква действительно была ⟨ س ⟩ , а не ⟨ ش ⟩ . [7] Эти знаки, известные под общим названием «аламату-л-ихмал », до сих пор иногда используются в современной арабской каллиграфии либо по своей первоначальной цели (т.е. для обозначения букв без иджама ), либо часто как чисто декоративные заполнители пространства. Маленький ک над кафом в его окончательных и изолированных формах ⟨ ك ـك ⟩ изначально был аламату-л-ихмалом , который стал постоянной частью буквы. Раньше этот знак мог также появляться над средней формой каф , когда эта буква была написана без черточки на ее восходящей букве . Когда каф писался без этой черты, его можно было принять за лам , поэтому каф отличался надстрочным индексом каф или маленьким надстрочным индексом хамза ( набра ), а лам — надстрочным индексом лам ( лам-алиф-мим ). [8]
Хотя обычно диакритический знак не считается буквой алфавита, хамза هَمْزة ( хамза , гортанная остановка ) на письме часто выступает как отдельная буква, пишется в текстах без точек и не считается ташкилом . Оно может выглядеть как отдельная буква или как диакритический знак над или под алифом , вау или йа .
Какая буква будет использоваться для поддержки хамзы , зависит от качества соседних гласных;
Рассмотрим следующие слова: ⟨ أَخ ⟩ /ʔax/ («брат»), ⟨ إسْماعِيل ⟩ /ʔismaːʕiːl/ («Исмаил»), ⟨ أُمّ ⟩ /ʔumm/ («мать»). Все три приведенных выше слова «начинаются» с гласной, открывающей слог, и в каждом случае алиф используется для обозначения начальной голосовой остановки ( фактического начала). Но если мы рассмотрим средние слоги, «начинающиеся» с гласной: ⟨ نَشْأة ⟩ /naʃʔa/ («происхождение»), ⟨ أَفْئِدة ⟩ /ʔafʔida/ («сердечки» — обратите внимание на слог /ʔi/ ; единственное число ⟨ فُؤاد ⟩ /фуаад/ ), ⟨ رُؤُوس ⟩ /ruʔuːs/ («головы», единственное число ⟨ رَأْس ⟩ /raʔs/ ), ситуация иная, как отмечалось выше. Более подробную информацию можно найти в подробной статье о Хамзе .
Исторически арабское письмо было принято и использовалось во многих тональных языках, примеры включают Сяоэрцзин для китайского языка , а также сценарий Аджами, принятый для письма на различных языках Западной Африки. Однако одним из недостатков арабского языка, особенно по сравнению с латинским письмом или другими местными системами письменности, было то, что в арабском языке не было способа обозначения тонов.
Однако с принятием арабской письменности для языка рохинджа , известной как рохинджа фонна , были разработаны и используются в рукописях 3 тональных маркера. Эти маркеры тона являются частью стандартизированной и принятой орфографической конвенции рохинджа. Это единственный известный пример тональных маркеров в арабском письме . [9] [10]
Маркеры тона действуют как «модификаторы» диакритических знаков гласных. Проще говоря, это «диакритика для диакритики». Они пишутся «вне» слова, что означает, что они пишутся над диакритическим знаком гласной, если диакритический знак написан над словом, и они пишутся под диакритическим знаком, если диакритический знак написан под словом. Они пишутся только там, где есть диакритические знаки гласных. Это важно отметить, поскольку без присутствия диакритического знака невозможно отличить маркеры тона от иджама , то есть точек, которые используются для фонетического различения согласных.
Харбай , как его называют в рохинджа, представляет собой одну точку, которая ставится поверх слов Фатха и Хамма , или фигурная Фатха и курчавая Хамма (диакритические знаки гласных, уникальные для рохинхья), или их соответствующие версии Фатхатан и Хамматан , и она помещается под Касра или фигурная Касра или их соответствующая Касратанская версия. (например, دً࣪ / دٌ࣪ / دࣨ࣪ / دٍ࣭ ) Этот маркер тона обозначает короткий высокий тон ( /˥/ ). [9] [10]
Тела , как ее называют в рохинджа, представляет собой две точки, которые помещаются поверх Фатхи и Хаммы , или фигурной Фатхи и курчавой Хаммы , или их соответствующих версий Фатхатан и Хамматан , и помещаются под Касру или курчавую Касру , или их соответствующий Касратан. версия. (например , دَ࣫ / دُ࣫ / دِ࣮ ) Этот маркер тона указывает на длинный нисходящий тон ( /˥˩/ ). [9] [10]
Тана , как ее называют в рохинджа, представляет собой петлеобразную линию, похожую на рыбу, которая помещается поверх Фатхи и Хаммы , или вьющейся Фатхи и вьющейся Хаммы , или их соответствующих версий Фатхатана и Хамматана , и помещается под Касрой или курчавой Касрой . или их соответствующую версию Касратана . (например , دࣤ࣬ / دࣥ࣬ / دࣦ࣯ ) Этот маркер тона указывает на длинный восходящий тон ( /˨˦/ ). [9] [10]
Согласно традиции, первым, кто ввел систему хараката, был Али , который назначил для этой задачи Абу аль-Асвада ад-Дуали . Абу аль-Асвад разработал систему точек для обозначения трех коротких гласных (вместе с соответствующими аллофонами) арабского языка. Эта система точек предшествовала иджаму , точкам, используемым для различения разных согласных.
Система Хараката Абу аль-Асвада отличалась от системы, которую мы знаем сегодня. В системе использовались красные точки, где каждое расположение или позиция обозначали разные короткие гласные.
Точка над буквой обозначала гласную а , точка внизу обозначала гласную i , точка сбоку от буквы обозначала гласную u , а две точки обозначали танвин .
Однако в ранних рукописях Корана знаки гласных использовались не для каждой буквы, требующей их использования, а только для тех букв, где они были необходимы для правильного чтения.
Предшественником системы, которую мы знаем сегодня, является система Аль Фарахиди. аль-Фарахиди обнаружил, что задача письма двумя разными цветами была утомительной и непрактичной. Еще одна сложность заключалась в том, что к тому времени был введен иджам , который, хотя и представлял собой короткие штрихи, а не круглые точки, наблюдаемые сегодня, означал, что без различия цвета их можно было спутать.
Соответственно, он заменил харакат маленькими надстрочными буквами: маленький алиф, йа и вав для коротких гласных, соответствующих долгим гласным, написанным этими буквами, маленький с(х)ин для шадда (близнецов), маленький ха' для хафифа (короткий согласный; больше не используется). Его система, по сути, та, которую мы знаем сегодня. [11]
Процесс автоматического восстановления диакритических знаков называется диакритизацией или диакритическим восстановлением. Полезно избегать двусмысленности в таких приложениях, как машинный перевод на арабский язык , преобразование текста в речь и поиск информации . Разработаны алгоритмы автоматической диакритизации. [12] [13] Для современного стандартного арабского языка современный алгоритм имеет коэффициент ошибок в словах (WER) 4,79%. Наиболее распространенными ошибками являются имена собственные и падежные окончания . [14] Подобные алгоритмы существуют и для других разновидностей арабского языка . [15]