В лингвистике графема — наименьшая функциональная единица системы письма . [1] Слово графема происходит от древнегреческого gráphō ('писать'), а суффикс -eme по аналогии с фонемой и другими эмическими единицами . Изучение графем называется графемикой . Понятие графемы является абстрактным и похоже на понятие в вычислении символа . Для сравнения, конкретная форма , которая представляет любую конкретную графему в данном шрифте, называется глифом .
Существуют две основные противоположные концепции графем. [2]
В так называемой референтной концепции графемы интерпретируются как наименьшие единицы письма, которые соответствуют звукам (точнее фонемам ). В этой концепции sh в написанном английском слове shake будет графемой, поскольку она представляет фонему /ʃ/ . Эта референтная концепция связана с гипотезой зависимости , которая утверждает, что письмо просто изображает речь.
Напротив, аналогическая концепция определяет графемы аналогично фонемам, т. е. через минимальные записанные пары, такие как shake vs. snake . В этом примере h и n являются графемами, поскольку они различают два слова. Эта аналогическая концепция связана с гипотезой автономии, которая утверждает, что письмо является системой в своем собственном праве и должно изучаться независимо от речи. Обе концепции имеют слабые стороны. [3]
Некоторые модели придерживаются обеих концепций одновременно, включая две отдельные единицы, [4] которым даны названия, такие как графемная графема для графемы в соответствии с аналоговой концепцией ( h в shake ) и фонологически-соответствующая графема для графемы в соответствии с референтной концепцией ( sh в shake ). [5]
В более новых концепциях, в которых графема семиотически интерпретируется как диадический языковой знак , [6] она определяется как минимальная единица письма, которая является как лексически отличительной, так и соответствует языковой единице ( фонеме , слогу или морфеме ). [7]
Графемы часто обозначаются угловыми скобками : например, ⟨a⟩ . [8] Это аналогично обозначению с косой чертой /a/, используемому для фонем . По аналогии с обозначением с квадратными скобками [a], используемым для фонов , глифы иногда обозначаются вертикальными линиями, например, | ɑ | . [9]
Точно так же, как поверхностными формами фонем являются звуки речи или фоны (а различные фоны, представляющие одну и ту же фонему , называются аллофонами ), поверхностными формами графем являются глифы (иногда графы ), а именно конкретные письменные представления символов (а различные глифы, представляющие одну и ту же графему, называются аллографами ).
Таким образом, графему можно рассматривать как абстракцию набора глифов, которые все функционально эквивалентны.
Например, в письменном английском языке (или других языках, использующих латинский алфавит ) существуют два различных физических представления строчной латинской буквы «a»: « a » и « ɑ ». Поскольку, однако, замена одного из них на другой не может изменить значение слова, они считаются аллографами одной и той же графемы, которая может быть записана как ⟨a⟩ . Аналогично, графема, соответствующая «арабской цифре ноль», имеет уникальную семантическую идентичность и значение Unicode U+0030
, но демонстрирует вариацию в виде перечеркнутого нуля . Формы курсива и жирного начертания также являются аллографическими, как и вариация, наблюдаемая в формах с засечками (как в Times New Roman ) и без засечек (как в Helvetica ).
Существуют некоторые разногласия относительно того, являются ли заглавные и строчные буквы аллографами или отдельными графемами. Заглавные буквы обычно встречаются в определенных контекстах запуска, которые не меняют значение слова: например, имя собственное или начало предложения, или все заглавные буквы в заголовке газеты. В других контекстах заглавие может определять значение: сравните, например, Polish и Polish : первый — язык, второй — для чистки обуви.
Некоторые лингвисты считают диграфы , такие как ⟨sh⟩ в слове ship , отдельными графемами, но обычно их анализируют как последовательности графем. Однако нестилистические лигатуры , такие как ⟨æ⟩ , являются отдельными графемами, как и различные буквы с отличительными диакритическими знаками , такие как ⟨ç⟩ .
Одинаковые глифы не всегда могут представлять одну и ту же графему. Например, три буквы ⟨A⟩ , ⟨А⟩ и ⟨Α⟩ кажутся идентичными, но каждая имеет разное значение: по порядку это латинская буква A , кириллическая буква Azǔ/Азъ и греческая буква Alpha . У каждой есть своя собственная кодовая точка в Unicode: U+0041 A ЛАТИНСКАЯ ЗАГЛАВНАЯ БУКВА A , U+0410 А КИРИЛЛИЧЕСКАЯ ЗАГЛАВНАЯ БУКВА A и U+0391 Α ГРЕЧЕСКАЯ ЗАГЛАВНАЯ БУКВА ALPHA .
Основными типами графем являются логограммы (точнее их называют морфограммами [10] ), которые представляют слова или морфемы (например, китайские иероглифы , амперсанд "&", представляющий слово и , арабские цифры ); слоговые символы, представляющие слоги (как в японской кане ); и алфавитные буквы, примерно соответствующие фонемам (см. следующий раздел). Для полного обсуждения различных типов см. Система письма § Функциональная классификация .
Существуют дополнительные графемные компоненты, используемые в письме, такие как знаки препинания , математические символы , разделители слов, такие как пробел, и другие типографские символы . Древние логографические скрипты часто использовали немые детерминативы для устранения неоднозначности значения соседнего (не немого) слова.
Как упоминалось в предыдущем разделе, в языках, использующих алфавитные системы письма, многие графемы в принципе обозначают фонемы (значимые звуки) языка. Однако на практике орфографии таких языков влекут за собой по крайней мере определенное отклонение от идеала точного соответствия графемы и фонемы. Фонема может быть представлена мультиграфом ( последовательностью более чем одной графемы), поскольку диграф sh представляет один звук в английском языке (а иногда одна графема может представлять более одной фонемы, как в случае с русской буквой я или испанской c). Некоторые графемы могут вообще не представлять никакого звука (например, b в английском debt или h во всех испанских словах, содержащих указанную букву), и часто правила соответствия между графемами и фонемами становятся сложными или нерегулярными, особенно в результате исторических звуковых изменений , которые не обязательно отражаются в правописании. «Неглубокие» орфографии, такие как в стандартном испанском и финском языках, имеют относительно регулярное (хотя и не всегда однозначное) соответствие между графемами и фонемами, в то время как во французском и английском языках соответствие гораздо менее регулярное, и они известны как глубокие орфографии .
Мультиграфы, представляющие одну фонему, обычно рассматриваются как комбинации отдельных букв, а не как графемы сами по себе. Однако в некоторых языках мультиграф может рассматриваться как единое целое в целях сопоставления ; например, в чешском словаре раздел для слов, начинающихся с ⟨ch⟩, идет после раздела для ⟨h⟩ . [11] Дополнительные примеры см. в разделе Алфавитный порядок § Соглашения, специфичные для языка .