Алфавитный порядок

Алфавитный порядок — это система, при которой строки символов располагаются в порядке, основанном на положении символов в обычном порядке алфавита . Это один из методов сопоставления . В математике лексикографический порядок — это обобщение алфавитного порядка на другие типы данных, такие как последовательности чисел или другие упорядоченные математические объекты .

Применительно к строкам или последовательностям , которые могут содержать цифры, числа или более сложные типы элементов, помимо буквенных символов, алфавитный порядок обычно называют лексикографическим порядком .

Чтобы определить, какая из двух строк символов стоит первой при расположении в алфавитном порядке, сравниваются их первые буквы . Если они различаются, то строка, первая буква которой стоит раньше в алфавите, стоит перед другой строкой. Если первые буквы одинаковые, то сравниваются вторые и так далее. Если достигнута позиция, в которой в одной строке больше нет букв для сравнения, а в другой есть, то первая (более короткая) строка считается первой в алфавитном порядке.

Заглавные или прописные буквы обычно считаются идентичными соответствующим строчным буквам для целей алфавитного порядка, хотя могут быть приняты соглашения для обработки ситуаций, когда две строки различаются только заглавными буквами. Также существуют различные соглашения для обработки строк, содержащих пробелы , измененные буквы, например, с диакритическими знаками , и небуквенные символы, такие как знаки препинания .

Результатом размещения набора слов или строк в алфавитном порядке является то, что все строки, начинающиеся с одной и той же буквы, группируются вместе; внутри этой группы группируются все слова, начинающиеся с одной и той же двухбуквенной последовательности; и так далее. Таким образом, система стремится максимизировать количество общих начальных букв между соседними словами.

История

Алфавитный порядок был впервые использован в I тысячелетии до нашей эры северо-западными семитскими писцами с использованием системы абджад . ^[1] Однако ряд других методов классификации и упорядочения материала, в том числе географических, хронологических , иерархических и по категориям , на протяжении веков отдавали предпочтение алфавитному порядку. ^[2]

Части Библии датируются VII–VI веками до нашей эры. В Книге Иеремии пророк использует шифр замены Атбаш , основанный на алфавитном порядке. Точно так же библейские авторы использовали акростихи , основанные на (упорядоченном) еврейском алфавите . ^[3]

Первое эффективное использование алфавитного порядка в качестве инструмента каталогизации среди ученых, возможно, было в древней Александрии, ^[4] в Великой Александрийской библиотеке , которая была основана около 300 г. до н.э. Считается, что работавший там поэт и ученый Каллимах создал первый в мире библиотечный каталог , известный как Пинакес , в котором свитки разложены по полкам в алфавитном порядке по первым буквам имен авторов. ^[2]

В I веке до нашей эры римский писатель Варрон составил алфавитные списки авторов и названий. ^[5] Во 2-м веке нашей эры Секст Помпей Фест написал энциклопедическое изложение произведений Верриуса Флакка , De verborum Significatu , с записями в алфавитном порядке. ^[6] В III веке нашей эры Гарпократион написал гомеровский лексикон, упорядоченный по алфавиту всех букв. ^[7] В X веке автор Суда использовал алфавитный порядок с фонетическими вариациями.

Алфавитный порядок как средство консультирования начал входить в основное русло интеллектуальной жизни Западной Европы во второй половине XII века, когда были разработаны алфавитные инструменты, помогающие проповедникам анализировать библейскую лексику. Это привело к составлению алфавитных согласований Библии монахами- доминиканцами в Париже в 13 веке под руководством Хью Сен-Шер . Старые справочные издания, такие как «Толкования еврейских имен» Св. Иеронима, были расположены в алфавитном порядке для удобства использования. Использованию алфавитного порядка первоначально сопротивлялись ученые, которые ожидали, что их ученики освоят свою область обучения в соответствии с ее собственными рациональными структурами; его успех был обусловлен такими инструментами, как указатель Роберта Килвордби к произведениям Св. Августина , который помогал читателям получить доступ к полному оригинальному тексту, а не зависеть от компиляций отрывков , которые стали заметными в схоластике XII века . Принятие алфавитного порядка было частью перехода от примата памяти к первенству письменных произведений. ^[8] Идея упорядочить информацию по алфавиту также встретила сопротивление со стороны составителей энциклопедий XII и XIII веков, которые все были набожными церковниками. Они предпочитали организовывать свой материал богословски – в порядке творения Бога, начиная с Деуса (что означает Бог). ^[2]

В 1604 году Роберту Кодри пришлось объяснять в «Алфавитной таблице» , первом одноязычном английском словаре : «Теперь, если слово, которое вы хотите найти, начинается с (а), тогда посмотрите в начало этой таблицы, но если с (v) смотри в конец». ^[9] Хотя еще в 1803 году Сэмюэл Тейлор Кольридж осудил энциклопедии с «расположением, определяемым случайностью начальных букв», ^[10] многие списки сегодня основаны на этом принципе.

Расположение в алфавитном порядке можно рассматривать как силу демократизации доступа к информации, поскольку оно не требует обширных предварительных знаний, чтобы найти то, что необходимо. ^[2]

Заказ латиницей

Основной заказ и примеры

Стандартный порядок современного базового латинского алфавита ISO :

АБВГДЕЖЗИЙКЛМНОПРСТУФХЦЧШЩЫЭЮЯ

Ниже приведен пример простого алфавитного порядка:

Как; Астер; Астролябия; Астрономия; Астрофизика; В; Атаман; Атака; Баа

Другой пример:

Барнакл; Быть; Был; Выгода; Бент

Вышеуказанные слова расположены в алфавитном порядке. As стоит перед Астером, потому что они начинаются с одних и тех же двух букв, и после этого в Ас больше нет букв, тогда как у Астер есть. Следующие три слова идут после Астер , потому что их четвертая буква (первая отличающаяся) — это r , которая идет после е (четвертая буква Астер ) в алфавите. Сами эти слова упорядочены по шестым буквам ( l , n и p соответственно). Затем идет At , который отличается от предыдущих слов второй буквой ( t идет после s ). Атаман идет после Ата по той же причине, по которой Астер идет после Ас . Атака следует за Атаманом на основе сравнения их третьих букв, а Баа идет после всех остальных, потому что у него другая первая буква.

Обработка строк из нескольких слов

Когда некоторые из упорядочиваемых строк состоят из более чем одного слова, т. е. содержат пробелы или другие разделители, например дефисы , можно использовать два основных подхода. При первом подходе все строки изначально упорядочиваются по первому слову, как в последовательности:

Дуб; Дубовый холм; Oak Ridge; Окли Парк; Окли Ривер
где все строки, начинающиеся с отдельного слова Oak, предшествуют всем строкам, начинающимся с Oakley , поскольку Oak предшествует Oakley в алфавитном порядке.

Во втором подходе строки располагаются в алфавитном порядке, как если бы в них не было пробелов, что дает последовательность:

Дуб; Дубовый холм; Окли Парк; Река Окли; Oak Ridge
где Ок-Ридж теперь идет после струн Окли , как если бы это было написано «Окридж».

Второй подход обычно используется в словарях ^{[ нужна ссылка ] ,}и поэтому издатели часто называют его порядком словаря . Первый подход часто использовался в книжных указателях , хотя каждое издательство традиционно устанавливает свои собственные стандарты того, какой подход использовать в них; До 1975 года не существовало стандарта ISO для книжных указателей ( ISO 999 ).

Особые случаи

Модифицированные буквы

Во французском языке измененные буквы (например, с диакритическими знаками ) обрабатываются так же, как базовая буква, для целей алфавитного порядка. Например, роль стоит между роком и розой , как если бы это была написанная роль . Однако языки, в которых такие буквы используются систематически, обычно имеют свои собственные правила упорядочения. См. § Соглашения, специфичные для языка, ниже.

Заказ по фамилии

В большинстве культур, где фамилии пишутся после имен , по-прежнему желательно сначала сортировать списки имен (как в телефонных справочниках) по фамилии. В этом случае для правильной сортировки имена необходимо переупорядочить. Например, Хуан Эрнандес и Брайан О'Лири следует сортировать как «Эрнандес, Хуан» и «О'Лири, Брайан», даже если они написаны иначе. Зафиксировать это правило в компьютерном алгоритме сортировки сложно, и простые попытки потерпят неудачу. Например, если в распоряжении алгоритма нет обширного списка фамилий, невозможно решить, является ли «Джиллиан Люсиль ван дер Ваал» «ван дер Ваал, Джиллиан Люсиль», «Ваал, Джиллиан Люсиль ван дер», или даже «Люсиль ван дер Ваал, Джиллиан».

Заказ по фамилии часто встречается в академическом контексте. В рамках одной статьи нескольких авторов упорядочение авторов в алфавитном порядке по фамилиям, а не с использованием других методов, таких как обратный старшинство или субъективная степень вклада в статью, рассматривается как способ «признания аналогичного вклада» или «избежания [ing] дисгармония в сотрудничающих группах». ^[11] Было обнаружено , что в некоторых областях практика упорядочивания цитат в библиографиях по фамилиям их авторов создает предвзятость в пользу авторов с фамилиями, которые появляются раньше в алфавите, тогда как этот эффект не проявляется в областях, в которых библиографии упорядочены в хронологическом порядке. ^[12]

The и другие распространенные слова

Если фраза начинается с очень распространенного слова (например, «the», «a» или «an», которые в грамматике называются артиклями), это слово иногда игнорируется или перемещается в конец фразы, но это не всегда правильно. случай. Например, книгу « Сияние » можно трактовать как «Сияние» или «Сияние» и, следовательно, перед названием книги « Лето Сэма ». Однако его также можно рассматривать просто как «Сияние» и после «Лета Сэма». Точно так же « Трещину во времени » можно трактовать как «Трещину во времени», «Трещину во времени, А» или «Трещину во времени». Все три метода алфавитизации довольно легко создать с помощью алгоритма, но многие программы вместо этого полагаются на простое лексикографическое упорядочение .

Префиксы Mac

Префиксы M и Mc в ирландских и шотландских фамилиях являются аббревиатурами от Mac и иногда располагаются в алфавитном порядке, как если бы полное написание было Mac . Таким образом , Мак-Кинли мог бы быть указан перед Макинтошем (как это было бы, если бы оно было написано как «Мак-Кинли»). С появлением списков, отсортированных компьютером, этот тип алфавитного расположения встречается реже, хотя он все еще используется в британских телефонных справочниках.

префикс ул

Префикс St или St. является аббревиатурой слова «Святой» и традиционно располагается в алфавитном порядке, как если бы полное написание было «Святой» . Таким образом, в справочнике собор Святого Иоанна может быть указан перед Салемом (как если бы он был написан как «Сент-Джонс»). С появлением списков, отсортированных компьютером, этот тип алфавитного расположения встречается реже, хотя иногда все же используется.

Лигатуры

Лигатуры (две или более буквы, объединенные в один символ), которые не считаются отдельными буквами, например Æ и Œ в английском языке, обычно сопоставляются так, как если бы буквы были отдельными — «эфир» и «эфир» будут располагаться одинаково относительно все остальные слова. Это верно, даже если лигатура не является чисто стилистической, например, в заимствованных словах и названиях брендов.

Для сортировки строк могут потребоваться специальные правила, которые различаются только в зависимости от того, соединены ли две буквы лигатурой.

Обработка цифр

Когда некоторые строки содержат цифры (или другие небуквенные символы), возможны различные подходы. Иногда такие символы рассматриваются так, как будто они идут до или после всех букв алфавита. Другой метод заключается в сортировке чисел в алфавитном порядке, как если бы они были написаны: например, 1776 будет отсортирован так, как если бы оно было написано как «семнадцать семьдесят шесть», а 24 часа в Мане , как если бы они писались как «vingt-quatre...» (французский). для «двадцать четыре»). Когда цифры или другие символы используются в качестве особых графических форм букв, например, 1337 для leet или фильма «Семь » (который был стилизован под Se7en ), они могут быть отсортированы так, как если бы они были этими буквами. Естественный порядок сортировки упорядочивает строки в алфавитном порядке, за исключением того, что многозначные числа обрабатываются как один символ и упорядочиваются по значению числа, закодированного цифрами.

В случае монархов и пап , хотя их номера указаны римскими цифрами и напоминают буквы, они обычно располагаются в числовом порядке: так, например, хотя V идет после I, датский король Кристиан IX идет после своего предшественника Кристиана VIII . .

Соглашения, специфичные для языка

Языки, использующие расширенный латинский алфавит, обычно имеют свои собственные правила обращения с дополнительными буквами. Кроме того, в некоторых языках определенные орграфы для целей сопоставления рассматриваются как отдельные буквы. Например, в испанском алфавите ñ рассматривается как основная буква, следующая за n , а раньше орграфы ch и ll рассматривались как основные буквы, следующие за c и l соответственно. Теперь сh и ll расположены в алфавитном порядке в виде двухбуквенных комбинаций. Новое правило алфавитизации было издано Королевской испанской академией в 1994 году. Эти орграфы по-прежнему формально обозначались буквами, но с 2010 года они уже не являются таковыми. С другой стороны, орграф rr следует за rqu , как и ожидалось (и делал это еще до того, как правило алфавитизации 1994 года), в то время как гласные с острыми ударениями ( á, é, í, ó, ú ) всегда располагались параллельно своим основным буквам, как и буква ü .

В некоторых случаях, например, в арабском и кайова , порядок алфавита был полностью изменен.

Правила алфавитизации, применяемые на разных языках, перечислены ниже.

В арабском языке сегодня используются два основных порядка 28-буквенного алфавита . Стандартным и наиболее часто используемым является порядок хиджа , который был создан ранним арабским лингвистом Насром ибн Асимом аль-Лайти и представляет собой метод визуального упорядочения, при котором буквы упорядочиваются в зависимости от их формы. Например , ба (ب), та (ت), тха (ث) сгруппированы, поскольку они имеют одинаковую базовую форму или расм (ٮ) и различаются только указанием согласного, известного как иджам . Исходный порядок абджади , который фонетически напоминает порядок других семитских языков, а также латыни, используется до сих пор и обычно ограничивается упорядочиванием списков в документе, аналогично римским цифрам . Когда в нумерации используется порядок абджади , буквы пишутся в измененной форме, чтобы отличить их от букв, используемых в словах, и от цифр. Например, алиф (ا), который выглядит идентично восточно-арабской цифре один (١), небольшая овальная петля проходит по часовой стрелке от нижней части буквы, за которой следует короткий хвостик (��). Хотя эти символы редко используются в цифровом виде, они закодированы в Юникоде в виде арабских математических алфавитных символов . ^[13] Менее распространенный порядок, порядок савти ^[ар] , сопоставлен фонетически и был создан аль-Халилем ибн Ахмадом аль-Фарахиди .
В азербайджанском языке к стандартному латинскому алфавиту имеется восемь дополнительных букв. Пять из них гласные: i, ı, ö, ü, ə и три согласные: ç, ş, ğ. Алфавит такой же, как турецкий , с теми же звуками, написанными теми же буквами, за исключением трех дополнительных букв: q, x и ə для звуков, которых нет в турецком языке. Хотя все «турецкие буквы» упорядочены в «обычном» алфавитном порядке, как и в турецком, три дополнительные буквы располагаются произвольно после букв, звучание которых приближается к их звучанию. Таким образом, q сопоставляется сразу после k, x (произносится как немецкое ch ) сопоставляется сразу после h, а ə (произносится примерно как английское короткое a ) сопоставляется сразу после e.
В бретонском языке нет букв «c», «q», «x», но есть орграфы «ch» и «c'h», которые сопоставлены между «b» и «d». Например: «бужугенн, чуг, c'hoar, даэрауэнн» (дождевой червь, сок, сестра, слезинка).
В чешском и словацком языках ударные гласные имеют вторичный вес сопоставления – по сравнению с другими буквами они рассматриваются как их безударные формы (в чешском языке A-Á, E-É-Ě, I-Í, O-Ó, U-Ú- Ů, Y-Ý, а на словацком языке A-Á-Ä, E-É, I-Í, O-Ó-Ô, U-Ú, Y-Ý), но тогда они сортируются по неударным буквам (для Например, правильный лексикографический порядок: баа, баа, баа, баа, баб, баб, бак, бац, бач, бач [по-чешски] и баа, баа, баа, баа, баа, баа, баа, баа, баа, баб. , báb, bäb, bac, bác, bäc, bač, bác, bäč [на словацком языке]). Акцентированные согласные имеют основной вес сопоставления и сопоставляются сразу после своих безударных аналогов, за исключением Ď, Ň и Ť (в чешском языке) и Ď, Ĺ, Ľ, Ň, Ŕ и Ť (в словацком языке), которые снова имеют второстепенный вес. CH считается отдельной буквой и стоит между H и I. В словацком языке DZ и DZ также считаются отдельными буквами и располагаются между Ď и E.
В датском и норвежском алфавитах также присутствуют те же дополнительные гласные, что и в шведском (см. ниже), но в другом порядке и с другими глифами (..., X, Y, Z, Æ , Ø , Å ). Кроме того, «Аа» сопоставляется как эквивалент «Å». В датском алфавите буква «W» традиционно рассматривается как вариант «V», но сегодня «W» считается отдельной буквой.
В голландском языке комбинация IJ (представляющая Ĳ ) раньше должна была сопоставляться как Y (или иногда как отдельная буква: Y < IJ < Z), но в настоящее время в основном сопоставляется как две буквы (II < IJ < IK). Исключением являются телефонные справочники; IJ здесь всегда сопоставляется как Y, потому что во многих голландских фамилиях Y используется там, где современное написание требует IJ. Обратите внимание, что слово, начинающееся с ij, которое пишется с заглавной I, также пишется с заглавной J, например, город Эймейден , река Эйссел и страна Эйсланд ( Исландия ).
В эсперанто согласные с циркумфлексным ударением ( ĉ , ĝ , ĥ , ĵ , ŝ ), а также ŭ (u с breve ), считаются отдельными буквами и сопоставляются отдельно (c, ĉ, d, e, f, g, Э, ч, Ё, я, й, ĵ... ы, щ, т, ю, ы, в, з).
В эстонском языке õ , ä , ö и ü считаются отдельными буквами и сопоставляются после w . Буквы š , z и ž встречаются только в заимствованных словах и иностранных именах собственных и следуют за буквой s в эстонском алфавите , который в остальном не отличается от основного латинского алфавита.
В фарерском алфавите также есть дополнительные датские, норвежские и шведские буквы, а именно Æ и Ø . Кроме того, фарерский алфавит использует исландский eth, следующий за буквой D. Пять из шести гласных A , I , O , U и Y могут иметь ударения и после этого считаются отдельными буквами. Согласные C , Q , X , W и Z не встречаются. Следовательно, первые пять букв — это A , Á , B , D и Ð , а последние пять — V , Y , Ý , Æ , Ø.
В филиппинском (тагальском) и других филиппинских языках буква Ng рассматривается как отдельная буква. Оно произносится как « sing» , «ping-pong » и т. д. Само по себе оно произносится как «nang» , но в целом в филиппинской орфографии оно пишется так, как если бы это были две отдельные буквы (n и g). Кроме того, производные буквы (например, Ñ ) следуют сразу за базовой буквой. На филиппинском языке также используются диакритические знаки, но они используются очень редко (за исключением тильды ) .
Финский алфавит и правила сопоставления такие же, как и в шведском.
Во французском языке последнее ударение в слове определяет порядок . ^[14] Например, во французском языке следующие четыре слова будут отсортированы следующим образом: cote < côte < coté < côté. Буква е упорядочена как e é è ê ë (œ рассматривается как oe), то же самое для o и ô ö.
В немецком языке буквы с умлаутом ( Ä , Ö , Ü ) обычно обрабатываются так же, как и их версии без умлаута; ß всегда сортируется как ss. Это составляет алфавитный порядок Arbeit, Arg, Ärgerlich, Argument, Arm, Assistant, Aßlar, Assoziation. В телефонных справочниках и аналогичных списках имен умлауты следует сопоставлять как комбинации букв «ae», «oe», «ue», поскольку ряд немецких фамилий встречаются как с умлаутом, так и в форме без умлаута с «e». (Мюллер/Мюллер). Это составляет алфавитный порядок Удет, Убелакер, Уэлль, Юлле, Уэве, Укскюлль, Уффенбах.
Венгерские гласные имеют акценты, умлауты и двойные акценты, а согласные пишутся одинарными, двойными (диграфами) или тройными (триграфами) символами. При сопоставлении ударные гласные эквивалентны своим аналогам без ударения, а двойные и тройные символы следуют за их одинарными оригиналами. Порядок венгерского алфавита: A=Á, B, C, Cs, D, Dz, Dzs, E=É, F, G, Gy, H, I=Í, J, K, L, Ly, M, N, Ny. , O=Ó, Ö=Ő, P, Q, R, S, Sz, T, Ty, U=Ú, Ü=Ű, V, W, X, Y, Z, Zs. (До 1984 года dz и dzs не считались отдельными буквами для сопоставления, а вместо этого считались двумя буквами, d+z и d+zs.) Это означает, что, например, nádcukor должен предшествовать nádcsomó (даже если s обычно предшествует u ), поскольку c предшествует cs в сопоставлении. Разницу в длине гласных следует принимать во внимание только в том случае, если в остальном два слова идентичны (например, egér, éger ). Пробелы и дефисы внутри фраз при сопоставлении игнорируются. Ch также встречается в некоторых словах как орграф, но с точки зрения сопоставления он не рассматривается как графема сам по себе.
Особенностью венгерской сопоставления является то, что сокращенные формы двойных ди- и триграфов (такие как ggy от gy + gy или ddzs от dzs + dzs ) должны сопоставляться так, как если бы они были написаны полностью (независимо от факта сокращения и элементы ди- или триграфов). Например, kaszinó должно предшествовать kassza (хотя четвертый символ z обычно идет после s в алфавите), поскольку четвертый «символ» ( графема ) слова kassza считается вторым sz (разложение ssz на sz + sz ). , который следует за i (в kaszinó ).
В исландском языке добавляется Þ , а за D следует Ð . За каждой гласной (A, E, I, O, U, Y) следует соответствующий ей акут : Á, É, Í, Ó, Ú, Ý. Z нет, поэтому алфавит заканчивается: ... X, Y, Ý, Þ , Æ , Ö.
- Обе буквы также использовались англосаксонскими писцами, которые также использовали руническую букву Винн для обозначения /w/.
- Þ (называемый шипом; строчная þ) также является рунической буквой.
- Ð (называется eth; строчная буква ð) — это буква D с добавленной чертой.
Кайова упорядочена по фонетическим принципам, как и в брахмическом алфавите , а не по историческому латинскому порядку. Сначала идут гласные, затем стоп-согласные, расположенные от передней части рта к задней части, и от отрицательного к положительному времени начала голоса , затем аффрикаты, фрикативы, жидкости и носовые звуки:

A, AU, E, I, O, U, B, F, P, V, D, J, T, TH, G, C, K, Q, CH, X, S, Z, L, Y, W, Ч, М, Н

В литовском языке литовские буквы следуют за латинскими оригиналами. Еще одно изменение заключается в том, что Y идет непосредственно перед J : ... G, H, I, Į, Y, J, K...
В польском языке , в частности, польские буквы, полученные из латинского алфавита, сопоставляются по оригиналам: A, Ą, B, C, Ć, D, E, Ę, ..., L, Ł, M, N, Ń, O, Ó. , P, ..., S, Ś, T, ..., Z, Ź, Ż. Орграфы в целях сопоставления обрабатываются так, как если бы они были двумя отдельными буквами.
В португальском языке порядок сортировки такой же, как в английском: A, B, C, D, E, F, G, H, I, J, K, L, M, N, O, P, Q, R, S, T, U, V, W, X, Y, Z. Орграфы и буквы с диакритическими знаками в алфавит не входят.
В румынском языке специальные символы, полученные из латинского алфавита, сопоставляются по их оригиналам: A, Ă, Â, ..., I, Î, ..., S, ş, T, Ț, ..., Z.
В сербско-хорватском и других родственных южнославянских языках пять акцентированных символов и три соединенных символа сортируются по оригиналам: ..., C, Č, Ć, D, DŽ, Đ, E, ..., L, LJ. , M, N, NJ, O, ..., S, Š, T, ..., Z, Ž.
В испанском языке (до 1994 года) «CH» и «LL» рассматривались как отдельные буквы, давая порядок cinco , credo , chispa и lomo , luz , llama . Это уже не так, поскольку в 1994 году RAE приняла более традиционное использование, и теперь LL сопоставляется между LK и LM, а CH между CG и CI. Шесть символов с диакритическими знаками Á, É, Í, Ó, Ú, Ü рассматриваются как исходные буквы A, E, I, O, U, например: радио , рафага , рана , рапидо , растрилло . Единственный вопрос для сопоставления, специфичный для испанского языка, — это Ñ ( eñe ) как другая буква, сопоставленная после N.
В шведском алфавите в конце расположены три дополнительные гласные (..., X, Y, Z, Å , Ä , Ö ), похожие на датский и норвежский алфавит, но с другими глифами и другим порядком сопоставления. Буква «W» рассматривалась как вариант «V», но в 13-м издании Svenska Akademiens ordlista (2006) «W» считалась отдельной буквой.
В турецком алфавите есть шесть дополнительных букв: ç, ğ, ı, ö, ş и ü (но нет q, w и x). Они сопоставляются с ç после c, ğ после g, ı перед i, ö после o, ş после s и ü после u. Первоначально, когда алфавит был введен в 1928 году, ı располагался после i, но позже порядок был изменен, так что буквы, имеющие форму, содержащую точки, седили или другие декоративные знаки, всегда следуют за буквами с соответствующими голыми формами. Обратите внимание, что в турецкой орфографии буква I является большой буквой ı без точки, тогда как İ — большой буквой i с точкой.
Во многих тюркских языках (таких как азербайджанский или орфография Jaꞑalif для татарского ) раньше существовала буква Gha (Ƣƣ), которая стояла между G и H. Сейчас он не используется.
Во вьетнамском языке есть семь дополнительных букв: ă , â , đ , ê , ô , ơ , ư, а f , j , w , z отсутствуют, хотя они все еще используются (например, интернет-адрес, иностранный заимствованный язык). . «f» заменяется комбинацией «ph». То же, что и «w», — это «qu».
В Volapük ä , ö и ü считаются отдельными буквами и сопоставляются отдельно (a, ä, b… o, ö, p… u, ü, v), тогда как q и w отсутствуют. ^[15]
В валлийском языке орграфы CH, DD, FF, NG, LL, PH, RH и TH рассматриваются как отдельные буквы, и каждый из них указывается после первого символа пары (за исключением NG, который указан после G), что дает Порядок A, B, C, CH, D, DD, E, F, FF, G, NG, H и так далее. Однако иногда может случиться так, что соединение слов приводит к сопоставлению двух букв, которые не образуют орграф. Примером может служить слово LLONGYFARCH (составленное из LLON + GYFARCH). В результате получается такой порядок, как, например, LAWR, LWCUS, LLONG, LLOM, LLONGYFARCH (NG — орграф в LLONG, но не в LLONGYFARCH). Комбинация букв R+H (в отличие от диграфа RH) может аналогичным образом возникать в результате сопоставления в сложных соединениях, хотя это не приводит к образованию каких-либо пар, в которых неправильная идентификация могла бы повлиять на порядок. Для других потенциально запутанных комбинаций букв, а именно D+D и L+L, в написании используется дефис (например, AD-DAL, CHWIL-LYS).
В алфавитном порядке пиньинь , где слова имеют одинаковые основные буквы пиньинь и различаются только модифицирующими диакритическими знаками, неизмененная буква стоит перед измененной буквой. Например, ⟨e⟩ стоит перед ⟨ê⟩ (額 ( è ) перед 欸 ( ê̄ )), а ⟨u⟩ стоит перед ⟨ü⟩ (路 ( lù ) перед 驢 ( lǘ ) и 努 ( nǔ ) перед 女( нэ )). Символы с одинаковыми буквами пиньинь (включая модифицированные буквы ⟨ê⟩ и ⟨ü⟩ ) располагаются в соответствии с их тонами в порядке «первый тон (т. е. «ровный тон»), второй тон (восходящий тон), третий тон ( нисходящий-восходящий тон), четвёртый тон (нисходящий тон), пятый тон (нейтральный тон)», например «媽 ( ма ), 麻 ( ма ), 馬 ( му ), 罵 ( ма ), 嗎 ( ма )». ^[а]

Автоматизация

Алгоритмы сопоставления (в сочетании с алгоритмами сортировки ) используются в компьютерном программировании для размещения строк в алфавитном порядке. Стандартным примером является алгоритм сопоставления Unicode , который можно использовать для размещения строк, содержащих любые символы Unicode , в алфавитном порядке (расширении). ^[14] Его можно привести в соответствие с большинством описанных выше соглашений, специфичных для языка, путем адаптации таблицы сопоставления по умолчанию. Несколько таких доработок собраны в Common Locale Data Repository .

Смотрите также

Примечания

^ Есть исключение: в китайско-английском словаре ABC порядок тонов следующий: «нулевой тон (нейтральный тон), первый тон (ровный тон), второй тон (восходящий тон), третий тон (нисходящий-восходящий тон) и четвертый тон ( падающий тон)».

дальнейшее чтение

Шовен, Ивонн. Алфавитная практика . 4-е изд. Париж: Бордас, 1977. ISBN 2-04-010155-1.
Фландерс, Джудит . Место для всего: Любопытная история алфавитного порядка . Нью-Йорк: Basic Books / Hatchette Books, 2020. ISBN 978-1-5416-7507-0