Алфавитный порядок — это система, в которой строки символов располагаются в порядке, основанном на положении символов в общепринятом порядке алфавита . Это один из методов сортировки . В математике лексикографический порядок — это обобщение алфавитного порядка на другие типы данных, такие как последовательности чисел или другие упорядоченные математические объекты .
Применительно к строкам или последовательностям , которые могут содержать цифры, числа или более сложные типы элементов, в дополнение к буквенным символам, алфавитный порядок обычно называется лексикографическим порядком .
Чтобы определить, какая из двух строк символов идет первой при расположении в алфавитном порядке, сравниваются их первые буквы . Если они различаются, то строка, первая буква которой идет раньше в алфавите, идет перед другой строкой. Если первые буквы одинаковы, то сравниваются вторые буквы и т. д. Если достигнута позиция, когда в одной строке больше нет букв для сравнения, а в другой есть, то первая (более короткая) строка считается первой в алфавитном порядке.
Заглавные или прописные буквы обычно считаются идентичными соответствующим им строчным буквам для целей алфавитного упорядочения, хотя соглашения могут быть приняты для обработки ситуаций, когда две строки отличаются только регистром. Существуют также различные соглашения для обработки строк, содержащих пробелы , измененные буквы, например, с диакритическими знаками , и небуквенные символы, такие как знаки препинания .
Результатом размещения набора слов или строк в алфавитном порядке является то, что все строки, начинающиеся с одной и той же буквы, группируются вместе; внутри этой группы все слова, начинающиеся с одной и той же двухбуквенной последовательности, группируются вместе; и т. д. Таким образом, система стремится максимизировать количество общих начальных букв между соседними словами.
История
Алфавитный порядок был впервые использован в первом тысячелетии до н. э. северо-западными семитскими писцами, использовавшими систему абджад . [1] Однако ряд других методов классификации и упорядочения материалов, включая географический, хронологический , иерархический и по категориям , на протяжении столетий предпочитали алфавитному порядку. [2]
Части Библии датируются 7–6 веками до н.э. В Книге Иеремии пророк использует шифр замены Атбаш , основанный на алфавитном порядке. Аналогично, библейские авторы использовали акростихи, основанные на (упорядоченном) еврейском алфавите . [3]
Первое эффективное использование алфавитного порядка в качестве каталогизационного устройства среди ученых, возможно, имело место в древней Александрии, [4] в Большой Александрийской библиотеке , которая была основана около 300 г. до н. э. Поэт и ученый Каллимах , работавший там, как полагают, создал первый в мире библиотечный каталог , известный как Пинакес , со свитками, расположенными на полках в алфавитном порядке первых букв имен авторов. [2]
В I веке до нашей эры римский писатель Варрон составил алфавитные списки авторов и названий. [5] Во II веке нашей эры Секст Помпей Фест написал энциклопедическое изложение трудов Веррия Флакка , De verborum significatu , с записями в алфавитном порядке. [6] В III веке нашей эры Гарпократион написал гомеровский словарь, в котором все буквы были расположены в алфавитном порядке. [7] В X веке автор Суды использовал алфавитный порядок с фонетическими вариациями.
Алфавитный порядок как помощь в консультациях начал входить в основное русло западноевропейской интеллектуальной жизни во второй половине XII века, когда были разработаны алфавитные инструменты, помогающие проповедникам анализировать библейский словарь. Это привело к составлению алфавитных конкордансов Библии монахами -доминиканцами в Париже в XIII веке под руководством Гуго Сен-Шера . Более старые справочные работы, такие как «Толкования еврейских имен » Святого Иеронима, были расположены в алфавитном порядке для удобства консультаций. Использование алфавитного порядка изначально встречало сопротивление со стороны ученых, которые ожидали, что их студенты будут осваивать свою область изучения в соответствии с ее собственными рациональными структурами; его успех был обусловлен такими инструментами, как указатель Роберта Килвордби к трудам Святого Августина , который помогал читателям получать доступ к полному оригинальному тексту вместо того, чтобы зависеть от компиляций отрывков , которые стали заметными в схоластике XII века . Принятие алфавитного порядка было частью перехода от главенства памяти к главенству письменных работ. [8] Идея упорядочивания информации в алфавитном порядке также встретила сопротивление со стороны составителей энциклопедий в XII и XIII веках, которые все были набожными церковниками. Они предпочитали организовывать свой материал теологически – в порядке творения Бога, начиная с Deus (что означает Бог). [2]
В 1604 году Роберт Кодри должен был объяснить в Table Alphabeticall , первом одноязычном английском словаре : «Если слово, которое ты желаешь найти, начинается с (a), то смотри в начало этой таблицы, но если с (v), то смотри в конец». [9] Хотя еще в 1803 году Сэмюэл Тейлор Кольридж осуждал энциклопедии за «расположение, определяемое случайностью начальных букв», [10] многие списки сегодня основаны на этом принципе.
Ниже приведен пример простого алфавитного порядка:
Ас; Астра; Астролябия; Астрономия; Астрофизика; Ат; Атаман; Атака; Баа
Другой пример:
Морская уточка; Быть; Был; Выгода; Согнулся
Вышеуказанные слова упорядочены в алфавитном порядке. As идет перед Aster , потому что они начинаются с тех же двух букв, и после него нет больше букв, в то время как у As есть. Следующие три слова идут после Aster , потому что их четвертая буква (первая отличающаяся) — r , которая идет после e (четвертая буква Aster ) в алфавите. Сами эти слова упорядочены на основе их шестых букв ( l , n и p соответственно). Затем идет At , который отличается от предыдущих слов второй буквой ( t идет после s ). Ataman идет после At по той же причине, по которой Aster идет после As . Attack следует за Ataman на основе сравнения их третьих букв, а Baa идет после всех остальных, потому что у него другая первая буква.
Обработка многословных строк
Когда некоторые из упорядочиваемых строк состоят из более чем одного слова, т. е. содержат пробелы или другие разделители, такие как дефисы , то могут быть приняты два основных подхода. В первом подходе все строки изначально упорядочиваются в соответствии с их первым словом, как в последовательности:
Дуб; Оук-Хилл; Оук-Ридж; Оукли-Парк; Оукли-Ривер
где все строки, начинающиеся с отдельного слова Oak, предшествуют всем строкам, начинающимся с Oakley , поскольку Oak предшествует Oakley в алфавитном порядке.
Во втором подходе строки располагаются в алфавитном порядке, как если бы они не содержали пробелов, что дает следующую последовательность:
Дуб; Оук-Хилл; Оукли-Парк; Оукли-Ривер; Оук-Ридж
где Oak Ridge теперь идет после струнных Oakley , как если бы было написано «Oakridge».
Второй подход обычно используется в словарях [ требуется ссылка ] , и поэтому издатели часто называют его словарным порядком . Первый подход часто использовался в книжных индексах , хотя каждый издатель традиционно устанавливал свои собственные стандарты того, какой подход использовать; до 1975 года не существовало стандарта ISO для книжных индексов ( ISO 999 ).
Особые случаи
Измененные буквы
Во французском языке измененные буквы (например, с диакритическими знаками ) обрабатываются так же, как и базовая буква для целей алфавитного упорядочивания. Например, rôle находится между rock и rose , как если бы она была написана role . Однако языки, которые используют такие буквы систематически, как правило, имеют свои собственные правила упорядочивания. См. § Соглашения, специфичные для языка, ниже.
Сортировка по фамилии
В большинстве культур, где фамилии пишутся после имен , все равно желательно сортировать списки имен (как в телефонных справочниках) сначала по фамилии. В этом случае имена необходимо переупорядочить для правильной сортировки. Например, Хуан Эрнандес и Брайан О'Лири следует сортировать как "Эрнандес, Хуан" и "О'Лири, Брайан", даже если они не написаны таким образом. Зафиксировать это правило в компьютерном алгоритме сопоставления сложно, и простые попытки потерпят неудачу. Например, если алгоритм не имеет в своем распоряжении обширного списка фамилий, нет способа решить, является ли "Джиллиан Люсиль ван дер Ваал" "ван дер Ваал, Джиллиан Люсиль", "Ваал, Джиллиан Люсиль ван дер" или даже "Люсиль ван дер Ваал, Джиллиан".
Упорядочивание по фамилии часто встречается в академических контекстах. В рамках одной статьи с несколькими авторами упорядочивание авторов в алфавитном порядке по фамилии, а не другими методами, такими как обратный старшинство или субъективная степень вклада в статью, рассматривается как способ «признания схожих вкладов» или «избежания дисгармонии в сотрудничающих группах». [11] Было обнаружено, что практика в некоторых областях упорядочивания ссылок в библиографиях по фамилиям их авторов создает предвзятость в пользу авторов с фамилиями, которые появляются раньше в алфавите, в то время как этот эффект не проявляется в областях, в которых библиографии упорядочены в хронологическом порядке. [12]
Theи другие общие слова
Если фраза начинается с очень распространенного слова (например, «the», «a» или «an», называемого в грамматике артиклями), это слово иногда игнорируется или перемещается в конец фразы, но это не всегда так. Например, книга « The Shining » может рассматриваться как «Shining» или «Shining, The» и, следовательно, перед названием книги « Summer of Sam ». Однако ее также можно рассматривать как просто «The Shining» и после «Summer of Sam». Аналогично, « A Wrinkle in Time » может рассматриваться как «Wrinkle in Time», «Wrinkle in Time, A» или «A Wrinkle in Time». Все три метода алфавитизации довольно легко создать с помощью алгоритма, но многие программы вместо этого полагаются на простое лексикографическое упорядочение .
Макпрефиксы
Префиксы M и Mc в ирландских и шотландских фамилиях являются сокращениями от Mac и иногда располагаются в алфавитном порядке, как если бы фамилия была написана полностью Mac . Таким образом, McKinley может быть указана перед Mackintosh (как это было бы, если бы она была написана как "MacKinley"). С появлением сортированных компьютером списков этот тип алфавитного порядка встречается реже, хотя он все еще используется в британских телефонных справочниках.
Св.префикс
Префикс St или St. является сокращением от "Saint" и традиционно располагается в алфавитном порядке, как если бы написание было Saint полностью. Таким образом, в справочнике St John's может быть указан перед Salem (как если бы он был написан как "Saint John's"). С появлением сортированных компьютером списков этот тип алфавитного порядка встречается реже, хотя иногда все еще используется.
Лигатуры
Лигатуры (две или более букв, объединенных в один символ), которые не считаются отдельными буквами, например, Æ и Œ в английском языке, обычно сопоставляются так, как если бы буквы были отдельными — «æther» и «aether» будут упорядочены одинаково относительно всех других слов. Это верно даже тогда, когда лигатура не является чисто стилистической, например, в заимствованных словах и названиях брендов.
Для сортировки строк, которые различаются только тем, соединены ли две буквы лигатурой, могут потребоваться специальные правила.
Обработка чисел
Когда некоторые строки содержат цифры (или другие небуквенные символы), возможны различные подходы. Иногда такие символы обрабатываются так, как если бы они были до или после всех букв алфавита. Другой метод заключается в сортировке чисел в алфавитном порядке, как они были бы написаны: например, 1776 будет отсортировано так, как если бы оно было написано как «семнадцать семьдесят шесть», а 24 heures du Mans — как если бы оно было написано как «vingt-quatre...» (по-французски «двадцать четыре»). Когда цифры или другие символы используются в качестве специальных графических форм букв, как 1337 для leet или фильма Seven (который был стилизован как Se7en ), они могут быть отсортированы так, как если бы они были этими буквами. Естественный порядок сортировки упорядочивает строки в алфавитном порядке, за исключением того, что многозначные числа обрабатываются как один символ и упорядочиваются по значению числа, закодированного цифрами.
В случае монархов и пап , хотя их номера указаны римскими цифрами и напоминают буквы, они обычно располагаются в числовом порядке: так, например, несмотря на то, что V идет после I, датский король Кристиан IX идет после своего предшественника Кристиана VIII .
Конвенциональные соглашения, специфичные для языка
Языки, использующие расширенный латинский алфавит, как правило, имеют свои собственные соглашения по обработке дополнительных букв. Кроме того, в некоторых языках определенные диграфы обрабатываются как отдельные буквы в целях сопоставления. Например, испанский алфавит обрабатывает ñ как основную букву, следующую за n , а ранее обрабатывал диграфы ch и ll как основные буквы, следующие за c и l , соответственно. Теперь ch и ll располагаются в алфавитном порядке как двухбуквенные комбинации. Новое правило алфавитизации было выпущено Королевской испанской академией в 1994 году. Эти диграфы по-прежнему формально обозначались как буквы, но с 2010 года они больше таковыми не являются. С другой стороны, диграф rr следует за rqu, как и ожидалось (и делал это даже до правила алфавитизации 1994 года), в то время как гласные с острым ударением ( á, é, í, ó, ú ) всегда располагались параллельно своим базовым буквам, как и буква ü .
Ниже перечислены правила алфавитного упорядочивания, применяемые в различных языках.
В арабском языке существует два основных порядка алфавита из 28 букв, используемых сегодня. Стандартным и наиболее часто используемым является порядок хиджади , который был создан ранним арабским лингвистом Насром ибн 'Асимом аль-Лайси и представляет собой метод визуального упорядочивания, при котором буквы упорядочиваются на основе их формы. Например, bāʾ (ب), tāʾ (ت), thāʾ (ث) сгруппированы, поскольку они имеют одинаковую базовую форму или расм (ٮ) и различаются только указанием согласного, известным как иджам . Первоначальный порядок ʾabjadī , который фонетически напоминает порядок других семитских языков , а также латыни, все еще используется сегодня, обычно ограниченный для упорядочивания списков в документе, аналогично римским цифрам . Когда в нумерации используется порядок ʾabjadī , буквы пишутся в измененной форме, чтобы отличать их от букв, используемых в словах, и от цифр. Например, ʾalif (ا), которая выглядит идентично восточно-арабской цифре один (١), небольшая овальная петля простирается по часовой стрелке от нижней части буквы, за которой следует короткий хвост (𞺀). [ необходима цитата ] Хотя эти символы редко используются в цифровом виде, они кодируются в Unicode в арабских математических алфавитных символах . [13] Менее распространенный порядок, порядок ṣawtī [ar] , сопоставляется фонетически и был создан аль-Халилем ибн Ахмадом аль-Фарахиди .
В азербайджанском языке есть восемь дополнительных букв к стандартному латинскому алфавиту. Пять из них — гласные: i, ı, ö, ü, ə и три — согласные: ç, ş, ğ. Алфавит такой же, как в турецком , с теми же звуками, записанными теми же буквами, за исключением трех дополнительных букв: q, x и ə для звуков, которых нет в турецком языке. Хотя все «турецкие буквы» располагаются в их «нормальном» алфавитном порядке, как в турецком, три дополнительные буквы располагаются произвольно после букв, звуки которых приближаются к их звукам. Так, q располагается сразу после k, x (произносится как немецкое ch ) располагается сразу после h, а ə (произносится примерно как английское краткое a ) располагается сразу после e.
В бретонском языке нет "c", "q", "x", но есть диграфы "ch" и "c'h", которые находятся между "b" и "d". Например: «buzhugenn, chug, c'hoar, daeraouenn» (червь, сок, сестра, слеза).
В чешском и словацком языках ударные гласные имеют вторичный сопоставительный вес — по сравнению с другими буквами они рассматриваются как их безударные формы (в чешском языке A-Á, E-É-Ě, I-Í, O-Ó, U-Ú-Ů, Y-Ý, а в словацком языке A-Á-Ä, E-É, I-Í, O-Ó-Ô, U-Ú, Y-Ý), но затем они сортируются после безударных букв (например, правильный лексикографический порядок — baa, baá, báa, báá, bab, báb, bac, bác, bač, báč [в чешском языке] и baa, baá, baä, báa, báá, báä, bäa, bäá, bää, bab, báb, bäb, bac, bác, bäc, bač, báč, bäč [в словацком]). Ударные согласные имеют первичный объединяющий вес и объединяются сразу после своих безударных аналогов, за исключением Ď, Ň и Ť (в чешском) и Ď, Ĺ, Ľ, Ň, Ŕ и Ť (в словацком), которые снова имеют вторичный вес. CH считается отдельной буквой и располагается между H и I. В словацком DZ и DŽ также считаются отдельными буквами и располагаются между Ď и E.
В датском и норвежском алфавитах также присутствуют те же дополнительные гласные, что и в шведском (см. ниже), но в другом порядке и с другими глифами (..., X, Y, Z, Æ , Ø , Å ). Кроме того, «Aa» рассматривается как эквивалент «Å». Датский алфавит традиционно рассматривал «W» как вариант «V», но сегодня «W» считается отдельной буквой.
В голландском языке сочетание IJ (представляющее IJ ) раньше должно было быть сопоставлено как Y (или иногда как отдельная буква: Y < IJ < Z), но в настоящее время в основном сопоставлено как 2 буквы (II < IJ < IK). Исключениями являются телефонные справочники; IJ всегда сопоставлено как Y здесь, потому что во многих голландских фамилиях используется Y там, где современное правописание потребовало бы IJ. Обратите внимание, что слово, начинающееся с ij, которое пишется с заглавной I, также пишется с заглавной J, например, город IJmuiden , река IJssel и страна IJsland ( Исландия ).
В эсперанто согласные с циркумфлексными ударениями ( ĉ , ĝ , ĥ , ĵ , ŝ ), а также ŭ (u с breve ) считаются отдельными буквами и сопоставляются отдельно (c, ĉ, d, e, f, g, ĝ, h, ĥ, i, j, ĵ ... s, ŝ, t, u, ŭ, v, z).
В эстонском языке õ , ä , ö и ü считаются отдельными буквами и располагаются после w . Буквы š , z и ž встречаются только в заимствованных словах и иностранных именах собственных и следуют за буквой s в эстонском алфавите , который в остальном не отличается от базового латинского алфавита.
Фарерский алфавит также имеет некоторые из датских, норвежских и шведских дополнительных букв, а именно Æ и Ø . Кроме того, фарерский алфавит использует исландский eth, который следует за D. Пять из шести гласных A , I , O , U и Y могут получать ударения и после этого считаются отдельными буквами. Согласные C , Q , X , W и Z не встречаются. Поэтому первые пять букв — A , Á , B , D и Ð , а последние пять — V , Y , Ý , Æ , Ø
В филиппинском (тагальском) и других филиппинских языках буква Ng рассматривается как отдельная буква. Она произносится как sing , ping-pong и т. д. Сама по себе она произносится как nang , но в общей филиппинской орфографии она пишется так, как если бы это были две отдельные буквы (n и g). Кроме того, производные буквы (например, Ñ ) следуют сразу за базовой буквой. Филиппинский язык также пишется с диакритическими знаками, но их использование очень редко (за исключением тильды ) .
Финский алфавит и правила сопоставления такие же, как и в шведском.
Для французского языка последний ударный звук в данном слове определяет порядок. [14] Например, во французском языке следующие четыре слова будут отсортированы следующим образом: cote < côte < coté < côté. Буква e упорядочена как e é è ê ë ( œ рассматривается как oe), то же самое для o как ô ö.
В немецком языке буквы с умлаутом ( Ä , Ö , Ü ) в целом обрабатываются так же, как и их неумлаутированные версии; ß всегда сортируется как ss. Это создает алфавитный порядок Arbeit, Arg, Ärgerlich, Argument, Arm, Assistant, Aßlar, Assoziation. Для телефонных справочников и подобных списков имен умлауты следует сортировать как буквенные комбинации "ae", "oe", "ue", поскольку ряд немецких фамилий появляются как с умлаутом, так и в неумлаутированной форме с "e" (Müller/Mueller). Это создает алфавитный порядок Udet, Übelacker, Uell, Ülle, Ueve, Üxküll, Uffenbach.
Венгерские гласные имеют ударения, умлауты и двойные ударения, в то время как согласные записываются одинарными, двойными (диграфы) или тройными (триграфы) символами. При сопоставлении ударные гласные эквивалентны своим неударным аналогам, а двойные и тройные символы следуют за своими одинарными оригиналами. Венгерский алфавитный порядок следующий: A=Á, B, C, Cs, D, Dz, Dzs, E=É, F, G, Gy, H, I=Í, J, K, L, Ly, M, N, Ny, O=Ó, Ö=Ő, P, Q, R, S, Sz, T, Ty, U=Ú, Ü=Ű, V, W, X, Y, Z, Zs . (До 1984 года dz и dzs не считались отдельными буквами для сопоставления, а считались двумя буквами каждое, d+z и d+zs вместо этого.) Это означает, что, например, nádcukor должно предшествовать nádcsomó (хотя s обычно предшествует u ), поскольку c предшествует cs в сопоставлении. Разницу в длине гласных следует принимать во внимание только в том случае, если два слова в остальном идентичны (например, egér, éger ). Пробелы и дефисы внутри фраз игнорируются при сопоставлении. Ch также встречается как диграф в некоторых словах, но он не считается графемой сам по себе с точки зрения сопоставления.
Особенностью венгерской сортировки является то, что сокращенные формы двойных ди- и триграфов (такие как ggy от gy + gy или ddzs от dzs + dzs ) должны сортироваться так, как если бы они были написаны полностью (независимо от факта сокращения и элементов ди- или триграфов). Например, kaszinó должно предшествовать kassza (хотя четвертый символ z обычно следует после s в алфавите), потому что четвертый «символ» ( графема ) слова kassza считается вторым sz (разлагая ssz на sz + sz ), который следует за i (в kaszinó ).
В исландском добавляется Þ , а за D следует Ð . За каждой гласной (A, E, I, O, U, Y) следует ее соответствующая с акутом : Á, É, Í, Ó, Ú, Ý. Z отсутствует, поэтому алфавит заканчивается: ... X, Y, Ý, Þ , Æ , Ö.
Обе буквы использовались также англосаксонскими писцами, которые также использовали руническую букву Wynn для обозначения /w/.
Þ (называемая шипом; строчная þ) также является рунической буквой.
Ð (называемая eth; строчная ð) — это буква D с добавленной чертой.
Кайова упорядочена по фонетическому принципу, как и брахмические письмена , а не по историческому латинскому порядку. Сначала идут гласные, затем смычные согласные, упорядоченные от передней части рта к задней, и от отрицательного к положительному времени начала озвончения , затем аффрикаты, фрикативные, плавные и носовые:
А, AU, E, I, O, U, B, F, P, V, D, J, T, TH, G, C, K, Q, CH, X, S, Z, L, Y, W, H, M, N
В литовском языке литовские буквы идут после своих латинских оригиналов. Другое изменение заключается в том, что Y стоит прямо перед J : ... G, H, I, Į, Y, J, K...
В польском языке буквы латинского алфавита, в частности, польские, сопоставляются после своих оригиналов: A, Ą, B, C, Ć, D, E, Ę, ..., L, Ł, M, N, Ń, O, Ó, P, ..., S, Ś, T, ..., Z, Ź, Ż. Диграфы для целей сопоставления рассматриваются так, как если бы они были двумя отдельными буквами.
В алфавитном порядке пиньинь , где слова имеют те же основные буквы в пиньинь и отличаются только модифицирующими диакритическими знаками, немодифицированная буква стоит перед модифицированной буквой. Например, ⟨e⟩ стоит перед ⟨ê⟩ (額 ( è ) перед 欸 ( ê̄ )), а ⟨u⟩ стоит перед и ⟨ü⟩ (路 ( lù ) перед 驢 ( lǘ ) и 努 ( nǔ ) перед 女 ( nǚ )). Символы с одинаковыми буквами пиньинь (включая модифицированные буквы ⟨ê⟩ и ⟨ü⟩ ) располагаются в соответствии с их тонами в следующем порядке: «первый тон (т. е. «ровный тон»), второй тон (восходящий тон), третий тон (нисходящий-восходящий тон), четвертый тон (нисходящий тон), пятый тон (нейтральный тон)», например «媽 ( mā ), 麻 ( má ), 馬 ( mǎ ), 罵 ( mà ), 嗎 ( ma )». [a]
В португальском языке порядок следования букв такой же, как в английском: A, B, C, D, E, F, G, H, I, J, K, L, M, N, O, P, Q, R, S, T, U, V, W, X, Y, Z. Диграфы и буквы с диакритическими знаками в алфавит не включены.
В румынском языке специальные символы, полученные из латинского алфавита, располагаются после своих оригиналов: A, Ă, Â, ..., I, Î, ..., S, Ș, T, Ț, ..., Z.
В сербскохорватском и других родственных южнославянских языках пять ударных букв и три слитных буквы располагаются в порядке следования оригиналов: ..., C, Č, Ć, D, DŽ, Đ, E, ..., L, LJ, M, N, NJ, O, ..., S, Š, T, ..., Z, Ž.
Испанский язык (до 1994 года) считал "CH" и "LL" отдельными буквами, что давало порядок cinco , credo , chispa и lomo , luz , llama . Это больше не так, поскольку в 1994 году RAE принял более традиционное использование, и теперь LL сопоставляется между LK и LM, а CH между CG и CI. Шесть символов с диакритическими знаками Á, É, Í, Ó, Ú, Ü рассматриваются как исходные буквы A, E, I, O, U, например: radio , ráfaga , rana , rápido , rastrillo . Единственный специфичный для испанского языка вопрос по сопоставлению — это Ñ ( eñe ) как другая буква, сопоставляемая после N.
В шведском алфавите есть три дополнительных гласных , расположенных в конце (..., X, Y, Z, Å , Ä , Ö ), похожих на датский и норвежский алфавиты, но с другими глифами и другим порядком сопоставления. Буква «W» рассматривалась как вариант «V», но в 13-м издании Svenska Akademiens ordlista (2006) «W» считалась отдельной буквой.
В турецком алфавите есть шесть дополнительных букв: ç, ğ, ı, ö, ş и ü (но нет q, w и x). Они располагаются с ç после c, ğ после g, ı перед i, ö после o, ş после s и ü после u. Первоначально, когда алфавит был введен в 1928 году, ı располагалась после i, но позже порядок был изменен так, что буквы, имеющие формы, содержащие точки, седили или другие украшающие знаки, всегда следуют за буквами с соответствующими голыми формами. Обратите внимание, что в турецкой орфографии буква I является прописной буквой без точки ı, тогда как İ является прописной буквой с точкой i.
Во вьетнамском языке есть семь дополнительных букв: ă , â , đ , ê , ô , ơ , ư, в то время как f , j , w , z отсутствуют, хотя они все еще используются (например, в интернет-адресах, иностранных заимствованиях). «f» заменяется комбинацией «ph». То же, что и для «w», — «qu».
В волапюкском языке ä , ö и ü считаются отдельными буквами и пишутся отдельно (a, ä, b ... o, ö, p ... u, ü, v), а q и w отсутствуют. [15]
В валлийском языке диграфы CH, DD, FF, NG, LL, PH, RH и TH рассматриваются как отдельные буквы, и каждая из них указывается после первого символа пары (за исключением NG, который указывается после G), создавая порядок A, B, C, CH, D, DD, E, F, FF, G, NG, H и т. д. Однако иногда может случиться, что в результате словосложения происходит сопоставление двух букв, которые не образуют диграф. Примером может служить слово LLONGYFARCH (составленное из LLON + GYFARCH). Это приводит к такому порядку, как, например, LAWR, LWCUS, LLONG, LLOM, LLONGYFARCH (NG является диграфом в LLONG, но не в LLONGYFARCH). Буквосочетание R+H (в отличие от диграфа RH) может также возникать путем сопоставления в соединениях, хотя это, как правило, не приводит к появлению пар, в которых неправильная идентификация могла бы повлиять на порядок. Для других потенциально запутанных буквосочетаний, которые могут возникнуть, а именно, D+D и L+L, в написании используется дефис (например, AD-DAL, CHWIL-LYS).
Автоматизация
Алгоритмы сортировки (в сочетании с алгоритмами сортировки ) используются в компьютерном программировании для размещения строк в алфавитном порядке. Стандартным примером является алгоритм сортировки Unicode , который может использоваться для размещения строк, содержащих любые символы Unicode , в (расширение) алфавитном порядке. [14] Его можно заставить соответствовать большинству языковых соглашений, описанных выше, путем настройки его таблицы сортировки по умолчанию. Несколько таких настроек собраны в Common Locale Data Repository .
Похожие заказы
Принцип, лежащий в основе алфавитного порядка, может применяться и в языках, которые, строго говоря, не используют алфавит (например, они могут быть записаны с использованием слоговой азбуки или абугиды ), при условии, что используемые символы имеют установленный порядок.
Для логографических систем письма, таких как китайская ханзи или японская кандзи , метод сортировки радикалов и черт часто используется как способ определения порядка символов. Японцы иногда используют порядок произношения, чаще всего с порядком Годзюон , но иногда и с более старым порядком Ироха .
В математике лексикографический порядок — это способ упорядочивания последовательностей способом, аналогичным тому, который используется для создания алфавитного порядка. [16]
Некоторые компьютерные приложения используют версию алфавитного порядка, которая может быть достигнута с помощью очень простого алгоритма , основанного исключительно на кодах ASCII или Unicode для символов. Это может иметь нестандартные эффекты, такие как размещение всех заглавных букв перед строчными. См. ASCIIbetical order .
Словарь рифм основан на сортировке слов в алфавитном порядке, начиная с последней буквы слова и заканчивая первой.
^ Есть исключение: в китайско-английском словаре ABC порядок тонов следующий: «нулевой тон (нейтральный тон), первый тон (ровный тон), второй тон (восходящий тон), третий тон (нисходящий-восходящий тон) и четвертый тон (нисходящий тон)».
Ссылки
↑ Рейнхард Г. Леманн: «27-30-22-26. Сколько букв нужно в алфавите? Случай семитских языков», в: Идея письма: письмо через границы , под редакцией Алекса де Фогта и Иоахима Фридриха Квака, Лейден: Brill 2012, стр. 11–52.
^ abc Street, Джули (10 июня 2020 г.). «От А до Я — удивительная история алфавитного порядка» (текст и аудио) . ABC News (ABC Radio National) . Australian Broadcasting Corporation. Архивировано из оригинала 2 июля 2020 г. . Получено 6 июля 2020 г. .
^ например, Псалмы 25, 34, 37, 111, 112, 119 и 145 еврейской Библии
^ Дейли, Ллойд. Вклад в историю алфавитизации в античности и средние века . Брюссель, 1967. С. 25.
^ О'Хара, Джеймс (1989). «Мессап, Кикн и алфавитный порядок Каталога итальянских героев Вергилия». Феникс . 43 (1): 35–38. дои : 10.2307/1088539. JSTOR 1088539.
^ LIVRE XI – texte latin – traduction + commentaires. Архивировано из оригинала 9 июня 2012 года . Получено 8 мая 2012 года .
^ Гибсон, Крейг (2002). Интерпретация классики: Демосфен и его древние комментаторы .
^ Рауз, Мэри А.; Рауз, Ричард М. (1991), « Statim invenire : Schools, Preachers and New Attitudes to the Page», Authentic Witnesses: Approaches to Medieval Texts and Manuscripts , University of Notre Dame Press, стр. 201–219, ISBN0-268-00622-9
↑ Кодри, Роберт (1604). Таблица алфавитная . Лондон. стр. [A4]v.
↑ Письма Кольриджа, № 507.
^ Tscharntke, Teja; Hochberg, Michael E; Rand, Tatyana A; Resh, Vincent H; Krauss, Jochen (январь 2007 г.). "Последовательность авторов и кредит за вклад в многоавторские публикации". PLOS Biol . 5 (1): e18. doi : 10.1371/journal.pbio.0050018 . PMC 1769438. PMID 17227141 .
^ Стивенс, Джеффри Р.; Дуке, Хуан Ф. (2018). «Порядок имеет значение: алфавитное расположение внутритекстовых цитат смещает показатели цитирования» (PDF) . Psychonomic Bulletin & Review . 26 (3): 1020–1026. doi : 10.3758/s13423-018-1532-8 . PMID 30288671. S2CID 52922399. Архивировано (PDF) из оригинала 10 ноября 2018 г. . Получено 10 ноября 2018 г. .
Краткое содержание: Колин Флаэрти (22 октября 2018 г.). «Дело против алфавитного именования авторов». Inside Higher Ed .
^ "Арабские математические алфавитные символы" (PDF) . Стандарт Unicode. Архивировано (PDF) из оригинала 30 октября 2022 г. Получено 26 ноября 2022 г.
^ ab "Технический стандарт Unicode № 10: Алгоритм сопоставления Unicode". Unicode, Inc. (unicode.org). 20 марта 2008 г. Архивировано из оригинала 27 августа 2008 г. Получено 27 августа 2008 г.
^ Мидгли, Ральф. "Словарь волапюк-английский" (PDF) . Архивировано из оригинала (PDF) 1 сентября 2012 года . Получено 24 сентября 2019 года .
^ Франц Баадер; Тобиас Нипков (1999). Переписывание терминов и все такое . Cambridge University Press. С. 18–19. ISBN978-0-521-77920-3.
Дальнейшее чтение
Шовен, Ивонн. Алфавитная практика . 4-е изд. Париж: Бордас, 1977. ISBN 2-04-010155-1.