Text Encoding Initiative ( TEI ) — это текстоцентрическое сообщество практиков в академической области цифровых гуманитарных наук , непрерывно действующее с 1980-х годов. В настоящее время сообщество поддерживает список рассылки, встречи и серии конференций, а также поддерживает технический стандарт TEI , журнал , [ 1 ] вики , репозиторий GitHub и набор инструментов .
Рекомендации TEI в совокупности определяют тип формата XML и являются определяющим результатом сообщества практиков. Этот формат отличается от других известных открытых форматов текста (таких как HTML и OpenDocument ) тем, что он в первую очередь семантический, а не презентационный: указаны семантика и интерпретация каждого тега и атрибута. Существует около 500 различных текстовых компонентов и понятий: слово , [2] предложение , [3] символ , [4] глиф , [5] человек , [6] и т. д. Каждый из них основан на одной или нескольких академических дисциплинах, и приведены примеры. .
Стандарт разделен на две части: дискурсивное текстовое описание с расширенными примерами и обсуждением, а также набор определений по тегам. Схемы в большинстве современных форматов ( DTD , RELAX NG и XML Schema (W3C) ) генерируются автоматически на основе пометочных определений. Ряд инструментов поддерживает разработку руководств и их применение к конкретным проектам.
Ряд специальных тегов используется для обхода ограничений, налагаемых базовым Unicode ; глиф , позволяющий представлять символы, которые не подходят для включения в Юникод [2], и выбор , позволяющий преодолеть требуемую строгую линейность. [7]
Большинство пользователей формата не используют полный набор тегов, а производят настройку, используя подмножество тегов и атрибутов, специфичных для проекта, определенных Руководящими принципами. Для этой цели TEI определяет сложный механизм настройки, известный как ODD. Помимо документирования и описания каждого тега TEI, спецификация ODD определяет его модель контента и другие ограничения использования, которые могут быть выражены с помощью Schematron .
TEI Lite — пример такой настройки. Он определяет формат файла на основе XML для обмена текстами. Это удобный выбор из обширного набора элементов, доступных в полной версии Руководства TEI.
Будучи форматом на основе XML, TEI не может напрямую работать с перекрывающейся разметкой и неиерархическими структурами. В руководящих принципах предлагаются различные варианты представления такого рода данных. [8]
Текст рекомендаций TEI богат примерами. В вики TEI также есть страница с примерами [9] , на которой приведены примеры реальных проектов, раскрывающих лежащий в их основе TEI.
TEI позволяет синтаксически размечать тексты на любом уровне детализации или смешанном уровне детализации. Например, этот абзац (p) разбит на предложения (s) и пункты (cl). [10]
<s> <cl> Примерно в начале сентября 1664 года <cl> я , среди остальных моих соседей , услышал в обычном разговоре <cl> , что чума снова вернулась в Голландию ; _ _ _ </cl> </cl> </cl> <cl> ибо там , особенно в Амстердаме и Роттердаме , в 1663 году было очень жестоко , </cl> <cl> куда , <cl> говорят , </cl> он был привезен, <cl> одни говорили </cl> из Италии, другие из Леванта , среди некоторых товаров , <cl> которые были привезены домой их турецким флотом; </cl> </cl> <cl> другие говорили , что оно было привезено из Кандии; другие с Кипра. </cl> </s> <s> <cl> Не имело значения , <cl> откуда оно пришло ; </cl> </cl> <cl> но все согласились, что <cl> он снова прибыл в Голландию . </cl> </cl> </s>
В TEI есть теги для разметки стихов. В этом примере (взятом из французского перевода Руководства TEI) показан сонет. [11]
<div type= "sonnet" > <lg type= "quatrain" > <l> Les amoureux fevents et les savants austères </l> <l> Aiment également, dans leur mûre saison, </l> <l> Les Chats puissants et doux, orgueil de la maison, </l> <l> Qui comme eux sont frileux et comme eux sédentaires. </l> </lg> < lg type = "quatrain " > <l> Друзья науки и сладострастия </l> <l> Ils cherchent le тишина и l' horreur des ténèbres ; </l> <l> L'Érèbe les eût pris pour ses Coursiers Funèbres, </l> <l> S'ils pouvaient au servage incliner leur fierté. </l> </lg> <lg type= "tercet" > <l> Ils prennent en songeant les благородные отношения </l> <l> Des grands sphinx allongés au Fondes des Solitudes, </l> <l> Qui Semblent s'endormir dans un reve sans fin ; </l> </lg> <lg type= "tercet" > <l> Leurs reins féconds sont pleins d'étincelles magiques, </l> <l> Et des packageles d'or, ainsi qu'un соболиный плавник, </l> <l> Эта расплывчатость leurs prunelles mystiques.</l> </lg> </div>
Тег выбора используется для представления разделов текста, которые могут быть закодированы или помечены более чем одним возможным способом. В следующем примере, основанном на стандарте, выбор используется дважды: один раз для обозначения исходного и исправленного номера, а также один раз для обозначения исходного и упорядоченного написания. [12]
<p xml : id= "p23" > Наконец, что, под своей торжественной клятвой соблюдать все вышеизложенное статей, указанный человек- гора должен иметь суточное содержание в размере мяса и питья , достаточных для поддержания <choice> <sic> 1724 </sic> <corr> 1728 </corr> </choice> наших подданных , _ со свободным доступом к нашей королевской персоне и другими знаками нашей <choice> <orig> благосклонности </orig> <reg> благосклонности </reg> </choice> . _
One Document Does it all («ODD») — это грамотный язык программирования для XML-схем . [13] [14] [15] [16]
В стиле грамотного программирования документы ODD сочетают в себе удобочитаемую документацию и машиночитаемые модели с использованием модуля «Элементы документации» Инициативы по кодированию текста. Инструменты генерируют локализованные и интернационализированные выходные данные в формате HTML , ePub или PDF , а также машиночитаемые выходные данные DTD , W3C XML Schema , Relax NG Compact Syntax или Relax NG XML Syntax.
Веб-приложение Roma [17] построено на основе формата ODD и может использовать его для генерации схем в форматах DTD , W3C XML Schema , Relax NG Compact Syntax или Relax NG XML Syntax, которые используются многими инструментами и службами проверки XML.
ODD — это формат, используемый внутри компании Text Encoding Initiative для технического стандарта TEI . [18] Хотя файлы ODD обычно описывают разницу между индивидуальным форматом XML и полной моделью TEI, ODD также может использоваться для описания форматов XML, которые полностью отделены от TEI. Одним из примеров этого является набор тегов интернационализации W3C , который использует формат ODD для создания схем и документирования своего словаря. [19] [20]
Настройки TEI — это специализация спецификации TEI XML для использования в определенных областях или определенными сообществами.
Настройка в TEI осуществляется с помощью механизма ODD, упомянутого выше. На самом деле, начиная с версии P5, все так называемые «TEI-совместимые» варианты использования Руководства TEI основаны на настройке TEI, задокументированной в файле TEI ODD. Даже когда пользователи выбирают для проверки одну из готовых предварительно созданных схем, они создаются из свободно доступных файлов настройки.
Этот формат используется многими проектами по всему миру. Практически все проекты связаны с одним или несколькими университетами. Некоторые известные проекты, кодирующие тексты с использованием TEI, включают:
До создания TEI у ученых-гуманитариев не было единых стандартов кодирования электронных текстов, которые могли бы служить их академическим целям ( Хоккей , 1993, стр. 41). В 1987 году группа ученых, представляющих области гуманитарных наук, лингвистики и информатики, собралась в колледже Вассар, чтобы выдвинуть набор руководящих принципов, известных как «Принципы Покипси». Эти рекомендации направили разработку первого стандарта TEI «P1». [23] [24]
xml:lang
и xml:id
из W3C [30] (ранее это были атрибуты в пространстве имен TEI), регуляризацию локальных указывающих атрибутов для использования хеша (как используется в HTML) и унификацию ptr. и теги xptr. Вместе эти изменения со многими новыми дополнениями делают P5 более регулярным и приближают его к современной практике работы с XML, продвигаемой W3C и используемой другими вариантами XML. Версии обслуживания и обновления функций TEI P5 выпускаются не реже двух раз в год с 2007 года.