stringtranslate.com

Инициатива по кодированию текста

Text Encoding Initiative ( TEI ) — это текстоцентрическое сообщество практиков в академической области цифровых гуманитарных наук , непрерывно действующее с 1980-х годов. В настоящее время сообщество поддерживает список рассылки, встречи и серии конференций, а также поддерживает технический стандарт TEI , журнал , [ 1 ] вики , репозиторий GitHub и набор инструментов .

Рекомендации TEI

Рекомендации TEI в совокупности определяют тип формата XML и являются определяющим результатом сообщества практиков. Этот формат отличается от других известных открытых форматов текста (таких как HTML и OpenDocument ) тем, что он в первую очередь семантический, а не презентационный: указаны семантика и интерпретация каждого тега и атрибута. Существует около 500 различных текстовых компонентов и понятий: слово , [2] предложение , [3] символ , [4] глиф , [5] человек , [6] и т. д. Каждый из них основан на одной или нескольких академических дисциплинах, и приведены примеры. .

Технические детали

Стандарт разделен на две части: дискурсивное текстовое описание с расширенными примерами и обсуждением, а также набор определений по тегам. Схемы в большинстве современных форматов ( DTD , RELAX NG и XML Schema (W3C) ) генерируются автоматически на основе пометочных определений. Ряд инструментов поддерживает разработку руководств и их применение к конкретным проектам.

Ряд специальных тегов используется для обхода ограничений, налагаемых базовым Unicode ; глиф , позволяющий представлять символы, которые не подходят для включения в Юникод [2], и выбор , позволяющий преодолеть требуемую строгую линейность. [7]

Большинство пользователей формата не используют полный набор тегов, а производят настройку, используя подмножество тегов и атрибутов, специфичных для проекта, определенных Руководящими принципами. Для этой цели TEI определяет сложный механизм настройки, известный как ODD. Помимо документирования и описания каждого тега TEI, спецификация ODD определяет его модель контента и другие ограничения использования, которые могут быть выражены с помощью Schematron .

TEI Lite — пример такой настройки. Он определяет формат файла на основе XML для обмена текстами. Это удобный выбор из обширного набора элементов, доступных в полной версии Руководства TEI.

Будучи форматом на основе XML, TEI не может напрямую работать с перекрывающейся разметкой и неиерархическими структурами. В руководящих принципах предлагаются различные варианты представления такого рода данных. [8]

Примеры

Текст рекомендаций TEI богат примерами. В вики TEI также есть страница с примерами [9] , на которой приведены примеры реальных проектов, раскрывающих лежащий в их основе TEI.

Проза Теги

TEI позволяет синтаксически размечать тексты на любом уровне детализации или смешанном уровне детализации. Например, этот абзац (p) разбит на предложения (s) и пункты (cl). [10]

 <s> <cl> Примерно в начале сентября 1664 года <cl> я , среди остальных моих соседей , услышал в обычном разговоре <cl> , что чума снова вернулась в Голландию ; _ _ _ </cl> </cl> </cl> <cl> ибо там , особенно в Амстердаме и Роттердаме , в 1663 году было очень жестоко , </cl> <cl> куда , <cl> говорят , </cl> он был привезен, <cl> одни говорили </cl> из Италии, другие из Леванта , среди некоторых товаров , <cl> которые были привезены домой их турецким флотом; </cl> </cl> <cl> другие говорили , что оно было привезено из Кандии; другие с Кипра. </cl> </s> <s> <cl> Не имело значения , <cl> откуда оно пришло ; </cl> </cl> <cl> но все согласились, что <cl> он снова прибыл в Голландию . </cl> </cl> </s>                                                                                                           

Стих

В TEI есть теги для разметки стихов. В этом примере (взятом из французского перевода Руководства TEI) показан сонет. [11]

<div type= "sonnet" > <lg type= "quatrain" > <l> Les amoureux fevents et les savants austères </l> <l> Aiment également, dans leur mûre saison, </l> <l> Les Chats puissants et doux, orgueil de la maison, </l> <l> Qui comme eux sont frileux et comme eux sédentaires. </l> </lg> < lg type = "quatrain " > <l> Друзья науки и сладострастия </l> <l> Ils cherchent le тишина и l' horreur des ténèbres ; </l> <l> L'Érèbe les eût pris pour ses Coursiers Funèbres, </l> <l> S'ils pouvaient au servage incliner leur fierté. </l> </lg> <lg type= "tercet" > <l> Ils prennent en songeant les благородные отношения </l> <l> Des grands sphinx allongés au Fondes des Solitudes, </l> <l> Qui Semblent s'endormir dans un reve sans fin ; </l> </lg> <lg type= "tercet" > <l> Leurs reins féconds sont pleins d'étincelles magiques, </l> <l> Et des packageles d'or, ainsi qu'un соболиный плавник, </l> <l> Эта расплывчатость leurs prunelles mystiques.</l> </lg> </div>                                                                                                                               

Выбор тега

Тег выбора используется для представления разделов текста, которые могут быть закодированы или помечены более чем одним возможным способом. В следующем примере, основанном на стандарте, выбор используется дважды: один раз для обозначения исходного и исправленного номера, а также один раз для обозначения исходного и упорядоченного написания. [12]

<p xml : id= "p23" > Наконец, что, под своей торжественной клятвой соблюдать все вышеизложенное           статей,  указанный человек- гора  должен иметь суточное содержание в размере       мяса  и  питья ,  достаточных  для  поддержания <choice> <sic> 1724 </sic> <corr> 1728 </corr> </choice> наших подданных , _         со  свободным  доступом  к  нашей  королевской  персоне  и  другими  знаками  нашей <choice> <orig> благосклонности </orig> <reg> благосклонности </reg> </choice> .  _   

СТРАННЫЙ

One Document Does it all («ODD») — это грамотный язык программирования для XML-схем . [13] [14] [15] [16]

В стиле грамотного программирования документы ODD сочетают в себе удобочитаемую документацию и машиночитаемые модели с использованием модуля «Элементы документации» Инициативы по кодированию текста. Инструменты генерируют локализованные и интернационализированные выходные данные в формате HTML , ePub или PDF , а также машиночитаемые выходные данные DTD , W3C XML Schema , Relax NG Compact Syntax или Relax NG XML Syntax.

Веб-приложение Roma [17] построено на основе формата ODD и может использовать его для генерации схем в форматах DTD , W3C XML Schema , Relax NG Compact Syntax или Relax NG XML Syntax, которые используются многими инструментами и службами проверки XML.

ODD — это формат, используемый внутри компании Text Encoding Initiative для технического стандарта TEI . [18] Хотя файлы ODD обычно описывают разницу между индивидуальным форматом XML и полной моделью TEI, ODD также может использоваться для описания форматов XML, которые полностью отделены от TEI. Одним из примеров этого является набор тегов интернационализации W3C , который использует формат ODD для создания схем и документирования своего словаря. [19] [20]

Настройки TEI

Настройки TEI — это специализация спецификации TEI XML для использования в определенных областях или определенными сообществами.

Настройка в TEI осуществляется с помощью механизма ODD, упомянутого выше. На самом деле, начиная с версии P5, все так называемые «TEI-совместимые» варианты использования Руководства TEI основаны на настройке TEI, задокументированной в файле TEI ODD. Даже когда пользователи выбирают для проверки одну из готовых предварительно созданных схем, они создаются из свободно доступных файлов настройки.

Проекты

Этот формат используется многими проектами по всему миру. Практически все проекты связаны с одним или несколькими университетами. Некоторые известные проекты, кодирующие тексты с использованием TEI, включают:

История

До создания TEI у ученых-гуманитариев не было единых стандартов кодирования электронных текстов, которые могли бы служить их академическим целям ( Хоккей , 1993, стр. 41). В 1987 году группа ученых, представляющих области гуманитарных наук, лингвистики и информатики, собралась в колледже Вассар, чтобы выдвинуть набор руководящих принципов, известных как «Принципы Покипси». Эти рекомендации направили разработку первого стандарта TEI «P1». [23] [24]

Рекомендации

  1. ^ «Журнал Инициативы по кодированию текста» . Открытые издания журналов . Проверено 29 июня 2022 г.
  2. ^ ab «Элемент TEI w (слово)». tei-c.org .
  3. ^ «Элемент TEI s (s-единица)» . tei-c.org .
  4. ^ «Элемент TEI c (символ)» . tei-c.org .
  5. ^ «Элемент TEI g (символ или глиф)» . tei-c.org .
  6. ^ «Элемент TEI человек (человек)» . tei-c.org .
  7. ^ «Выбор элемента». www.tei-c.org .
  8. ^ «20 неиерархических структур - TEI P5: - Рекомендации по электронному кодированию текста и обмену» . tei-c.org . 2019 . Проверено 19 марта 2019 г.
  9. ^ «Образцы текстов TEI». wiki.tei-c.org . 2011 . Проверено 17 апреля 2012 г.
  10. ^ «17 простых аналитических механизмов - TEI P5: - Рекомендации по электронному кодированию текста и обмену» . tei-c.org . 2012 . Проверено 15 апреля 2012 г.
  11. ^ «Элемент TEI lg (группа версий)» . tei-c.org . 2012 . Проверено 15 апреля 2012 г.
  12. ^ «Выбор элемента TEI» . tei-c.org . 2012 . Проверено 15 апреля 2012 г.
  13. ^ Бауман, Сид; Фландерс, Джулия (2004), «Настройки ODD», Extreme Markup Languages, 2004 г..
  14. ^ Бернард, Лу; Рахц, Себастьян (2004), «Расслабьтесь с сыном ODD», Extreme Markup Languages ​​2004.
  15. ^ Рейсс, Кевин М. (2007), Грамотная документация для XML (PDF) , Урбана-Шампейн, Иллинойс: Цифровые гуманитарные науки, 2007 г..
  16. ^ Бернард, Лу; Рахц, Себастьян (июнь 2013 г.). «Полный язык определения схемы для инициативы по кодированию текста». XML Лондон 2013 : 152–161. doi : 10.14337/XMLLondon13.Rahtz01 . ISBN 978-0-9926471-0-0.
  17. ^ Веб-приложение Ромы
  18. ^ Бернард, Лу; Бауман, Сид, ред. (2007), TEI P5: Рекомендации по электронному кодированию и обмену текстом, Шарлоттсвилл, Вирджиния, США: Консорциум TEI.
  19. ^ Файл W3C ITS и TEI ODD
  20. ^ Савурель, Ив; Косек, Йирка; Исида, Ричард, ред. (2008), «5.2 ITS и TEI», Лучшие практики интернационализации XML, Рабочая группа W3C.
  21. ^ "Инициатива по кодированию уставов - Людвиг-Максимилианс-Мюнхенский университет" . www.cei.lmu.de. _
  22. ^ "Средневековый скандинавский текстовый архив (Менота)" . www.menota.org .
  23. ^ Аронхейм, младший (1998). «Описательные метаданные: новые стандарты». Журнал академического библиотечного дела . 24 (5): 395–403. дои : 10.1016/S0099-1333(98)90079-9.
  24. ^ Кантара, Л. (2005). «Инициатива по кодированию текста: Часть 1». OCLC Системы и услуги . 21 (1): 36–39. дои : 10.1108/10650750510578136.
  25. ^ «Ассоциация компьютеров и гуманитарных наук |» . ach.org .
  26. ^ «Историческая справка», раздел iv.2 TEI P5: Рекомендации по электронному кодированию текста и обмену ими.
  27. ^ «Заключительное заявление конференции по планированию Вассара». tei-c.org . 2009 . Проверено 15 апреля 2012 г.
  28. ^ «Руководство TEI» . Проверено 18 июня 2010 г.
  29. ^ "2", Основы XML , получено 9 июля 2011 г.
  30. ^ «Расширяемый язык разметки (XML) 1.0 (пятое издание)» . w3.org .
  31. ^ «Примечания к выпуску P5 версии 2.0.1» . tei-c.org . 2012 . Проверено 15 апреля 2012 г.
  32. ^ «TEI: Инициатива по кодированию текста» .

Внешние ссылки