stringtranslate.com

Партнерство по созданию текста

Text Creation Partnership ( TCP ) — некоммерческая организация, базирующаяся в библиотеке Мичиганского университета с 2000 года . Ее цель — создание крупномасштабных полнотекстовых электронных ресурсов (особенно в области гуманитарных наук) от имени как учреждений-членов (в частности, академических библиотек), так и научных издательств в рамках соглашения, рассчитанного на удовлетворение потребностей обеих сторон, и тем самым на демонстрацию ценности бизнес-модели, которая рассматривает корпоративных и некоммерческих поставщиков информации как потенциально дружественных соавторов, а не как антагонистических поставщиков и клиентов соответственно. [1]

Проекты

На сегодняшний день TCP спонсировал четыре проекта по созданию текстов. Первый и самый крупный — «EEBO-TCP (Phase I)» (2001–2009), попытка создать структурно размеченные полнотекстовые транскрипции 25 000+ из примерно 125 000 книг, которые можно найти либо в каталогах ранних английских печатных книг Pollard and Redgrave and Wing с краткими названиями , либо среди Thomason Tracts , то есть среди почти всех книг, брошюр и брошюр, опубликованных на английском языке или в Англии до 1700 года. Книги были отобраны и транскрибированы из цифровых сканов, созданных ProQuest Information and Learning, и распространены ими как веб-продукт под названием « Early English Books Online » (EEBO). Сканированные копии, с которых были расшифрованы тексты, были сделаны с микрофильмированных копий, сделанных на протяжении многих лет ProQuest и ее предшествующими компаниями, включая оригинальную University Microfilms, Inc. [2] Фаза I EEBO-TCP завершилась в конце 2009 года, когда было расшифровано около 25 300 наименований, и сразу же перешла к фазе II EEBO-TCP (2009–), проекту-продолжению, посвященному конвертации всех оставшихся уникальных англоязычных монографий (примерно 45 000 дополнительных наименований).

Третьим проектом TCP был Evans-TCP (2003–2007, с некоторой продолжающейся работой до 2010 года), попытка транскрибировать 6000 из 36000 названий до 1800 года, перечисленных в Американской библиографии Чарльза Эванса, и распространить, снова в виде изображений страниц, отсканированных с микрофильмов, Readex , подразделением NewsBank, Inc. под названием «Архив Американы» («Ранние американские отпечатки, серия I: Эванс, 1639–1800»). Evans-TCP выпустил электронные тексты почти 5000 книг.

Последним проектом TCP был ECCO-TCP (2005–2010, с некоторыми текущими работами), попытка транскрибировать 10 000 книг восемнадцатого века из 136 000 названий, доступных в веб-ресурсе Thomson-Gale , "Eighteenth-Century Collections Online" (ECCO). ECCO-TCP исчерпал финансирование в 2010 году после транскрибирования около 3000 (и редактирования около 2400) названий.

Общие черты проекта

Все четыре проекта текста TCP очень похожи. В каждом случае:

  1. TCP создает текст из коммерческих файлов изображений, которые, в свою очередь, были созданы из микрофильмированных копий ранних книг.
  2. Поставщики коммерческих изображений получают то, что по сути является полнотекстовым индексом к их графическому продукту, за гораздо меньшую сумму, чем это стоило бы сделать самостоятельно: добавленную стоимость к их продукту.
  3. Библиотеки-партнеры фактически владеют, а не просто лицензируют, полученными текстами и могут свободно (при соблюдении некоторых условий) размещать тексты в любой системе по своему усмотрению или использовать тексты для внутренних целей в качестве инструмента научной и преподавательской деятельности.
  4. Тексты создаются в соответствии со стандартами, определенными библиотекой, являются едиными для нескольких наборов данных и потенциально пригодными для перекрестного поиска.
  5. Поскольку тексты создаются совместно, они относительно недороги (в расчете на одну книгу) и становятся все более недорогими с каждой библиотекой, присоединяющейся к партнерству.
  6. В конечном итоге тексты будут доступны широкой общественности.
  7. Выбор текстов для конвертации, хотя и различается от проекта к проекту, в каждом случае следует схожим принципам: разнообразие, значимость, репрезентативность, избежание дублирования; особые запросы от преподавателей или научных инициатив в учреждениях-участниках также, как правило, учитываются.
  8. До сих пор TCP в первую очередь интересовался созданием текстов, а не созданием «продукта»; хотя тексты всех трех проектов размещены или будут размещены на серверах библиотеки Мичиганского университета, сайт Мичигана не является официальным сайтом TCP: любая партнерская библиотека с достаточными ресурсами и мерами безопасности может сделать то же самое. Например, тексты EEBO-TCP обслуживаются Мичиганом, ProQuest, цифровой библиотекой Оксфордского университета и Чикагским университетом.

Организация

TCP курируется Советом директоров, в состав которого входят в основном старшие администраторы библиотек в учреждениях-партнерах, представители корпоративных партнеров и Совет по библиотечным и информационным ресурсам (CLIR). Совету в вопросах отбора и стипендий помогает академическая консультативная группа, в которую входят преподаватели в области раннего современного английского языка и американских исследований.

TCP имеет неформальные связи с рядом университетских научных текстовых проектов, особенно в плане предоставления им исходных текстов для работы. Представленные учреждения включают Северо-Западный университет , Оксфордский университет , Вашингтонский университет в Сент-Луисе , Сиднейский университет , Торонтский университет и Викторийский университет . TCP также работал со студентами, спонсируя ежегодный конкурс эссе для студентов, собирая целевые группы по использованию текстов TCP в педагогике и обращаясь к ученым и студентам за идеями по выбору и использованию.

Производством текста управляет Служба производства цифровых библиотек Мичиганского университета (DLPS), имеющая обширный опыт в производстве электронных текстов в кодировке SGML/XML. DLPS помогает Бодлианская система цифровых библиотек и службы (BDLSS) Оксфордского университета, включая покойного Себастьяна Ратца . Небольшие неполные производственные операции также были начаты в двух других библиотеках: Центр исследований Реформации и Возрождения в библиотеке Пратта (Университет Виктории в Университете Торонто), специализирующийся на латинских книгах; и Национальная библиотека Уэльса (Llyfrgell Genedlaethol Cymru) в Аберистуите, специализирующаяся на валлийских книгах.

Стандарты

Все четыре проекта текста TCP производятся одинаково и по одним и тем же стандартам, которые задокументированы, по крайней мере частично, на веб-сайте TCP. [3]

  1. Точность. TCP стремится создавать тексты, которые транскрибируются как можно точнее, с заданным общим показателем точности 99,995% или лучше (т.е. одна ошибка или меньше на 20 000 символов).
  2. Ключирование. Учитывая характер материала, единственным методом, который был найден для экономически эффективного обеспечения такой точности, было поручение кодирования книг фирмам по преобразованию данных по контракту.
  3. Контроль качества. Точность транскрипции и правильность разметки во всех случаях оцениваются группой корректоров и рецензентов из библиотеки, которыми руководит DLPS Мичиганского университета.
  4. Кодировка. Все полученные текстовые файлы размечены в допустимом формате SGML или XML (SGML архивируется, XML экспортируется) в соответствии с фирменным «Описанием типа документа» (DTD), полученным из версии P3/P4 стандарта Text Encoding Initiative (TEI).
  5. Целенаправленная разметка. По сравнению с полным TEI, TCP DTD очень прост и предназначен для захвата только наиболее полезных функций для понятного отображения, интеллектуальной навигации и продуктивного поиска. Практика TCP заключается в захвате, насколько это возможно, общей иерархической структуры каждой книги (частей, разделов, глав и т. д.); функций, которые, как правило, отмечают начало и конец разделов (заголовки, явные выражения, приветствия, прощания, даты, подписи авторов, эпиграфы и т. д.); наиболее значимых элементов дискурса и организации (абзацы в прозе, строки и строфы в стихах, речи, ораторы и сценические ремарки в драме, заметки, блочные цитаты, последовательные нумерации всех видов); и только самых существенных аспектов физического форматирования (разрывы страниц, списки, таблицы, изменения шрифта).
  6. Верность оригиналу. В каждом случае текст должен представлять книгу в том виде, в котором она была напечатана изначально, насколько это возможно. Ошибки печатника сохраняются, рукописные изменения игнорируются, дубликаты сканов опускаются, неупорядоченные изображения вставляются в предполагаемом порядке, и большинство необычных символов оригинала сохраняются.
  7. Простота чтения и поиска. В то же время, хотя транскрипции выполняются посимвольно, TCP, исходя из теории, что вся транскрипция является своего рода переводом из одной символической системы в другую, имеет тенденцию определять символы в терминах скорее их значения, чем их формы, и сопоставлять эксцентричные формы букв с осмысленными современными эквивалентами, в целом в соответствии с определением «символа» в Unicode.
  8. Языки. Хотя большинство текстов TCP на английском, многие нет. Книги и разделы книг не на английском языке помечены соответствующим языковым кодом, но не различаются иным образом.
  9. Пропущенный материал. TCP создает текст на латинском алфавите . Нетекстовый материал, такой как нотная запись, математические формулы и иллюстрации (за исключением текста, который они могут содержать), пропускается, а их местоположение отмечается специальным тегом. Расширенный текст на нелатинских алфавитах (греческий, иврит, персидский и т. д.) также пропускается.

Достижения и перспективы

По состоянию на апрель 2011 года TCP создал около 40 000 доступных для поиска, навигации, полных текстовых транскрипций ранних книг, базу данных непревзойденного охвата, масштаба и полезности для студентов во многих областях. [ требуется ссылка ] Сможет ли он продолжить выпуск оставшихся 38 000 текстов, включенных в его амбициозные недавние планы (для EEBO-TCP Phase II), будет зависеть от обоснованности его первоначального видения, вытекающего из теории о том, что библиотеки могут и должны сотрудничать, чтобы стать производителями и разработчиками стандартов, а не потребителями; и что университеты и коммерческие фирмы, несмотря на их очень разные жизненные циклы, ограничения и мотивы, могут объединиться в долгосрочные партнерские отношения, выгодные для всех сторон.

По состоянию на 1 января 2015 года полный текст фазы I EEBO был опубликован под лицензией Creative Commons и может свободно скачиваться и распространяться.

В 2014 году было доступно 28 466 названий через Phase II. По состоянию на июль 2015 года ProQuest имела эксклюзивное право на распространение коллекции EEBO-TCP Phase II в течение пяти лет. В 2020 году тексты стали доступны для свободного доступа общественности. [4]

Смотрите также

Ссылки

  1. ^ Blumenstyk, Goldie (10 августа 2001 г.). «Проект стремится оцифровать тысячи ранних английских текстов». Chronicle of Higher Education : A47 . Получено 04.01.2007 .
  2. Бимиш, Рита (29 июля 1999 г.). «Онлайн-архив сохранит самые ранние английские книги». New York Times . Получено 04.01.2007 .
  3. ^ "Файлы производства". Text Creation Partnership . Получено 2020-03-12 .
  4. ^ "Часто задаваемые вопросы". Text Creation Partnership . Библиотека Мичиганского университета . Получено 1 мая 2024 г.