Проект китайского текста (CTP; китайский :中國哲學書電子化計劃) — это проект цифровой библиотеки , объединяющий коллекции ранних китайских текстов . Название проекта на китайском языке буквально означает «Проект оцифровки китайской философской книги», что указывает на то, что он ориентирован на книги, связанные с китайской философией . Он направлен на предоставление доступных и точных версий широкого спектра текстов, [1] особенно тех, которые относятся к китайской философии, и этот сайт считается одним из наиболее полных и точных коллекций классических китайских текстов в Интернете, [2] ] [3] , а также является одной из наиболее полезных текстовых баз данных для исследователей ранних китайских текстов. [4] [5]
Тексты делятся на тексты до-Цинь и Хань, а также тексты после-Хань, причем первые классифицируются по школам мысли , а вторые - по династиям . Древний раздел базы данных (до Цинь и Хань) содержит более 5 миллионов китайских иероглифов, база данных после Хань - более 20 миллионов символов, а общедоступный раздел вики - более 5 миллиардов символов. [6] Многие тексты также имеют переводы на английский и китайский языки, которые для удобства сравнения сочетаются с оригинальным текстом абзац за абзацем, а также фраза за фразой; это позволяет использовать систему в качестве полезного инструмента научных исследований даже студентами, практически не знающими китайский язык. [7]
Помимо предоставления настраиваемых функций поиска, подходящих для китайских текстов, [8] [9] сайт также пытается использовать уникальный формат Интернета, чтобы предложить ряд функций, важных для китаеведов , включая интегрированный словарь, списки слов, информация о параллельных отрывках, [10] отсканированные исходные тексты, данные согласования и индексы, [11] система метаданных, отображение китайских комментариев, [12] база данных опубликованных ресурсов и дискуссионный форум, на котором темы могут быть связаны с конкретными данными о сайт. [13] [14] Раздел «Библиотека» сайта также включает отсканированные копии более 25 миллионов страниц ранних китайских текстов, [15] [6] построчно связанных с транскрипциями в полнотекстовой базе данных, многие из которых созданы с использованием Оптическое распознавание символов, [16] редактируется и поддерживается с использованием краудсорсинговой онлайн-вики-системы. [17] [18] Текстовые данные и метаданные также можно экспортировать с помощью интерфейса прикладного программирования , что позволяет интегрировать их с другими онлайн-инструментами, а также использовать в интеллектуальном анализе текста и цифровых гуманитарных проектах. [17] [19]