Электронный текст

e-text (от « electronic text »; иногда пишется как etext ) — это общий термин для любого документа , который читается в цифровой форме , и особенно документа, который в основном является текстом. Например, компьютерная книга по искусству с минимальным текстом или набор фотографий или сканов страниц , как правило, не называется «e-text». E-text может быть двоичным или простым текстовым файлом, просматриваемым с помощью любого программного обеспечения с открытым исходным кодом или патентованного программного обеспечения . E-text может иметь разметку или другую информацию о форматировании , или нет. E-text может быть электронным изданием произведения, изначально составленного или опубликованного на других носителях, или может быть изначально создан в электронной форме. Термин обычно является синонимом e-book .

Происхождение электронных текстов

Электронные тексты или электронные документы появились задолго до появления Интернета, Сети и специализированного оборудования для чтения электронных книг. Роберто Буса начал разрабатывать электронное издание Аквинского в 1940-х годах, в то время как крупномасштабное электронное редактирование текста, гипертекст и платформы онлайн-чтения, такие как Augment и FRESS, появились в 1960-х годах. Эти ранние системы широко использовали форматирование, разметку , автоматические таблицы содержания, гиперссылки и другую информацию в своих текстах, а также в некоторых случаях (например, FRESS) поддерживали не только текст, но и графику. ^[1]

«Просто обычный текст»

В некоторых сообществах термин «электронный текст» используется гораздо более узко, для обозначения электронных документов, которые, так сказать, являются «простым ванильным ASCII ». Под этим подразумевается не только то, что документ является простым текстовым файлом, но и то, что он не содержит никакой информации, кроме «самого текста» — никакого представления жирного или курсивного шрифта, границ абзацев, страниц, глав или сносок и т. д. Майкл С. Харт ^[2] , например, утверждал, что это «единственный текстовый режим, который приятен как для глаз, так и для компьютера». Харт высказал правильное ^{[ по мнению кого? ]} замечание о том, что фирменные форматы текстовых процессоров сделали тексты совершенно недоступными; но это не имеет отношения к стандартным открытым форматам данных. Узкое значение термина «электронный текст» сейчас встречается редко, потому что понятие «просто ванильный ASCII» (привлекательное на первый взгляд) оказалось сопряжено с серьезными трудностями:

Во-первых, этот узкий тип "e-text" ограничен английскими буквами. Даже испанская ñ или акцентированные гласные, используемые во многих европейских языках, не могут быть представлены (разве что неловко и двусмысленно как "~n" "a'"). Азиатские, славянские, греческие и другие системы письма невозможны.

Во-вторых, диаграммы и рисунки разместить невозможно, а во многих книгах такой материал присутствует, хотя зачастую он необходим для книги.

В-третьих, «электронные тексты» в этом узком смысле не имеют надежного способа отличить «текст» от других вещей, которые встречаются в работе. Например, номера страниц, заголовки страниц и сноски могут быть опущены или могут просто отображаться как дополнительные строки текста, возможно, с пустыми строками до и после (или без них). Декоративная разделительная линия может быть представлена вместо этого линией звездочек (или нет). Названия глав и разделов также являются просто дополнительными строками текста: их можно обнаружить по заглавным буквам, если они были все заглавными в оригинале (или нет). Даже для того, чтобы узнать, какие соглашения (если таковые были) были использованы, каждая книга становится новым исследовательским или проектом по обратному проектированию.

Вследствие этого такие тексты не могут быть надежно переформатированы. Программа не может надежно определить, где находятся сноски, верхние или нижние колонтитулы или, возможно, даже абзацы, поэтому она не может переупорядочить текст, например, чтобы он соответствовал более узкому экрану, или прочитать его вслух для людей с нарушениями зрения. Программы могут применять эвристики, чтобы угадать структуру, но это может легко потерпеть неудачу.

В-четвертых, и, возможно, удивительно ^{[ по мнению кого? ]} важный вопрос, электронный текст «простого текста» не дает возможности представить информацию о работе. Например, это первое или десятое издание? Кто его подготовил, и какие права они оставляют за собой или предоставляют другим? Это сырая версия прямо со сканера или она была вычитана и исправлена? Метаданные, относящиеся к тексту, иногда включаются в электронный текст, но по этому определению нет способа сказать, установлены ли они заранее или где. В лучшем случае может быть включен (или нет) текст титульного листа, возможно, с центрированием, имитированным отступом.

В-пятых, тексты с более сложной информацией вообще не могут быть обработаны. Двуязычное издание или критическое издание со сносками, комментариями, критическим аппаратом, перекрестными ссылками или даже простейшими таблицами. Это приводит к бесконечным практическим проблемам: например, если компьютер не может надежно различать сноски, он не может найти фразу, которую прерывает сноска.

Даже необработанный вывод OCR сканера обычно выдает больше информации, чем эта, например, использование жирного и курсивного шрифта. Если эта информация не сохраняется, ее восстановление будет дорогим и трудоемким; более сложную информацию, например, какое у вас издание, восстановить вообще невозможно.

Если на самом деле, даже "простой текст" использует своего рода "разметку" — обычно управляющие символы , пробелы, табуляции и т. п.: пробелы между словами; два возврата и 5 пробелов для абзаца. Главное отличие от более формальной разметки заключается в том, что "простые тексты" используют неявные, обычно недокументированные соглашения, которые поэтому непоследовательны и трудны для распознавания. ^[3]

Узкое понимание электронного текста как "простого ванильного ASCII" вышло из моды. ^{[ по мнению кого? ]} Тем не менее, многие такие тексты свободно доступны в Интернете, возможно, как из-за простоты их создания, так и из-за предполагаемого преимущества переносимости. В течение многих лет Project Gutenberg решительно поддерживал эту модель текста, но со временем начал разрабатывать и распространять более эффективные формы, такие как HTML .

Смотрите также

Ссылки

↑ Чтение и написание электронных книг. Николь Янкелович, Норман Мейровиц и Андрис ван Дам. IEEE Computer 18(10), октябрь 1985 г. http://dl.acm.org/citation.cfm?id=4407
^ Майкл С. Харт
^ Кумбс, Джеймс Х.; Ренир, Аллен Х.; ДеРоуз, Стивен Дж. (ноябрь 1987 г.). «Системы разметки и будущее обработки научных текстов». Сообщения ACM . 30 (11). ACM : 933–947. doi : 10.1145/32206.32209 . S2CID 59941802.

Внешние ссылки

Библиография научных электронных публикаций