stringtranslate.com

Электронный текст

Электронный текст (от « электронный текст »; иногда пишется как etext ) — общий термин для любого документа , который читается в цифровой форме , и особенно для документа, который в основном представляет собой текст. Например, компьютерная книга по искусству с минимальным количеством текста или набором фотографий или сканирований страниц обычно не называется «электронным текстом». Электронный текст может представлять собой двоичный или простой текстовый файл, просматриваемый с помощью любого открытого или проприетарного программного обеспечения . Электронный текст может иметь разметку или другую информацию о форматировании или не иметь его. Электронный текст может представлять собой электронное издание произведения, первоначально созданного или опубликованного на других носителях, либо может быть изначально создано в электронной форме. Этот термин обычно является синонимом электронной книги .

Происхождение электронного текста

Электронные тексты или электронные документы появились задолго до появления Интернета, Интернета и специализированного оборудования для чтения электронных книг. Роберто Буса начал разработку электронного издания Аквинского в 1940-х годах, а в 1960-х годах появились крупномасштабные платформы электронного редактирования текста, гипертекста и онлайн-чтения, такие как Augment и FRESS . Эти ранние системы широко использовали форматирование, разметку , автоматические оглавления, гиперссылки и другую информацию в своих текстах, а также в некоторых случаях (например, FRESS) поддерживали не только текст, но и графику. [1]

«Просто текст»

В некоторых сообществах «электронный текст» используется гораздо более узко, для обозначения электронных документов, которые представляют собой, так сказать, «простой ванильный ASCII ». Под этим подразумевается не только то, что документ представляет собой простой текстовый файл, но и то, что он не содержит никакой информации, кроме «самого текста» — никакого выделения жирным шрифтом или курсивом, границ абзацев, страниц, глав или сносок и т. д. Майкл С. Харт [2] , например, утверждал, что это «единственный текстовый режим, который удобен как для глаз, так и для компьютера». Харт сделал правильный [ по мнению кого? ] указывают на то, что проприетарные форматы текстовых процессоров делают тексты совершенно недоступными; но это не имеет отношения к стандартным форматам открытых данных. Узкий смысл понятия «электронный текст» сейчас встречается редко, поскольку понятие «просто ванильный ASCII» (привлекательное на первый взгляд) столкнулось с серьезными трудностями:

Во-первых, этот узкий тип «электронного текста» ограничен английскими буквами. Даже испанский – или ударные гласные, используемые во многих европейских языках, не могут быть представлены (разве что неуклюже и двусмысленно как «~n» «a'»). Азиатская, славянская, греческая и другие системы письменности невозможны.

Во-вторых, невозможно разместить диаграммы и изображения, а во многих книгах есть хотя бы некоторый такой материал; часто это важно для книги.

В-третьих, «электронные тексты» в этом узком смысле не имеют надежного способа отличить «текст» от других вещей, которые встречаются в произведении. Например, номера страниц, заголовки страниц и сноски могут быть опущены или могут просто отображаться как дополнительные строки текста, возможно, с пустыми строками до и после (или без них). Вместо этого декоративная разделительная линия может быть представлена ​​линией звездочек (или нет). Названия глав и разделов также представляют собой просто дополнительные строки текста: их можно было бы обнаружить по написанию заглавными буквами, если бы в оригинале они были заглавными буквами (или нет). Даже выяснение того, какие соглашения (если таковые имеются) были использованы, превращает каждую книгу в новое исследование или проект реверс-инжиниринга.

Вследствие этого такие тексты невозможно надежно переформатировать. Программа не может достоверно определить, где находятся сноски, верхние и нижние колонтитулы или, возможно, даже абзацы, поэтому она не может переупорядочить текст, например, чтобы он соответствовал более узкому экрану, или прочитать его вслух для людей с ослабленным зрением. Программы могут применять эвристику , чтобы угадать структуру, но это может легко потерпеть неудачу.

В-четвертых, и, возможно, удивительно [ по мнению кого? ] важная проблема: электронный текст в формате «обычного текста» не позволяет представить информацию о произведении. Например, это первое или десятое издание? Кто его подготовил и какие права они оставляют за собой или предоставляют другим? Это необработанная версия, снятая со сканера, или она была проверена и исправлена? Метаданные , относящиеся к тексту, иногда включаются в электронный текст, но по этому определению невозможно сказать, предустановлены ли они и где. В лучшем случае текст титульного листа может быть включен (или нет), возможно, с центрированием, имитируемым отступом.

В-пятых, тексты с более сложной информацией вообще не поддаются обработке. Двуязычное издание или критическое издание со сносками, комментариями, критическим аппаратом, перекрестными ссылками или даже простейшими таблицами. Это приводит к бесконечным практическим проблемам: например, если компьютер не может надежно различать сноски, он не может найти фразу, которую прерывает сноска.

Даже необработанные результаты OCR сканера обычно дают больше информации, например, использование жирного шрифта и курсива. Если эта информация не сохраняется, ее восстановление будет дорогостоящим и трудоемким; более сложную информацию, например, какое у вас издание, возможно, вообще невозможно восстановить.

На самом деле даже «обычный текст» использует некоторую «разметку» — обычно управляющие символы , пробелы, табуляции и тому подобное: Пробелы между словами; два возврата и 5 пробелов для абзаца. Основное отличие от более формальной разметки состоит в том, что «простые тексты» используют неявные, обычно недокументированные соглашения, которые поэтому непоследовательны и их трудно распознать. [3]

Узкое понимание электронного текста как «простого ванильного ASCII» вышло из моды. [ по мнению кого? ] Тем не менее, многие такие тексты находятся в свободном доступе в Интернете, возможно, как потому, что их легко создавать, так и из-за каких-либо предполагаемых преимуществ переносимости. В течение многих лет Project Gutenberg решительно отдавал предпочтение этой модели текста, но со временем начал разрабатывать и распространять более функциональные формы, такие как HTML .

Смотрите также

Рекомендации

  1. ^ Чтение и написание электронной книги. Николь Янкелович, Норман Мейровиц и Андрис ван Дам. IEEE Computer 18(10), октябрь 1985 г. http://dl.acm.org/citation.cfm?id=4407.
  2. ^ Майкл С. Харт
  3. ^ Кумбс, Джеймс Х.; Ренер, Аллен Х.; ДеРоуз, Стивен Дж. (ноябрь 1987 г.). «Системы разметки и будущее научной обработки текста». Коммуникации АКМ . АКМ . 30 (11): 933–947. дои : 10.1145/32206.32209 . S2CID  59941802.

Внешние ссылки