Перенос строк и перенос слов

Разрыв строк , также известный как перенос слов , разбивает часть текста на строки так, чтобы она вписывалась в доступную ширину страницы, окна или другой области отображения. При отображении текста перенос строки продолжается на новой строке, когда строка заполнена, так что каждая строка помещается в просматриваемое окно, что позволяет читать текст сверху вниз без горизонтальной прокрутки . Перенос слов — это дополнительная функция большинства текстовых редакторов , текстовых процессоров и веб-браузеров , позволяющая разрывать строки между словами, а не внутри слов, где это возможно. Перенос по словам исключает необходимость жесткого кодирования разделителей новой строки внутри абзацев и позволяет отображать текст гибко и динамически адаптироваться к дисплеям различных размеров.

Мягкая и жесткая отдача

Мягкий возврат или мягкий перенос — это разрыв, возникающий в результате переноса строк или слов (автоматического или ручного), тогда как жесткий возврат или жесткий перенос — это преднамеренный разрыв, создающий новый абзац. При жестком возврате можно (и нужно) применить форматирование разрыва абзаца (либо отступы , либо вертикальные пробелы). Мягкая переноска позволяет автоматически регулировать длину строк с учетом ширины пользовательского окна или настроек полей и является стандартной функцией всех современных текстовых редакторов, текстовых процессоров и почтовых клиентов . Ручные мягкие разрывы не нужны, когда перенос слов выполняется автоматически, поэтому нажатие клавиши «Enter» обычно приводит к жесткому возврату.

В качестве альтернативы «мягкий возврат» может означать намеренный сохраненный разрыв строки, который не является разрывом абзаца. Например, почтовые адреса обычно печатаются в многострочном формате, но несколько строк считаются одним абзацем. Разрывы строк необходимы для разделения слов адреса на строки соответствующей длины.

В современных графических текстовых процессорах Microsoft Word и OpenOffice.org пользователи должны вводить возврат каретки ( ) между каждым абзацем. Настройки форматирования, такие как отступы первой строки или интервалы между абзацами, вступают в силу, когда возврат каретки отмечает разрыв. Разрыв строки без абзаца, который представляет собой мягкий возврат, вставляется с помощью + или через меню и предусмотрен для случаев, когда текст должен начинаться с новой строки, но другие побочные эффекты начала нового абзаца нежелательны. .↵ Enter⇧ Shift↵ Enter

В текстовых языках разметки мягкий возврат обычно предлагается в виде тега разметки. Например, в HTML есть тег <br>, который имеет то же назначение, что и мягкий возврат в текстовых процессорах, описанный выше.

Юникод

Алгоритм разрыва строки Unicode определяет набор позиций, известных как возможности разрыва , которые являются подходящими местами для начала новой строки. Фактические позиции разрыва строки выбираются среди возможностей разрыва программным обеспечением более высокого уровня, которое вызывает алгоритм, а не самим алгоритмом, поскольку только программное обеспечение более высокого уровня знает ширину дисплея, на котором отображается текст, и ширину глифы, составляющие отображаемый текст. ^[1]

Набор символов Юникода предоставляет символ-разделитель строк, а также разделитель абзацев для представления семантики мягкого и жесткого возврата.

0x2028 РАЗДЕЛИТЕЛЬ СТРОК

* может использоваться для однозначного представления этой семантики

0x2029 РАЗДЕЛИТЕЛЬ АБЗАЦОВ

* может использоваться для однозначного представления этой семантики

Границы слов, расстановка переносов и пробелы

Мягкие возвраты обычно размещаются после окончания полных слов или после знаков препинания, следующих за полными словами. Однако перенос слов может также произойти после дефиса внутри слова. Иногда это нежелательно, и его можно заблокировать, используя неразрывный дефис или жесткий дефис вместо обычного дефиса.

Слово без дефисов можно сделать переносимым, добавив в него мягкие дефисы . Если слово не перенесено (т. е. не разбито на строки), мягкий дефис не виден. Но если слово переносится по строкам, это делается на мягком дефисе, после чего оно отображается как видимый дефис в верхней строке, где слово разбито. (В том редком случае, когда слово предназначено для переноса путем разбиения его на строки, но без появления дефиса, в разрешенных точках разрыва в слове помещается пробел нулевой ширины .)

Иногда перенос слов между соседними словами нежелателен. В таких случаях перенос слов обычно можно заблокировать, используя жесткий или неразрывный пробел между словами вместо обычных пробелов.

Перенос слов в тексте, содержащем китайский, японский и корейский языки.

В китайском , японском и корейском языках перенос слов обычно может происходить до и после любого символа Хань , но некоторые знаки препинания не могут начинать новую строку. ^[2] Японская кана , буквы японского алфавита, обрабатываются так же, как иероглифы хань ( кандзи ) в расширении, что означает, что слова могут и имеют тенденцию разрываться без какого-либо дефиса или других указаний на то, что это произошло.

Однако при определенных обстоятельствах перенос слов нежелателен. Например,

перенос слов может быть нежелателен в личных именах, и
перенос слов может быть нежелателен внутри составных слов (когда текст выравнивается по левому краю, но только в некоторых стилях).

Большинство существующих текстовых процессоров и программ для набора текста не могут справиться ни с одним из вышеперечисленных сценариев.

Пунктуация CJK может соответствовать или не соответствовать правилам, аналогичным вышеупомянутым особым обстоятельствам. В CJK это регулируется правилами нарушения линии .

Однако всегда применяется особый случай правил переноса строк в CJK: перенос строки никогда не должен происходить внутри тире и многоточия CJK. Несмотря на то, что каждый из этих знаков препинания должен быть представлен двумя символами из-за ограничений всех существующих кодировок символов , каждый из них по своей сути представляет собой один знак препинания шириной в две em , а не два знака препинания шириной в одну em.

Алгоритм

Перенос слов является проблемой оптимизации . В зависимости от того, для чего необходимо оптимизировать, используются разные алгоритмы.

Минимальное количество строк

Простой способ переноса слов — использовать жадный алгоритм , который помещает в строку как можно больше слов, а затем переходит к следующей строке и делает то же самое до тех пор, пока не останется слов для размещения. Этот метод используется многими современными текстовыми процессорами, такими как OpenOffice.org Writer и Microsoft Word. ^{[ нужна цитация ]} Этот алгоритм всегда использует минимально возможное количество строк, но может привести к получению строк различной длины. Следующий псевдокод реализует этот алгоритм:

Пробелслефт := Ширина линиидля каждого слова в тексте if (Ширина (Word) + SpaceWidth) > SpaceLeft вставить разрыв строки перед Word в тексте SpaceLeft := LineWidth - Ширина (Слово) еще SpaceLeft := SpaceLeft - (Ширина(Слово) + SpaceWidth)

Где LineWidth— ширина линии, SpaceLeftоставшаяся ширина места в строке для заполнения, SpaceWidthширина одного пробельного символа, Textвходной текст для перебора и Wordслово в этом тексте.

Минимальная рваность

Другой алгоритм, используемый в TeX , минимизирует сумму квадратов длин пробелов в конце строк для получения более эстетичного результата. В следующем примере этот метод сравнивается с жадным алгоритмом, который не всегда минимизирует квадраты пространства.

Для ввода текста

ААА ББ СС ДДДДД

с шириной линии 6 жадный алгоритм выдаст:

------ Ширина линии: 6AAA BB Осталось места: 0CC Осталось места: 4ДДДДД Осталось места: 1

Сумма квадратов пространства, оставшегося в результате этого метода, равна . Однако оптимальное решение дает меньшую сумму : $0^{2}+4^{2}+1^{2}=17$ $3^{2}+1^{2}+1^{2}=11$

------ Ширина линии: 6AAA Осталось места: 3BB CC Осталось места: 1ДДДДД Осталось места: 1

Разница здесь в том, что первая строка разрывается до, BBа не после нее, что дает лучшее правое поле и меньшую стоимость 11.

Используя алгоритм динамического программирования для выбора позиций разрыва строки, вместо жадного выбора разрывов, решение с минимальной неровностью может быть найдено за время , где - количество слов во входном тексте. Обычно функцию стоимости для этого метода следует изменить так, чтобы она не учитывала пространство, оставшееся в последней строке абзаца; эта модификация позволяет абзацу заканчиваться в середине строки без каких-либо штрафов. Также можно применить ту же технику динамического программирования для минимизации более сложных функций стоимости, которые сочетают в себе другие факторы, такие как количество строк или затраты на расстановку переносов в длинных словах. ^[3] Более быстрые, но более сложные алгоритмы с линейным временем , основанные на алгоритме SMAWK , также известны для задачи минимальной неровности и для некоторых других функций стоимости, имеющих аналогичные свойства. ^[4]^[5] $O(n^{2})$ $n$

История

Примитивная функция разрыва строки была использована в 1955 году в «блоке управления страничным принтером», разработанном Western Union . В этой системе использовались реле, а не программируемые цифровые компьютеры, и поэтому требовался простой алгоритм, который можно было бы реализовать без буферов данных . В системе Western Union каждая строка разрывалась на первом пробеле, появлявшемся после 58-го символа, или на 70-м символе, если пробел не был найден. ^[6]

Жадный алгоритм разрыва строк предшествует методу динамического программирования, изложенному Дональдом Кнутом в неопубликованной записке 1977 года, описывающей его систему набора текста TeX ^[7] и позднее более подробно опубликованной Кнутом и Плассом (1981).

Смотрите также

Внешние ссылки

Алгоритм разрыва строки Unicode

Алгоритм Кнута

"Возвращение к новаторству Кнута и Пласса"
"tex_wrap": "Реализует алгоритм TeX для разбиения абзацев на строки." Ссылка: «Разбиение абзацев на строки», Д. Е. Кнут и М. Ф. Пласс, глава 3 книги «Цифровая типография», CSLI, конспекты лекций № 78.
Text::Reflow — модуль Perl для перекомпоновки текстовых файлов с использованием алгоритма разбиения на абзацы Кнута. «Алгоритм перекомпоновки пытается сохранить строки одинаковой длины, но также старается разбивать их на знаки препинания и избегать разрывов внутри имени собственного или после определенных связок («a», «the» и т. д.). В результате получается файл с более «рваное» правое поле, чем при использовании fmt или Text::Wrap, но его легче читать, поскольку меньшее количество фраз разрывается на разрывы строк».
настройка алгоритма Кнута для распознавания «мягкого дефиса» .
Алгоритм взлома Кнута. «Подробное описание модели и алгоритма можно найти в статье «Разбиение абзацев на строки» Дональда Кнута, опубликованной в книге «Цифровая типографика» (Стэнфорд, Калифорния: Центр изучения языка и информации, 1999), (Конспекты лекций CSLI, № 78)»; часть Google Summer Of Code 2006
«Преодоление разрыва в алгоритмах: функциональная программа с линейным временем для форматирования абзацев», Оге де Мур, Джереми Гиббонс, 1997 г.

Другие ссылки-переносы по словам

обратная проблема - выбор столбцов, достаточно широких, чтобы вместить (обернутый) текст (архивная версия)
«Элементы разрыва строки Кнута для объектов форматирования», Саймон Пеппинг, 2006 г. Расширяет модель Кнута, внося в нее несколько усовершенствований.
«Алгоритм разрыва строки, подобный Кнуту-Плассу... *действительно* интересно то, чем алгоритм Adobe отличается от алгоритма Кнута-Пласса. Он должен отличаться, поскольку Adobe удалось запатентовать свой алгоритм (6 510 441)».
«Разрыв строки» сравнивает алгоритмы различной временной сложности.