Китайское слово-сегментированное письмо или китайское слово-разделённое письмо ( упрощённый китайский :分词书写; традиционный китайский :分詞書寫; пиньинь : fēncí shūxiě ), — это стиль письменного китайского языка , в котором тексты пишутся с пробелами между словами, как в письменном английском . [1] Китайские предложения традиционно пишутся как строки иероглифов, без знаков между словами. Следовательно, сегментация слов в соответствии с контекстом (выполняемая либо сознательно, либо бессознательно) является задачей для читателя.
Есть много преимуществ или причин сегментированного письма. Важная причина кроется в существовании неоднозначных текстов, в которых только автор знает заложенный смысл и правильную сегментацию. Например, «美國會不同意。 美国会不同意。» может означать «美國 會 不同意。 美国 会 不同意。» (США не согласятся) или «美國會 不同意。 美 国会 不同意。» (Конгресс США не согласен). [2]
В древнем Китае тексты писались без знаков препинания, что приводило к тому, что читателю приходилось тратить значительное количество времени на поиск границы предложения. Только в начале 1900-х годов были приняты современные знаки препинания. [3]
В 1950-х годах в ходе дискуссии среди китайских лингвистов было выдвинуто предложение об использовании сегментированного письма, однако оно не было принято. [3]
В 1987 году идея сегментированного по словам письма на китайском языке была вновь выдвинута Чэнь Ливэем на международной конференции по обработке китайской информации. [4]
Китайское сегментированное письмо впервые было введено в практику не позднее 1998 года, когда в ключевом академическом журнале Китая была опубликована статья под названием «Повторный взгляд на сегментацию китайских слов: десять преимуществ сегментированного письма» . [5] Вся статья, в общей сложности семь страниц, была написана сегментированным письмом, а аннотация была представлена следующим образом:
摘要: 单词 的 切分 对 现代 汉语 的 运用、研究 和 计算机 信息 处理 等 都 具有 相当重要 的 意义。本文 阐述 书面 汉语 分词 连写 的 十 大 好处 , 并 讨论 一些 实施 方面的 问题。文章 全文 分词 连写。
В 2018 году в Викиверситете была опубликована короткая статья из одного абзаца под названием «Словесная сегментация слова Hanzi» [ 6], в которой китайский текст был сегментирован по словам следующим образом:
历史上,中国古文 是 没有 标点符号的。读者 需要 付出 额外的 精力 专注于断句,而且 稍有差池 便会 造成 误读。所谓 差之毫厘 失之千里。引入 标点符号 是一次重大的 文字改革,使得 汉字文本的 阅读效率 有了 很大的 提高。但 中文的 改革 才 刚刚起步, 远未达到 尽善尽美的 程度。至少 在 阅读效率 方面 仍然 存在着 一个显而易见的 障碍 - 断词 (汉字的 分词连写)。
Первой книгой, написанной по сегментации слов, была «语言理论» (Теории языка), опубликованная в 2000 году. [7]
Китайский язык обычно пишется китайскими иероглифами, поэтому сегментированное написание китайских слов в основном относится к сегментации текста китайских иероглифов. Ниже приведены некоторые методы или навыки.
Самая важная цель сегментированного по словам письма — точно и ясно выразить подразумеваемый смысл автора. Например, традиционный не сегментированный по словам текст «乒乓球拍卖完了。» имеет два возможных значения, которые в сегментированном по словам письме могут быть выражены как «乒乓 球拍 卖完了。» (ракетки для пинг-понга распроданы) и «乒乓球 拍卖 完了。» (шарики для пинг-понга проданы с аукциона). Автор должен сделать выбор, чтобы правильно выразить подразумеваемый смысл без двусмысленности. [3]
Если вы не уверены, является ли строка символов допустимым словом, автор может проверить ее существование в надежном словаре слов, например, Xiandai Hanyu Cidian [8] и CEDICT . Или проверить, является ли это лингвистически квалифицированным словом в соответствии с лексическими, морфологическими и синтаксическими знаниями. [9]
В устной речи между двумя словами обычно делается пауза (а пауза внутри слова не допускается), поэтому вполне естественно ставить паузу (представленную пробелом) между словами в письменной речи.
Методы определения границ слов можно также найти в разделе Word#Word bounds .
Расстояние между двумя словами должно быть установлено на половину ширины китайского иероглифа, короче расстояния между двумя строками. Поскольку средняя длина китайского слова составляет около 2 символов, если пробел будет иметь полную ширину китайского иероглифа, длиннее межстрочного расстояния, строки слов будут казаться разбросанными, а не компактными. [10]
Чтобы еще больше помочь читателю, собственные имена существительные также следует помечать, например, подчеркиванием. [3] Фактически, это уже сделано в Священной Библии (Объединенная версия с современной пунктуацией). [11]
Пиньинь обычно используется для обозначения произношения китайских иероглифов, но в начальном китайском преподавании или преподавании китайского языка как иностранного пиньинь иногда используется для выражения китайского языка напрямую. Таким образом, письмо пиньинь также является разновидностью китайского письма, и оно также может быть важным справочным материалом для сегментации слов китайских иероглифов. [12] «Основные правила орфографии китайского пиньинь» — это китайский национальный стандарт для письма и сегментации слов пиньинь. Его основное содержание «5. Общие правила» выводится следующим образом: [13]
Общие правила таковы [14]
Помимо общих правил, существуют специальные правила для существительных, глаголов, прилагательных, местоимений, числительных, квантификаторов, наречий, предлогов, союзов, вспомогательных слов, междометий, звукоподражаний, идиом, поговорок, а также имен людей и названий мест.
Ниже приведен пример более длинного текста из китайской версии Всеобщей декларации прав человека Организации Объединенных Наций: [15]
Статья 1 Всеобщей декларации прав человека упрощенными китайскими иероглифами : [16]
Транскрипция пиньинь может быть разбита на сегменты по словам на Rénrén shēng ér zìyóu, zài zūnyán hé quánlì shàng yīlǜ píngděng. Тамэнь фуюу лсинь хэ лянсинь, Бинг инь ю синьди гуанси де цзиншэнь сян дудай. Соответственно, китайский иероглифический текст можно разделить на 人人 生 而 自由,在 尊严 和 权利 上 一律 平等。 他们 赋有 理性 和 良心, 并 应以 兄弟 关系 的 精神 相 对待。
До того, как сегментация слов стала популярной, для обработки языковой информации часто использовалась компьютерная сегментация слов. Качество становилось все лучше и лучше. Но она все еще требует постредактирования людьми. И она никогда не будет такой же надежной, как сегментация слов, сделанная лично автором. [17] [18]
{{cite book}}
: CS1 maint: несколько имен: список авторов ( ссылка )