stringtranslate.com

Китайское сегментированное письмо

Китайское слово-сегментированное письмо или китайское слово-разделённое письмо ( упрощённый китайский :分词书写; традиционный китайский :分詞書寫; пиньинь : fēncí shūxiě ), — это стиль письменного китайского языка , в котором тексты пишутся с пробелами между словами, как в письменном английском . [1] Китайские предложения традиционно пишутся как строки иероглифов, без знаков между словами. Следовательно, сегментация слов в соответствии с контекстом (выполняемая либо сознательно, либо бессознательно) является задачей для читателя.

Есть много преимуществ или причин сегментированного письма. Важная причина кроется в существовании неоднозначных текстов, в которых только автор знает заложенный смысл и правильную сегментацию. Например, «美國會不同意。 美国会不同意。» может означать «美國 會 不同意。 美国 会 不同意。» (США не согласятся) или «美國會 不同意。 美 国会 不同意。» (Конгресс США не согласен). [2]

История

В древнем Китае тексты писались без знаков препинания, что приводило к тому, что читателю приходилось тратить значительное количество времени на поиск границы предложения. Только в начале 1900-х годов были приняты современные знаки препинания. [3]

В 1950-х годах в ходе дискуссии среди китайских лингвистов было выдвинуто предложение об использовании сегментированного письма, однако оно не было принято. [3]

В 1987 году идея сегментированного по словам письма на китайском языке была вновь выдвинута Чэнь Ливэем на международной конференции по обработке китайской информации. [4]

Китайское сегментированное письмо впервые было введено в практику не позднее 1998 года, когда в ключевом академическом журнале Китая была опубликована статья под названием «Повторный взгляд на сегментацию китайских слов: десять преимуществ сегментированного письма» . [5] Вся статья, в общей сложности семь страниц, была написана сегментированным письмом, а аннотация была представлена ​​следующим образом:

摘要: 单词 的 切分 对 现代 汉语 的 运用、研究 和 计算机 信息 处理 等 都 具有 相当重要 的 意义。本文 阐述 书面 汉语 分词 连写 的 十 大 好处 , 并 讨论 一些 实施 方面的 问题。文章 全文 分词 连写。

В 2018 году в Викиверситете была опубликована короткая статья из одного абзаца под названием «Словесная сегментация слова Hanzi» [ 6], в которой китайский текст был сегментирован по словам следующим образом:

历史上,中国古文 是 没有 标点符号的。读者 需要 付出 额外的 精力 专注于断句,而且 稍有差池 便会 造成 误读。所谓 差之毫厘 失之千里。引入 标点符号 是一次重大的 文字改革,使得 汉字文本的 阅读效率 有了 很大的 提高。但 中文的 改革 才 刚刚起步, 远未达到 尽善尽美的 程度。至少 在 阅读效率 方面 仍然 存在着 一个显而易见的 障碍 - 断词 (汉字的 分词连写)。

Первой книгой, написанной по сегментации слов, была «语言理论» (Теории языка), опубликованная в 2000 году. [7]

Написание китайских иероглифов, сегментированное по словам

Китайский язык обычно пишется китайскими иероглифами, поэтому сегментированное написание китайских слов в основном относится к сегментации текста китайских иероглифов. Ниже приведены некоторые методы или навыки.

Текстовый контекст

Самая важная цель сегментированного по словам письма — точно и ясно выразить подразумеваемый смысл автора. Например, традиционный не сегментированный по словам текст «乒乓球拍卖完了。» имеет два возможных значения, которые в сегментированном по словам письме могут быть выражены как «乒乓 球拍 卖完了。» (ракетки для пинг-понга распроданы) и «乒乓球 拍卖 完了。» (шарики для пинг-понга проданы с аукциона). Автор должен сделать выбор, чтобы правильно выразить подразумеваемый смысл без двусмысленности. [3]

Словари

Если вы не уверены, является ли строка символов допустимым словом, автор может проверить ее существование в надежном словаре слов, например, Xiandai Hanyu Cidian [8] и CEDICT . Или проверить, является ли это лингвистически квалифицированным словом в соответствии с лексическими, морфологическими и синтаксическими знаниями. [9]

просодия

В устной речи между двумя словами обычно делается пауза (а пауза внутри слова не допускается), поэтому вполне естественно ставить паузу (представленную пробелом) между словами в письменной речи.

Методы определения границ слов можно также найти в разделе Word#Word bounds .

Пробелы

Расстояние между двумя словами должно быть установлено на половину ширины китайского иероглифа, короче расстояния между двумя строками. Поскольку средняя длина китайского слова составляет около 2 символов, если пробел будет иметь полную ширину китайского иероглифа, длиннее межстрочного расстояния, строки слов будут казаться разбросанными, а не компактными. [10]

Маркер имени собственного

Чтобы еще больше помочь читателю, собственные имена существительные также следует помечать, например, подчеркиванием. [3] Фактически, это уже сделано в Священной Библии (Объединенная версия с современной пунктуацией). [11]

Сегментация пиньинь

Пиньинь обычно используется для обозначения произношения китайских иероглифов, но в начальном китайском преподавании или преподавании китайского языка как иностранного пиньинь иногда используется для выражения китайского языка напрямую. Таким образом, письмо пиньинь также является разновидностью китайского письма, и оно также может быть важным справочным материалом для сегментации слов китайских иероглифов. [12] «Основные правила орфографии китайского пиньинь» — это китайский национальный стандарт для письма и сегментации слов пиньинь. Его основное содержание «5. Общие правила» выводится следующим образом: [13]

Орфография пиньинь

Общие правила таковы [14]

  1. Используйте слова в качестве основных единиц письма для выражений пиньинь. Например: рэн (人, человек), pώo (跑, бег), мамɑ (妈妈, мать), юэду (阅读, чтение), тушуэн (图书馆, библиотека).
  2. Двухсложное и трехсложное выражение понятия пишется последовательно (без пробелов). Например: huánbǎo (环保, охрана окружающей среды), ɡōnɡɡuān (公关, связи с общественностью), chánɡyònɡcí (常用词, общеупотребительные слова), duìbuqǐ (对不起, извините).
  3. Имена с четырьмя и более слогами, представляющие собой понятие, пишутся сегментированно по словам или слогам (сегменты, разделенные речевыми паузами внутри фразы). Те, которые невозможно разделить на слова или слоги, пишутся последовательно. Например: wúfènɡ ɡānɡɡuǎn (无缝钢管, бесшовная стальная труба), huánjìnɡ bَohù guīhuà (环境保护规划, планирование охраны окружающей среды), Zhōnɡɡuó Shèhuì Kēxuéyuàn (中国社会科学院, Китайская академия социальных наук), yánjiūshēnɡyuàn (研究生院, аспирантура), hónɡshízìhuì (红十字会, Общество Красного Креста)
  4. Односложные повторяющиеся слова следует писать последовательно; двусложные повторяющиеся слова пишутся раздельно. Например: rénrén (人人, все), kànkɑn (看看, смотри), hónɡhónɡ de (红红的, очень красный), yánjiū yánjiū (研究研究, исследование), xuěbái xuěbái (雪白雪白, белоснежка, белоснежка). Повторяющиеся слова в структуре AABB записываются последовательно. Например: láiláiwǎnɡwǎnɡ (来来往往, приход и уход), qīnɡqīnɡchǔchǔ (清清楚楚, кристально чистый), fānɡfānɡmiànmiàn (方方面面, все аспекты).
  5. Односложные префиксы (副 порок, 总 генерал/начальник, 非 нон, 反 анти, 超 супер, 老 старый, 阿 А, 可 способный, 无 не, 半 полуи т.д.) или односложные суффиксы (子 zi, 儿 er, 头 man) , 性 -ity, 者человек, 员 член, 家 эксперт, 手 специалист, 化 -ize, 们 множественное число и т. д.) пишутся последовательно с основным словом. Например: fùbùzhǎnɡ (副部长, вице-министр), zǒnɡɡōnɡchénɡshī (总工程师, главный инженер), fùzǒnɡɡōnɡchénɡshī (副总工程师, заместитель главного инженера), fēijīnshٔ (非金属, неметаллический), kēxuéxìnɡ (科学性, научный / научность), chénɡwùyuán (乘务员, бортпроводник), xiàndàihuà (现代化, модернизация), хайзимэнь (孩子们, дети).
  6. Для удобства чтения и понимания между некоторыми параллельными словами или морфемами или в некоторых сокращениях может использоваться дефис. Например: ба-цзи тянь (八九天, восемь или девять дней), рэн-джи дуихуа (人机对话, диалог человека с компьютером), Цзинь-Занɡ Гаосу Гунэлу (京藏高速公路, скоростная автомагистраль Пекин-Тибет).

Помимо общих правил, существуют специальные правила для существительных, глаголов, прилагательных, местоимений, числительных, квантификаторов, наречий, предлогов, союзов, вспомогательных слов, междометий, звукоподражаний, идиом, поговорок, а также имен людей и названий мест.

Пример

Ниже приведен пример более длинного текста из китайской версии Всеобщей декларации прав человека Организации Объединенных Наций: [15]

Статья 1 Всеобщей декларации прав человека упрощенными китайскими иероглифами : [16]

人人生而自由,在尊严和权利上一律平等。他们赋有理性和良心,并应以兄弟关系的精神相对待。

Транскрипция пиньинь может быть разбита на сегменты по словам на Rénrén shēng ér zìyóu, zài zūnyán hé quánlì shàng yīlǜ píngděng. Тамэнь фуюу лсинь хэ лянсинь, Бинг инь ю синьди гуанси де цзиншэнь сян дудай. Соответственно, китайский иероглифический текст можно разделить на 人人 生 而 自由,在 尊严 和 权利 上 一律 平等。 他们 赋有 理性 和 良心, 并 应以 兄弟 关系 的 精神 相 对待。

Компьютерная сегментация слов

До того, как сегментация слов стала популярной, для обработки языковой информации часто использовалась компьютерная сегментация слов. Качество становилось все лучше и лучше. Но она все еще требует постредактирования людьми. И она никогда не будет такой же надежной, как сегментация слов, сделанная лично автором. [17] [18]

Ссылки

  1. ^ Чен, Ливэй (陈力为) (1996). «汉语书面语的分词问题- - 一个有关全民的信息化问题 (Сегментация письменных китайских слов: проблема, актуальная для национальных информационных технологий)». Журнал китайской обработки информации (中文信息学报) . 10 (1996) (1): 11–13.
  2. ^ Чжан, Сяохэн (张小衡) (1998). «也谈汉语书面语的分词问题——分词连写十大好处 (Возврат к сегментации письменных китайских слов: десять преимуществ сегментированного письма)». Журнал китайской обработки информации (中文信息学报) . 12 (1998) (3): 57–63.
  3. ^ abcd Чен 1996, стр. 12.
  4. ^ Чен, Ливэй (陈力为) (1987). «当前中文信息处理 中的几个问题及其发展前景 (Некоторые проблемы китайской обработки информации и их перспективное развитие)». Китайский компьютерный мир (计算机世界) . 21 (34).
  5. Чжан 1998, стр. 57–63.
  6. ^ "Англо-китайская/Словесная сегментация Ханьцзы - Викиверситет".
  7. ^ Пэн, Зерун (彭泽润、李葆嘉 ред.) (2000).语言理论 (Теории языка) (на китайском языке). Чанша: 中南大学出版社 (Издательство Центрального Южного университета). ISBN 978-7-810-61342-2.
  8. ^ "教育部《重編國語辭典修訂本》2021" .
  9. ^ Чжан 1998, стр. 61.
  10. ^ Чжан 1998, стр. 62.
  11. ^ Китайская баптистская пресса, Гонконг (перевод) (1998).聖經 現代標點和合本 (Святая Библия, Союзная версия с современной пунктуацией) (на китайском языке). Гонконг: Китайская баптистская пресса (浸信會出版社). ISBN 962-933-101-2.
  12. ^ Аркодия, Джорджио (и Башиано, Бьянка) (2021). Китайская лингвистика . Оксфорд: Oxford University Press. С. 84–85. ISBN 978-0-19-884784-7.{{cite book}}: CS1 maint: несколько имен: список авторов ( ссылка )
  13. ^ 国家语委 (2012). «漢語拼音正字法基本規則» (PDF) .
  14. ^ Проверено 2012.
  15. ^ «Всеобщая декларация прав человека — китайский, мандаринский (упрощенный)». unicode.org .
  16. ^ «Всеобщая декларация прав человека — китайский, мандаринский (упрощенный)». unicode.org .
  17. ^ «Сегментация китайских слов».
  18. ^ Чжан 1998, стр. 57.