中华字库工程 以后生僻字输入有新标准了
为更多汉字编码,中国的数字化软实力 石静远 2016 年 10 月 25 日
纽黑文——看着中文字,你可能会对 18 世纪耶稣会传教士的说法感同身受:“完全是出于对上帝的爱,一个人才能忍受学习它的痛苦。”那份虔诚可能已经消失,但这样的抱怨,中国人已经听了四百多年,如今他们终于决定做点什么。
本月,中国政府计划推出大约 3000 个中文字符的编码,此举属于“中华字库工程”的一部分。这个宏大的工程将把以前没有电子形式的 50 万个字符进行数字化。到目前为止,国际计算标准 Unicode 已经对 80388 个汉字进行了编码。
该项目包含全国 56 个民族的 10 万个字符,以及来自中国书面语料库的另外 10 万个生僻字和古文字。该项目动员了近 30 家公司、机构和大学,是有史以来规模最大的政府资助数字化项目。
这些字符长期囿居于蒙尘的古旧手稿上,它们将在数字媒体中获得新生。扩展到网上之后,中国和世界各地的人可以更加方便地接触这些文稿,这将有助于中国语言和文化的传播。
全球信息架构以使用西方字母表为主,给中国造成了一些困难。现代通信领域的重大创新——莫尔斯电码、打字机和 ASCII (美国信息交换标准代码)编码标准——无一考虑到了中文字的使用。
几十年来,中国科学家一直在努力打破字母媒介的壁垒。 1974 年,中国政府指示工程师和数学家寻找一种方式,来使用美国的字母键盘。最终他们配置了数千个击键组合,以便在计算机的标准键盘上键入数以万计的字符。
长期以来,中国人一直觉得他们在书面语言上具有优越性。北京政府认为,当前 Unicode 中编码字符的数量不足以代表中国古代文化的丰富性。通过字库工程,中国人将解锁他们的文稿宝库,从古代的甲骨文到少数民族语言文字,都将进行数字化。
通过孔子学院等方式在世界各地传播中国语言和文化,是北京过去十年提升软实力战略的组成部分。字库工程将把这个使命带入数字领域。
从学术论文到 Twitter 消息的任何内容,只要能被人看到,就会有助于扩大中文的覆盖面。随着越来越多的中文进入网络空间,就会有更多的人开始使用它,其地位也将随着可见度的增加而上升。
这个数字化项目也可以为很多中国人解决一个大难题,他们对中文数字化的不完善感到不满意。
去年,中国一家媒体报道了一个 10 岁男孩的故事。他有一个寓意吉祥的名字,使用了一个由“龍”和“天”组成的生僻字。校方在计算机系统中找不到这个字符,当他通过了一个重要考试后,他的姓名在证书上却只剩下一个普通而平淡的字——“皓”,意思是“白色”。他不能充分证明自己通过了考试,这让他的父亲很不满。
还有很多其他影响更严重的例子:一些人因为身份证件上无法显示正确的姓名而无法使用医保或取钱。过去,人们可以通过手动填写生僻字来解决这个问题。如今,如果姓名没有正确的电子形式,这个名字可能也就不存在了。
像这样的案例实在太多,以至于中国在本世纪初开始指定哪些字可用于起名。当局规定,超出指定的那 1605 个字的姓名必须改名。新增加的这些文字将在不限制家长的起名权的情况下解决这些令人头痛的问题。
尽管扩大中文在数字世界的版图好处很多,但依然有理由保持警惕。从项目发言人的表述看,负责该项目的机构,同时也在负责审查与信息交流的控制,其目的是重塑互联网上以西方为主导的数字内容。为避免政府审查而使用生僻字表达隐秘或玩笑意思的网民,可能会发现可用的词越来越少。
近年来,随着官方的网络监视机构规模扩大,网民们找到了通过双关语、使用变体或古文字以及台湾等地区研发的非标准化电子字体攻击政府的途径。字库工程将实现语言的标准化,并且随着用于保密的文字进入官方数据库,颠覆性语言将更容易检测。新近被数字化的文字将帮助中国更好地追踪民众的动向、财务状况以及在公开场合和私底下的言论。
但该项目的作用远不仅限于此。把最大的词汇表放到网上被称作“借船出海”,这是一项利用他国的网络、基础设施和资源让中国的议程走向全球的战略。增加 50 万个文字或许不是耶稣会会士所祈祷的,但它标志着一个仍处于崛起之势的国家有了一种新的“巧实力”形式。
1
Bairrfhoinn 2016-10-26 17:13:41 +08:00 via Android
纽约时报中文版?
|
2
xuan880 2016-10-26 22:30:59 +08:00 via Android
这内容我也是醉了,扩展字符编码也能被扯到监控上面。
|
3
Khlieb 2016-10-26 23:47:32 +08:00 via Android
这让 Unicode 情何以堪
|
4
tammy 2016-10-27 16:02:59 +08:00 1
@Khlieb https://ooo.0o0.ooo/2016/10/27/5811b48019793.png
日常生活用的 3 个鸡相关的字 Unicode 只收录了 1 个 |
5
Khlieb 2016-10-27 16:14:41 +08:00 via Android
@tammy 我猛然想起来东正教《新遗诏圣经》里面有特殊的字没被 Unicode 收录,比如这里的利 + 爾
https://upload.wikimedia.org/wikipedia/commons/1/14/Bible%2C_tr._by_Guri.jpg 不过话说回来这文章抽去那些无聊的 propagenda 用的台词实际也就几百字的内容 |
6
qianmeng 2016-10-28 07:20:17 +08:00 via Android
千万不要给孩子起特别的名字,太坑孩子
|