对很多普通读者来说,“中华字库”还是一个陌生的名字,但在业界与学界,它的启动却吸引了众多关注。借用新闻出版总署副署长孙寿山的话说,这是引领中华文化步入信息化、数字化时代,提高中国文化软实力的一项重要举措。这样一个使命重大的“字库”,究竟有着怎样的玄机?近日,我走访了新闻出版总署中华字库总体组专职副组长张力伟,他为我们揭开了神秘面纱,我们一起走进“中华字库”的大世界。
收集字符,“文理”结合
为满足文字及其他书面符号在计算机上的表示、传输、存储等种种要求,需要对文字和符号予以编码,并用符号的位序将它们组织为一个字符集。这一编码字符集,俗称“字库”。简单地说,“中华字库”就是一个收纳了中国古今的汉字及少数民族文字形体的庞大编码字符集。对于这项国家重大工程,《国家“十一五”时期文化发展规划纲要》作了如下表述:“中华字库”工程是要“建立全部汉字及少数民族文字的编码和主要字体字符库。重点研发汉字的编码体系、输入、输出、存储、传输以及兼容等关键技术。”
这一简洁表述的背后,其实包含了很多复杂的内容。张力伟说,这项工程不是只简单地收集文字进行编码整理。一方面,我们要从数千年流传下来的文字载体中,尽可能全面地搜集汇聚古今各种文字形体,在所出现过的实际文本原形图像的基础上,确定历史演变,整理字际关系等等,对学术质量的要求很高。为此,工程聘请中国文字学会第一任会长,在文字学界极具威信的裘锡圭教授担任首席专家,会同文字学界的许多专家参与研发;另一方面,这么庞大的整理工作,若像传统的那样人工搜集、抄录,将不可避免地存在人为错误多、记录信息量少等问题。“中华字库”工程将以现代信息技术作支撑,通过有效的人机结合,让计算机巨大的存储能力和便捷的检索类聚能力为文字专家的专业研究服务,利用机器来放大和倍增专家的工作效力。工程决定由中国科学院软件研究所等软件研究的精锐部队来承担工程的技术研发,为工程的开展提供技术支撑。
由此看来,“中华字库”不仅关乎学术,还关乎技术,“文理”结合十分紧密。这项工程是在对文字学深入研究的基础上,研究各种文字收集、筛选、整理、对比和认同的方法与原则;充分利用先进的数字化技术,开发相应的软件工具,在统一的数字化平台上,建立人—机结合的文字收集、整理、筛选、比对和认同的操作与管理流程。中华字库工程不仅会全面收集整理全部汉字、建立汉字的主要字体字符库,还会尽可能全面地收集整理少数民族文字并为其建立主要字体字符库;不仅要提交古今汉字及少数民族文字的国家编码、国际编码标准提案,还要为中华字库在不同领域的应用提供支撑工具与环境、实现中华字库在互联网的在线发布,并且建成面向用户的动态补字系统。在数字化服务方面,可谓是一应俱全。
![]() |
![]() |
责任编辑:康金山 |