

从DeepSeek想到王云五
(原标题:《王云五:汉字数字化第一人》)
丘树宏
近期以来,DeepSeek旋风引起了人类大地震般的反应,而受到冲击最大的OpenAI反应是最为强烈的。有报道说,当OpenAI发现汉字是中國AI的杀手锏后,OpenAI突然感到英语已经成为它最大的绊脚石,因为所需要的单词简直就是个无底洞,而每年硬造一万多个新词,什么元宇宙、区塊链,让AI学這些新词的成本就要多30%。
据说,OpenAI发現DeepSeek横空出世的一個秘笈就是用汉字训练时,他终于沉默了,因为,一、汉字一个字符就等于英文的三倍信息当量;二、相同内容的中文文本长度仅为英语的40%到60%;三、汉字用三千字就能覆盖英语十万词汇量的表达空间。
当英语AI还困在语言即工具的维度中,中国大模型正在训练用汉字去思考。这就是降维打击!从易经八卦到二进制,从甲骨文到AI算力,中国早在5000年前就已经決定了這场大模型竞争的胜负!
这种高深的科学技术问题,本人完全是门外汉,不敢作任何议论。然而,DeepSeek风暴却让我想起了一个人:编撰四字号码字典的王云五。

2022年2月22日,中共中央办公厅、国务院办公厅印发了《关于推进实施国家文化数字化战略的意见》。这是中国第一次以国家的名义发出文化数字化战略的文件,极具标志性意义。
文化数字化,其中一个前提性、基础性工作,就是汉字数字化。这其实也是文化数字化的核心,没有文字的数字化,就没有文化的数字化。目前汉字数字化已经有了很好的开端和基础,比如文字的数字化仓库,比如电脑打字法从拼音走向“五笔”。五笔字型输入法是王永民发明的。1983年8月,王永民发明了一种汉字输入法,称为五笔字型输入法。因为发明人姓王,所以也称为“王码五笔”。五笔字型完全依据笔画和字形特征对汉字进行编码,是典型的形码输入法。这是一个具有划时代意义的发明。
然而,最早将汉字数字化,是远在1925年的事情,是一个叫王云五的人。

王云五是广东香山(现中山)人,当时在上海的商务印书馆供职。
王云五有感于部首检字法不便使用,比起拼音文字检字困难得多,用国音检字又有同音字多的麻烦,于是从1924年起,着手研究一套简捷的汉字检字法,并在1925年完成,当年五月由商务印书馆出版了《号码检字法》。
王云五受到电报码启发,思考如何把汉字转成数字。最初他发明的方法,把汉字笔画分为五类,计算每类笔画数,用一个数字代表,若多于9画亦作9,如此每字得出五个数字,称为“号码检字法”。但因为计算费时,又可能出错,于是尝试用1至9代表九种笔画,以四角笔画转为数字,又用横画数为第五个号码,就是原来号码检字法第一个号码。这就是最初的“四角号码检字法”。后来再经过很多次尝试改良,发表“第二次改订四角号码检字法”,改为用0至9十种笔画,改变笔画种类,用附角号码取代横画数。后来又有细微修改,但四角号码检字法已大致完成。
四角号码查字法同拼音检字法、部首检字法一样是一种常见的检字方法,可以像笔画一样用于汉字输入,效率比笔画高,取码直观方便。
在四角号码查字法中保留了横、竖、撇、捺这些基本笔画,并称之为单笔,同时增加了一些称之为复笔的构字单位,它们是多个基本笔画的组合,如两笔交叉的“乂”、“十”等,这样的复笔称为“叉”;一撇一捺结构的‘八’、‘人’,这样的复笔称为“八”,这些复笔在汉字中也是常见的。在四角号码中单笔和复笔共定义了十个,分别用0~9十个数字表示。四角号码查字法根据汉字所含的单笔或复笔对汉字编号是不依书写笔顺的,而是取汉字左上角、右上角、左下角、右下角四个角的单笔或复笔的笔形,这样共有四码,一个汉字用四个数字表示。在今天,我们使用电脑时,这种编码方法可直接用于小键盘输入,也可以在大键盘上输入。


为了方便学习和掌握号码检字法,王云五还编制了四句口诀,只要熟记这个口诀,一下子就可以知道所查的汉字在字典的哪一页。(本人读高中时就自学过,至今未忘,确实方便快捷)
横一垂二三点捺,
叉四插五方块六,
七角八八九是小,
点下有横变零头。

目前,国内已经有一些包含四角号码或以其为主的输入法。如龙文、四角柳码、苏州大学的纵横输入法等,笔者的极点双双码也挂接了龙文的码表。按二笔输入法发明人陈劲松先生的观点,我国包含形码的输入法总体上可划分为三大类:笔画类(不拆分)、字根类(分块)、四角类(四角号码)。前两类已经有相应的国家或部门规范(姑且不论其是否合理),但至今还没有关于四角号码的相应规范。
可见,王云五的四角号码检字法,除了具有开创汉字数字化先河的历史意义之外,今天仍然对文化数字化大有裨益。
而从王云五创造四角号码检字法最早试验汉字数字化的成功实践,我们则似乎完全可以感觉和理解到,DeepSeek用汉字训练成功而拥有杀手锏,应该是一件十分自然的事情了。
2022年5月23日初稿于广东
2025年3月2日二稿于德国


王云五书法作品