告别铅与火
1975年初,北京大学从各系抽调力量组成一个调查组,调研北大各部门应用计算机及实现自动化的可能性。因为人手不够,调查组挑中了陈堃銶这个“闲人”。陈堃銶不仅是王选的妻子,还是他的搭档,曾经参加过DJS-21机的ALGOL 60编译工作。此时,因为患美尼尔氏综合征,她经常头晕,病休在家,恰好赶上参加北京大学的这次调研。在调研中,陈堃銶听说了“748”工程。
到1974年,IBM和DEC的小型机层出不穷,MITS更是推出了全球第一台微型电子计算机“牛郎星”。计算机技术在国际上走势大好,但中国的状况还不甚明朗,最重要的原因就是国外的计算机无法处理汉字。为了跟上国际步伐,1974年8月,由四机部、一机部、中国科学院、新华社、国家出版事业管理局联合发起,国家计委批准设立了国家重点科技攻关项目“汉字信息处理系统工程”,简称“748”工程。
陈堃銶打听到,“748”工程分为3个子项目:汉字通信系统、汉字情报检索和汉字精密照排。回来便把这一情况说给王选听。
王选呢?早在1958年研制“红旗机”时,夜以继日地科研加上严重营养不良,积劳成疾,王选病了。“医院最早怀疑是‘红斑狼疮’……又转了几次院,最后一家又推断是‘结节性动脉周围炎’。”这场“莫名其妙的大病”在母亲的精心照料下好转起来,却给王选的健康埋下了祸根。由于父亲被打为“右派”,王选成为“黑五类”分子。“文化大革命”开始之后,王选因曾听英语广播提高英文水平,被攻击为“偷听敌台”,成为被打压的对象。压力之下,他的身体再次承受不住,成了长期病休、只发劳保工资的老病号。但他从未忘记过计算机事业,1972—1974年,他在理解了编译系统软件对计算机设计需求的基础上,设计了适合软件的新型计算机结构,后来整理成文发表。
那个时候,他因病还没有正式回到工作岗位上,用他的话说,反正时间多的是,不如给自己找点事做。陈堃銶带来的消息令他很激动:“汉字精密照排是指运用计算机和相关的光学、机械技术,对中文信息进行输入、编辑、排版、输出及印刷,也就是用现代科技对我国传统的印刷行业进行彻底改造。”虽然难度巨大,但价值和前景同样不可估量,因为在当时,中国数量最多的工厂恐怕就是印刷厂了。
王选被自己的分析震撼了。想想吧,印刷术本是中国四大发明之一,北宋毕昇发明的活字印刷术带动了世界印刷技术的发展,但此后中国印刷术的发展反倒落在了后面。在国外,15世纪中期,德国古登堡采用铅活字与印刷机相结合,发明铅活字机械印刷术,很快形成产业推广开来。到20世纪,西方又率先结束了活字印刷,转用电子照排技术。而中国,直到20世纪70年代,仍然“以火熔铅,以铅铸字,以铅字排版,以版印刷”,一来容易造成环境污染;二来效率低下,常常把新书拖成旧书,严重的时候能拖上两三年。如果汉字精密照排成功了呢?那中国印刷业就将迎头赶上时代的潮流!
那个春天,“批林批孔”还没结束,王选却走出家门去查外文资料。从北京大学到位于和平街北口的中国科学技术情报研究所,着实有些路程,他每周都会往返三四次,一次半天。事情是自己找来的,自然没什么经费给他报销,王选也开始精打细算起来:从北大到情报所,车费是2角5分,少坐一站地就可以省5分钱,于是他每次都提前一站下车;复印资料太贵,如果字数不多就手抄。
一连几个月,王选都在参详外文资料。日本流行的是光学机械式二代照排机,通过机械方式选字,体积大,功能差;欧美流行的是阴极射线管式三代照排机,所用的阴极射线管是超高分辨率的,比黑白电视机分辨率高20倍,生产难度极大,对底片灵敏度要求也很高,国产底片不易过关;英国正在研制激光照排四代机,但尚未形成商品。
国内已有5家汉字照排系统研制单位,两家选择了二代机的方案,三家选择了三代机方案。再进一步分析,王选发现,数字存贮方式将会成为未来的主流,二代机的机械选字法根本没前途。那么,问题来了。数字式存贮实际上是把字形变成由许多小点组成的点阵。道理浅显,但汉字不只有宋体、楷体、黑体等多种字体,还有10多种大大小小的字号。为了保证印刷质量,五号字大小的正文小字就需要100×100以上的点组成,排标题的大号字则需要多达1000×1000以上的点。英文只有26个字母,所以存储量问题并不尖锐,而汉字字数繁多,是西文的数百倍,全部用点阵存储,则需要用上千亿的字节(B),存储量极大。当时能让王选使用的国产DJS-130计算机的磁心存储器,最大容量只有64kB,磁盘也还没有配备,只有一个512kB的磁鼓和一条磁带,要存下如此庞大的汉字信息,是完全不可能的事。
学计算数学出身的王选经过反复研究,发明了“用轮廓加参数描述汉字字形的信息压缩技术”,对横、竖、折等规则笔段,用描述笔画轮廓的特征参数(如横的起点、长度、宽度和肩等)来表示;对于撇、捺、点等不规则笔段,用折线轮廓表示,后来又改为曲线描述。这一方法不但使信息量大大减少,同时能保证变倍后的文字质量,使一套字模能产生各种大小的字号。这种信息表示方法使10余种字体汉字字形信息的存储量只有数兆,总体压缩达500~1000倍,甚至更多,从而解决了将庞大的汉字信息存储进计算机这一难题。
为了确保每个字的质量,王选付出了超出常人的艰辛。图为王选分析字模数据的手迹,以此查找字模输出错误的原因,辨别是字模制作错误,还是生成器问题。
解决了数字化存储后,用什么输出设备,将还原后的汉字字形信息高速、高质量地输出,是横亘在王选面前的又一个难题。1976年,王选结合我国国情,做出了一个大胆决策,跨过国际流行的二代机和三代机,直接研制世界上尚无商品的第四代激光照排系统,选择了技术上的跨越。为此,王选设计成功适合硬件实现的轮廓信息高速复原字形的算法,并编写微程序实现,使1979年时还原速度达到250字/秒,最终达到710字/秒。同时,王选设计并实现了逐段复原字形点阵的方法,以适应激光照排机不可等待的要求,从而使字形压缩信息快速复原算法得以实现。在他的设计下,字形的大小可缩放自如,又不会影响敏感部分的质量,换句话说,可以实现字形变倍和变形时的高度保真。
这个想法比西方早了10年。正是这个时间差,当时国内几乎无人对王选抱有希望,即使他将模拟出的“义”字摆上桌面,即使他在1976年底写出那份完备的“748工程汉字精密照排系统方案说明”,也仍然被认为是脱离实际的“数字游戏”。然而王选始终坚持自己的研究,终于得到设在电子部的“748”办公室的肯定,并以电子部的名义正式将精密照牌任务下达给北大。1977年9月,以原“748”工程会战组为基本成员的北京大学“汉字信息处理技术研究室”正式成立。1979年,激光照排原理性样机成功输出了第一张八开报纸样张。1980年,第一本用国产激光照排系统排出的样书——《伍毫之剑》诞生。到此时,汉字激光照排系统的主体工程的硬件和软件部分均调试成功。《伍豪之剑》没有动用一个铅字,那个铅与火的印刷时代正在隐去。