林语堂与中文检索的创新

【编者按】

汉字融入信息时代并非易事。从设计官话字母方案,在字母打字机上加装汉字,到图书馆分类、国语罗马字、汉字拉丁化,直至今天的键盘输入法,中国人经过了一个多世纪的辗转、奋斗。一场全球化技术变革险些让汉语被世界抛弃,是那些冒着风险重新发明汉语的流亡者,倡导将普通话作为国语的大胆革新者,还有在牢房的茶杯盖上设计汉字输入码的电脑工程师,让汉语为全球贸易和数字技术的现代世界所使用。《汉字王国:让中国走向现代的语言革命》正是讲的这一历程,它既是关于汉字本身,也是关于那些曾经努力拯救汉字、带领我们用汉语开启属于自己的未来的人。本文节选自该书第四章《林语堂与中文检索的创新》。

中国解决打字和电报问题的办法都是无奈的权宜之计,都是设法调整汉字来适应本是为字母语言设计的技术。打字和电报都是供另一类文字使用的系统,作为后来者的中国自然处于劣势,克服这样的劣势也就成了中国发明者和语言学家的努力目标。但是,许多人猜想,问题会不会在于汉字本身。

西方人说汉字不够快捷、简单、高效——总而言之不够现代。中国国内对汉字最激烈的批评者也毫不留情。他们指责汉字系统危及中国未来的生存。许多人同意据说是作家兼知识分子改革者鲁迅说的话:“汉字不灭,中国必亡!”这种紧迫感在19世纪晚期王照那一辈人当中已经明显可见,在1912年至1949年的民国时期愈加突出。1928年,12年的军阀割据终于结束。但中国喘息未定,日本就于20世纪30年代初入侵了中国东北,然后是太平洋战争……至少有20年的时间,中国一直深陷境内外的生死之争,那些战斗对20世纪下半叶产生了决定性影响。那段时间不是务虚探讨新思想或哲学理论的时候。务实行动与民族生存压倒一切。

国家、民族处境危殆,这一点深入人心,但中国人不相信把汉字和民族历史一并抛弃能够确保中国走向未来。比较温和的知识分子发问,汉字真的无可救药了吗?真的一文不值,应该像有些人鼓吹的那样和中国的古典学问一起扔进垃圾堆吗?

温和派认为,语言的挑战在于汉字本身。汉语的声调和同音字太多,汉字太难写,学汉语用的时间太长,但这些并非问题的全部。如果汉语系统有章可循,这些问题就都算不得大事。真正的问题是如何组织汉语这个没有清晰结构的语言。汉字的数目几乎无穷无尽,若不确定汉字的数目,就无法将它们组织起来或使之顺利融入机器设计和技术。那好比还没弄清楚问题的各个方面就想找到解决办法。

汉语文字系统需要由母语是汉语的人来彻底审视。对于这项任务的真正性质,西方字母使用者理解不了,因为他们习惯于用26个字母整齐利落地组成各种固定组合。要稍窥相关的挑战,可以做一个简单的练习:选一个单词,在英语词典里找这个词,然后想一想这个过程是多么容易。“b”绝不会出现在“a”前面,“g”永远在“f”和“h”之间,“t”总是紧跟在“s”后面。由于这种可预见性,可以在词典上从左到右找到正确的首字母部分,并按照同样的逻辑在该部分中找到正确的单词。如果一个单词和另一个单词的头几个字母一样,如“address”和“adrenaline”,只要向右去找到它们之间第一个彼此不同的字母就好了。用排除法一个字母一个字母地查找英语单词的过程基本上是自动的,一个字母就是一步。可以用26个字母建造、储存、查找自己想要的所有单词。这个系统的一个基石是熟记26个字母,而这很可能上幼儿园的时候就做到了。

字母的直线型组织不可违逆。总是从“a”开始,到“z”结束,就连提到字母也总是说“ABC”,不会说“CBA”或“UVW”。这条规则可以用来组织从分点演示到购物清单的任何东西。简言之,字母顺序对于信息的组织、识别和排列至关重要。不仅词典如此,电话本、名录、索引系统、百科全书、电脑文档等任何需要顺序和条理的东西均是如此。

现在打开一本汉语字典。第一步:看通常位于字典前面或后面的部首表,找到要查的字的部首,那可以是按笔画由少到多排列的214个(曾经是540个)部首中的任何一个。第二步:那个部首带着一个数字,按照那个数字来到另一张表,此时还不到字典正文。那张表中,部首下面列出了所有包括该部首的字,有的部首下只有一个字,有的部首下的字多至64个。那些字也都是按笔画数目从少到多排列的。第三步:在部首表中找到了你想找的字后,再去字旁标的字典的那一页。除非你看一眼那个字就知道它的笔画是多少,否则你得看遍那一页上所有的字才能找到你要的那一个。查一个字要翻好几页。你若是有耐心,再加上运气,也许第一次就能查到。

当然,有好几处可能出错的地方。可能你不能肯定想查的字的哪个部分是部首,因为就连母语是汉语的人有时都搞不明白。这一步错了,你就走上了歧路,可能到了第三步才意识到自己的错误。有时,一个字本身就是部首,这也会令你疑惑迷茫。

然而,假设你没有遇到上述的任何困难,因为你知道正确的部首,也知道如何在字典中查到那个部首,但你也许不记得要查的字的其他部分的样子,因此不知道确切的笔画数目。在不同的字里,同样的部首有时会以不同的形状和大小出现——汉字又一个恼人的特征。彼此毫无关系的部首也可以看起来很相似,试想对一个初学者解释“艸”和“艹”其实都是“草”字头,“月”是“肉”的另一种写法,或者“口”与“囗”毫不相干,尽管前者看上去只是比后者小一点而已。所有这些潜在的陷阱都是汉字所固有的,因为每个字都由大小形状各不相同的部分组成,那些部分以不同的比例填满一个方块。

反过来想:如果字母没有固定顺序会是什么样子?如何组织26个字母,按照什么标准来组织都将成为没有定论的问题:排序是根据使用的频率,形状的复杂程度,还是一个字母上半部或下半部突出部分的数目?情况骤然杂乱起来,更接近汉语的一贯状态。

如果按照形状来分组,那么“C”“G”“O”“Q”的大写字母肯定应该排在一起,因为它们有着类似的圆形轮廓。“P”和“F”都是头重脚轻,是否该排在一起?还是说应把“P”和“B”排在一起,因为“P”只比“B”少一个半圆?这样看来,“K”和“R”在字母表中也应该挨得更近一些,因为它俩下半部都有伸出来的一道斜杠。如果有人反对,说形状和外观太主观,全靠观者的眼光,此言虽有理,却引出一个要求,即需要深入字母的结构,将其分解成各种笔画,以更好地显示字形的一致性。这需要真正的思维改变。

我们通常不认为字母能够分解为笔画,因为字母被视为基本单位。把“A”分解为两条斜线和一条短横线,或把“B”分解为一条竖线和两条曲线没有任何意义,因为字母的价值在于它们代表的发音,不在于形状。可是字母本身也是由笔画组成的。可以说笔画是字母备受忽视的属性。一画是任何一种连续的线,无论是直线还是曲线,长线还是短线,有时甚至是折线。大部分字母由1到3个笔画组成(“E”是例外,有4画)。

如果按照笔画数目从多到少来组织字母,那么字母表的开头就应该是“E”而不是“A”,后面跟着“F”、“B”或“H”,它们都有3个笔画。如果字母表是EFBH而不是ABCD,就得立即把“最优的”(A-list)或后备计划(planB)这些字眼从英语中剔除出去。学校里的老师不会用“优”(A)打分,公司也不会有C级股票。字母表的次序不仅重要,而且这种次序已深深植根于语言之中,塑造着我们在世界中的定位,我们表达优先的方式,以及我们按照重要性、偏好和等级制这些标准对事物的组织。

但是,“E”在字母表中是否应该名列第一也取决于采用哪种写法。此处,正字法构成了对笔画数目的挑战。按照印刷体写“E”,需要写4笔。但若用手写体,写得像是翻转过来的“3”,那么一笔就够了。若是以手写体为准,“E”就要被拉下字母表之首的宝座,放到后面去和“C”“O”“U”“V”“W”“Z”这些一笔字母为伍。所以,随着字母的结构分析趋向复杂细微,字母该如何写,该按照何种顺序,这种正字法的规则变得更加重要。

计算笔画数目也许看似专断、主观、不可靠,因为它取决于写字的人和书写习惯,那么不妨钻牛角尖钻得再深一点,看一看笔画是什么样的,然后试着通过更加精微的分析提出规则:笔画是直线,像“L”,还是曲线,像“C”或“S”,还是直线和曲线的结合,像“D”“Q”“J”“U”“R”;再进一步,可以看一看字母是不是不仅是直线的,而且是垂直直线的,像“I”“L”“T”,或是直线带角度的,像“A”和“Y”,或是直线带拐弯的,像“Z”;甚至可以更深入探究,看一看不同笔画之间的交错关系,是像“T”那样在某一点上接触,还是像“X”那样交叉穿过,是像“C”那样不封口,还是像“O”那样完全闭合?尽可以按需要混搭各种标准,但要做好出现例外的准备,因为没有一条规则能涵盖全部情况,包括字母表必须是固定的一套字母的想法。

笔画、笔画数目、笔画顺序、笔画类型、写法上的不一致、书法艺术、界定一套固定的语言学单位,这些都是中国人从开始学写字就要克服的障碍。中文打字机和汉字电码的发明者各自处理了这些问题的某些方面,却都未正面或彻底解决这些问题。他们是务实派,达到了目的就收手。然而,在他们努力的同时,对此问题极为关注的一些人正在对汉语进行彻底的重新审视,这些人是每日都与文字和书籍打交道的图书馆员和索引编制者,他们的专业是组织、分类和储存知识系统,所以他们对汉字系统的分析比其他人更加详细精微。

图书馆员是中国文字传统的监护人,他们当然不想抛弃汉字或中国本土的知识系统。他们认识到,必须找到办法让汉语得以进入现代技术环境。然而,如果他们想保留过去的传统不予丢弃,就必须想办法重新组织汉语以供系统性使用。要使汉字和字母一样好用,等于把两个距离遥远的世界聚到一个书架上。尝试改变的人中有几个早早地认识到,中国与世界和平共处的关键也许就在于小小的笔画。要为汉语创立成功的归档系统,图书馆员是合适的人选,但首先要有人提出这个主意。一位年轻的英文教师无意间成了领头人。

1917年,23岁的林语堂在《新青年》杂志上发表了自己的第一篇作品。这份杂志两年前在上海法租界创刊,给中国躁动不宁和聪颖卓绝的青年人提供了一个平台。杂志除中文刊名外还有同样语义的法文刊名“La Jeunesse”,显示了带有马克思主义锋芒的世界性风格。在这本封面加红套印的平装杂志上,勤于思考的年轻人发文表达激进观点,介绍西方思想,质疑传统知识。主编把杂志的使命说得很清楚:如果中国必须丢弃过去所有传统的沉重包袱方能与外部世界竞争,那也只好如此。

与各种激烈批评传统文化的文章相比,林语堂的文章没有那么慷慨激昂。他选择了一个看似无害无趣,更适于图书馆工作者思考的题目——《汉字索引制说明》。同期杂志上的另一篇文章更吸引眼球,因为它介绍了法国哲学家亨利·柏格森(Henri Bergson)关于时间的内部体验学说,这个学说看起来足够新颖。林语堂那篇7页长的文章没有提出什么振聋发聩、令反叛青年趋之若鹜的主张,但它后来做到了杂志中任何其他文章都做不到的事:它不可逆转地改变了新旧知识的景观。

林语堂的提议乍看似乎简单,但其实可以算是一份组织汉字的完整指南。他把汉字分解成笔画,确定了5类笔画:横、直、撇、点、勾。这里隐约可见传统上教授书法时使用的永字八法的痕迹。可是林语堂给他的5类笔画界定的范围要宽得多,他注意的是笔画的方向,不是笔画的样式。例如,一横不仅包括明显的一道横线,如汉字的“一”,而且包括任何从左到右以类似的动作写出的笔画,不一定是平的。

数千年的书法练习使得笔画和笔顺根深蒂固,发展出了一套先写哪笔,后写哪笔,直至完成全字的固定规则。在英文书写中,可以想象写字母“A”时先写中间的小横,但常规写法是先写左边的斜线,后写右边的斜线,最后写连接这两条斜线的小横线。同样,写字母“X”的时候先写哪一笔都可以,结果毫无差别。但是,手写汉字时,笔画和笔顺严格得多。林语堂用一个字的首笔画作为第一分类依据,却发现分得不够细。于是他在那5个基本笔画的基础上加以扩大,确定了19个首笔画,囊括了所有汉字书写的第一笔。

接下来林语堂把第一笔和第二笔放在一起,找出了28个头两笔的格式,几乎适用于所有汉字。这如同先分出所有以一条竖线开始的字母:“B”“D”“F”“H”“K”“L”“M”“N”“P”“R”。然后加上第二条规定:第一笔竖线后必须是曲线,这样前述那些字母就剩下了“B”“D”“P”“R”。用确定的一套头两笔组合来辨识汉字,如此产生的组织格式与字母的逻辑不相上下。

林语堂这个简单明了的办法向数千年来研究、学习和规范汉字的传统提出了挑战。他显示了汉字如何可以按照其自身组织来分类,而不必依赖其他外在的原理,无论是西方字母还是代码。在字典中分类查找汉字从来都是靠部首。在林语堂之前,没有一个中国人提出过他这样完整的替代部首制度的方法。祁暄仅仅是开了个头。

林语堂在5个基本笔画的基础上确定的19个“首笔画”。


传统上,分类所依靠的原理因多年的习惯和文化实践积淀而成,而非来自抽象的语言理论。语文学和词典学是中国经典学问的核心,文字本身也是研究的对象。许多个世纪以来,学者们努力通过证实某个字的意思来保存古人的智慧,这是训诂学这门备受尊敬的学问的关键。印刷术发明之前,此事的难度超乎想象。即使手抄本的字体依照规范,仍旧有许多笔画差那么一点。一横写成一撇能引得以后好几代学者对这到底是什么字争吵不休。

管理汉字的全部词汇枯燥无味,吃力不讨好。把字词整理记录成词汇表是对汉语知识基础的重要支撑。这项工作是对汉语词汇的必要维护保养,需要怀着负责任的精神耐心地、不厌其烦地反复比较对照,细致入微地分门别类。所有这些一丝不苟的工作都遵循着一条基本规则。两千年来,作为汉字一部分的部首一直是分类的唯一标准。最早的汉语书写出现后大约1100年到1500年,部首得到了确定,当时用于管理内务。那时汉字的数量已经相当可观。

第一个汇编部首的人名叫许慎,是东汉时期的大儒和经学家。因为之前无人对汉字做过总结或研究过汉字的用法,所以许慎确定了540个部首来厘清混乱无序的9353个汉字。他深信,必也正名乃天下至道。这个信念深刻影响了他的组织准则。据说540这个神奇的数字来自代表“阴”“阳”的6和9相乘之积,再乘以10,它留出了足够的类别数目。他的制度从部首“一”开始,象征着万物之源,到代表时光循环的12个部首结束,形成了制度在概念上的完整性。

简而言之,部首是神圣的,上千年来一直得到尊重和遵守。不过,时常有人发问:为何要有如此多的部首?到底多少部首最为合适?对此众说纷纭。10世纪,一位僧人把部首数目从540减到了242,近500年后,一对父子选择了444这个数字。最后的214个部首是明朝时确定的,由太学生梅膺祚整理编入了自己编纂的《字汇》之中。到18世纪,爱书如痴的康熙皇帝采纳了214个部首的制度,命人编纂一部以他命名的权威性字典,由此确立了214个部首的权威地位。

到20世纪早期,部首制度开始现出裂痕。几个世纪以来,人们一直在修改、补充、调整部首制度,以维持它的可行性,但这个制度学习和使用起来仍然费时费力。没有易于掌握、有章可循的规则来储字检字,也没有合理的办法来管理浩如烟海的字轴和书籍中用汉字记载的大量故事、歌谣和王朝历史。

中国人在听说亚里士多德的分类学或梅尔维尔·杜威(Melvil Dewey)的十进分类法之前,很早就有了自己组织典籍的方法。他们不像杜威那样依靠数字和小数点,也不像查尔斯·A.卡特(Charles A. Cutter)那样使用字母。卡特在1880年前后开始使用字母来标识不同的题材,后来他的制度成为美国国会图书馆目录制度的基础。中国真正的书目分类始于公元前1世纪,建立在道德秩序的概念之上。一位儒学家设计了一套复杂的制度,有7个大类,下分38个小类。儒家经典居于首位,包括天文学、风水占卜、药理学、性学在内的科学和医学敬陪末座。两个世纪后,一位秘书监把被称为“七略”的七类缩小为更简练的“四部”,即四类。几经调整后,四部被确定为延续至今的形式:经、史、子、集。四部之下分别收藏了海量书籍和记录。据报告,到15世纪末,中国产出的书目和册数比世界上所有其他国家加起来都多。

18世纪,中国执行了一项巨大无比的皇家藏书项目,经、史、子、集四部实现了标准化。在《四库全书》的编纂过程中,大批学者奉命在四部的各部之下进行编集。《四库全书》共包含近8万卷书,历时10年终得完成。四部的次序反映了它们的重要性等级。这种以儒学为尊的书目制度在以中国为中心的世界中合情合理,但用生活在20世纪第二个十年的林语堂的眼光来看,它与西方的图书馆制度相比,在现代没有多大用处。

在1917年刊登在《新青年》上的文章中,林语堂把汉字和汉语信息管理视为同一个问题。若能轻易地在字典里找到一个字,同样可以很快找到一本书书名中的第一个字。所以,解决前一个问题的办法一定能够解决后一个问题,而办法从来就摆在那里,那就是汉字的结构。林语堂表示,汉字完全可以应付现代的挑战。它的进步无需任何外援,不用罗马字母,不用数字,也不用代码。汉语不需要其他表现方法,它自己特有的笔画和笔顺就足够了。

林语堂的主张立即引起了共鸣。在中国深陷疑惑与焦虑之时,他的主张给人们带来了希望、慰藉,甚至信心。新文化运动的一位领袖钱玄同看到,林语堂的思想远超同时代的人,对这位年轻的索引编制者赞不绝口。一时间称誉四起。德高望重的教育改革家蔡元培指出,林语堂不仅重新构想了笔画的功能,而且他的办法详细展示了笔画如何引领并构成一个字的全部轮廓。林语堂发现的汉语表意文字的逻辑足以媲美西方字母的组织能力,却一个拉丁字母都不用,这是何等的巧思啊。

从康奈尔大学留学归来的庚款留学生胡适的看法最深刻。他看到,林语堂研究的是使中国的往昔得以延续到未来的基础结构。林语堂的成就是认识到汉字有自我组织的能力,能够用来在中国浩大而丰富的知识基础内存储、搜寻、分类、选择并查找想要的信息。这个能力可以扩展到各种排序系统,甚至是其他语言的排序系统。也可以借此能力恢复中华知识宝库的文化力量。胡适说,林语堂的索引制是打开其他门的那扇门,是被批评传统的人忽略了的奠基工作:

“整理”是要从乱七八糟里面找出一个条理头绪来;从昏乱糊涂里面查出一个明确意义来……最没有趣味,却又是一切趣味的钥匙;最粗陋讨人厌,却又是一切高深学问的门径阶级……这样的努力中最困难又最不可缺少的是汉字的重组……即汉字的分类与组织。

现代压力逼迫中国与传统决裂,全中国如履薄冰。值此危难之际,众多革命者奋起行动,为事业抛头颅洒热血。林语堂与他们不同。他对重建中国的贡献是帮助拯救中国的传统与遗产,使之不致湮没。

《汉字王国:让中国走向现代的语言革命》,[美]石静远著,林华译,中信出版集团2023年8月。

读书推荐

读书导航