潘悟云谈汉藏语的历史起源研究

郑诗亮 2019-05-27 来源：澎湃新闻

潘悟云（澎湃新闻蒋立冬绘）

4月25日，复旦大学金力院士团队在《自然》杂志发表了以《语言谱系证据支持汉藏语系在新石器时代晚期起源于中国北方》为题的论文，揭示了世界第二大语系汉藏语系分化成现代语言的最早年代和地点，这是中国语言学的研究成果首次在《自然》发表，引发了广泛的关注和讨论。对此，《上海书评》采访了论文团队重要成员、复旦大学人文社会科学数据研究所东亚语言数据中心负责人潘悟云教授，请他介绍这一研究的相关情况。

《自然》官方网站页面

《语言谱系证据支持汉藏语系在新石器时代晚期起源于中国北方》一文在《自然》发表之后，引起很多人好奇：为什么语言学这种“文科”的研究成果，能够在顶级的理工科学术杂志发表？

潘悟云：我们这篇论文看上去是语言学研究，其实是人类学研究，关注人类早期语言的形成，特别是东亚语言当中汉藏语尤其是汉语的形成。

我们都知道，人类学分为好多种，既有你说到的“文科”——文化人类学，也有体质人类学、分子人类学。我所在的复旦研究团队主要做的是分子人类学，关注的是基因的构成，这次研究成果发表之后，可能会进一步关注体质人类学，就是人的外貌、身高、肤色、发色，等等，这些实际上都属于自然科学的范畴。

至于语言属于什么学科范畴，其实很难说——它是跨类的，一头伸进自然科学，如语音合成、语音识别，都是计算机学科在做；一头伸进人文社科，涉及人的社会特性。正因如此，语言学就有很特殊的意义，它是沟通文科理科的桥梁。另外，它也的确是一个很值得研究的对象。人类一产生，就同语言挂钩。我一直说，人类同动物的区别，就在于语言。以前都说区别在于人类会制造工具，现在发现很多动物不仅会利用工具，也会制造工具。而人类的语言和动物有本质不同。动物也有传递信息的工具，比如猿猴发出各种声响、蜜蜂跳出各种舞蹈，它们用各种方式传递信息。人类语言具有模式二重性。动物用一种声音来代表一种事物、一种现象，声音和事物、现象是一对一的关系。人类语言则有双层结构，语音先构成具有某种意义的语素，语素再与具体的事物、现象关联。这样，通过这种意义组合，可以表达大千世界的诸多概念。

我曾经猜想，人类产生之初，有各种的人，考古发掘已经发现了很多古人类，这些古人类与现代智人相比有许多优势，例如尼安德特人的力气比智人要大，但是前者在与后者的竞争之中逐渐消亡，最重要的原因就是语言。智人通过语言，能够有效地交流、沟通，将发明创造保存和传递下去。有了语言，才有文字，才有文献，进而才有文化和文明——所谓文化，本质就是一代代能传下去的、大家形成的知识。所以，很多学者关心语言的起源问题。关心语言起源，就意味着关注人类的起源、文明的起源。这些问题，不管什么学科，都会共同关注。

既然如此，想请您简单介绍一下，学者是如何针对语言起源问题展开研究的。

潘悟云：关于这个问题，最开始大家都是猜测，提出各种假说。有人说是游戏产生的，有人说是劳动产生的。以至于巴黎的语言学会一度禁止这方面的讨论，因为过于主观，与近代科学思潮不相符。好在随着科学的发展，产生了现代语言学，也就有了许多科学方法来推测语言从何时起源、最初的形式如何。这里面尤其值得一提的，是十九世纪的历史比较法。这种研究方法的基本思路，是对众多现代语言的共同特征加以比较。学者猜测，现代语言的共同特征不是偶然产生的，而是来源于早期的共同语。这方面的代表性学者是威廉·琼斯（William Jones），他在东印度公司工作时，看到梵文与拉丁文、古希腊文有相似之处，猜测它们一定有共同祖先。后来，有许多语言学家通过大量比较，参之于古代文献，将古代的共同语构拟出来。这是很科学的做法。迄今为止，我们进行语言历史研究的时候，历史比较法还是最重要的一种方法。

但是，历史比较法也有局限性，它只能解决语言的谱系问题。它根据不同的现代语言的同源词多少，来推断这些语言之间的亲疏远近关系，然后画出谱系树。这里面的道理很简单：如果一群亲属语最早来自同一种语言，后来才分化，那么这些语言最初的词汇肯定是相同的。分化以后，由于语言是不断变化的，过去相同的词汇不断地流失。分化早的，流失的就多，分化晚的，流失的就少。所以，凭语言中同源词的多少，大体上可以断定语言分化的早晚。

但是这种方法解决不了分化的年代问题。例如，印欧语分化成十个语族，是什么时候开始的，斯拉夫语族分化为俄语、波兰语、捷克语，是什么时候开始的？分化的地点问题也很难解决。例如，印欧语诞生地的确定，靠的还是这些语言所共有的生物，其中最重要的是山毛榉与鲑鱼，语言学家根据这些动植物的分布，把印欧语的起源地锁定在维斯杜拉河与易北河之间的地域。地点确定以后，根据考古学的证据，这些地区在公元前3000年以前才出现印欧语中普遍出现的马与羊。于是语言学家认为，印欧语在公元前4000年晚期开始在德国波罗的海沿岸使用。但是，这些方法都不是语言学本身的。

那么，这个问题是如何得到解决的呢？

潘悟云：一直到二十世纪，美国的斯瓦迪士（Morris Swadesh）提出一个新的方法——语言年代学，语言的发生年代才能够得到确定。要理解这个方法，可以参照地质学用放射性物质碳14对年代的测定。活生物体内的碳14的含量是固定的，死了之后，体内碳14衰减的速度是恒定的。打个比方来说，如果考古队从地下挖出一头鹿，根据碳14的现存含量与衰减速率，就能算出这头鹿的死亡时间。那么，语言学变化的速度，是不是也像碳14那样，是恒定的呢？如果是的话，那么，根据两种语言中现存同源词的多少，就可以知道它们分化的时间。

斯瓦迪士给语言学找到的碳14，就是“核心词”，或者“核心语义”。人类认知的共同性，决定了有些词大家都会常说。比如太阳、月亮、身体部位名称，还有人称代词、数词，这些都是核心语义，而且变化比较慢，原因在于人的交际需要。比如，小孩今天晚上叫“妈妈”，明天上午叫“嬷嬷”，妈妈就听不懂了，最核心的语义一定是变得比较慢的。斯瓦迪士经过统计，认为核心语义的变化速率也是恒定的，于是提出一个语言年代学的公式，利用这个公式，通过计算两种亲属语言中现存的同源词多少，来计算分化的年代。

但是，这种方法遭到了很多质疑。第一个原因是，语言的变化速度肯定是不一样的。战争频繁的地方，语言变化的速度就快，一打仗人死光了，其他地方的人迁移过来，语言就发生变化了。中国历史上大的动乱，例如唐朝的安史之乱、黄巢起义，北宋的靖康之难，都导致了北方移民大量南下，一旦与当地人接触，就会引起语言的借用。第二个原因是，词汇的变化速度也不一样，核心词变得慢一点，文化词就变得很快。甚至有些印欧历史比较语言学认为很稳定的词，实际上并不稳定，比如说人称代词。汉语里的第三人称先秦还没有，出现时已经很晚了。上海人喜欢说的“侬”最早是第一人称，古吴语以“侬”或“阿侬”表示“我”，现代上海话“侬”则变成了第二人称“你”。所以印欧语中一些最稳定的语义，在汉语中就不一定如此。

尽管如此，我们还是采用了斯瓦迪士的理论。不少中国学者，如孙宏开、黄布凡、郑张尚芳等，都认识到斯瓦迪士的理论对东方语言不完全适用，进而提出了东亚语言的核心词。但是我们认为，绝大部分核心词全世界都是一样的，如太阳、月亮，大家都常用，例外只是少数。中国学者提出的核心词同斯瓦迪士相比，绝大部分也还是一样的。

具体计算年代的方法，我们采用的是贝叶斯统计方法。我在网上看到了不少评论，很有意思。比如有一位学者，他看到我们用了贝叶斯统计方法，大约在网上检索了一番，发现贝叶斯学派是“主观概率学派”，就认定我们是在“主观”臆测。实际上，主观概率学派相对于频率学派而言，是对概率论的一大发展，在无法通过重复试验得出概率的情况下，根据有限的观察提出一个主观假设，通过大量的材料不断作出修正，逐渐逼近事实。这更接近经验科学的普遍做法。就算相对论也是一种假设，还在不断接受经验世界的检验。这个方法首先用在物种分化，后来语言学也采用了，并且产生较大的影响。

有了这种语言谱系树，还可以用谱系地理学（phylogeography）的方法推断分化的地理位置。谱系树上最接近的语言，通常地理距离也比较接近。例如，上海与苏州地理上比较接近，语言也比较接近。上海与广州，距离比较远，语言的关系也比较远。当然，也会有不同的情况，武汉与昆明的距离比较远，语言却比较接近。但是大多数的情况下，语言的距离与地理的距离是相关的。同时，这种方法还假定，原始人从一个地方开始向四处分化的时候，他们的迁移是随机性的。根据这些假设，我们算出原始汉藏语的发源地在四川一带。但是，汉藏人向四处迁移并不是很随机的，更多的是从北向南迁移。所以，汉藏人的发源地一定在四川以北，即陕甘宁一带，就是仰韶与马家窑文化的分布区域。

汉藏语系语言的分化与中国西北、西南地区的人口扩张相关

关于研究团队的构成、不同成员的分工，能麻烦您介绍一下吗？

金力团队合照，左起：严实博士、金力院士、潘悟云教授、张梦翰博士

潘悟云：金力教授统领整个研究团队。他一直关注人群的遗传结构、人群的迁徙和自然选择这些问题。斯坦福大学的卡瓦利·斯福扎（Cavalli-Sforza）是以分子人类学解构语言、从基因角度研究人类演化的鼻祖，金力教授做博士后研究就在斯福扎的实验室。上世纪九十年代，金力教授采集了十万例东亚人基因，研究之后得出结论：整个东亚地区的各个人种都是从非洲迁移过来的，一下子推翻了中国人由“北京猿人”演化而来的假说。

1996年，金力教授回国之后，在《文汇报》发表了一篇关于东亚人来自非洲的文章，我读到之后，很振奋，因为他做的研究与我的研究是互相印证的。亚洲大陆的几个语系，阿尔泰语系、汉藏语系、南亚语系和南岛语系，传统观点认为，说这些语言的人种没有什么发生学上的联系，因而这些语系当然是毫无关联的。比如，过去大家都认为，爪哇猿人和北京猿人是两个人种，那么南岛人和中国人作为他们的后裔，也应该说两种不同的语言。但是后来我们发现，南岛语系和汉语的一些核心词很接近，这一点是法国语言学家沙加尔（Laurent Sagart）最早提出来的。举两个例子，女性生殖器涉及人类的繁衍，是很重要的词，国内说的最多的发音就是pi，现在的南岛语也说pi；女性的乳房涉及哺育后代，也是很重要的词，上古汉语的发音是njo，南岛语是nu。

汉语和南岛语有这么多核心词相似，过去一直让我很困惑。读到金力教授的文章以后，我就明白了，原来他们都是从同一祖先演化来的。后来金力教授很快就和我见面了。要探索文明起源，文献、考古这些传统手段都存在局限性，只有两样东西是既便宜又无处不在的：语言和基因。通过语言学和遗传学方法，我们可以往上追溯，探讨东亚人群、语言、文明的起源和演化。从此，我们就展开了合作。

论文第一作者张梦翰是我的硕士和博士，他本科就读于上海师范大学数学系，曾在中美大学生建模竞赛中获奖，有很高的数学才能。博士生阶段我让他去金力教授处和中科院上海生物研究所旁听，借着这些机会，他熟练掌握了生物和遗传方面的各种数学模型。而且他对相关文献很熟悉，最近几年，《自然》《科学》和《美国科学院院报》上连续发了好几篇用贝叶斯方法来研究语言起源，解释印欧语、南岛语分化的论文，这给了张梦翰很大启发，他认为汉藏语也可以使用这个方法来研究，于是才有了这个题目。

严实是复旦生命科学院的博士后，他主要负责处理材料。我们这个研究，光有合适的方法还不够，还需要大量的材料，样本越多，统计越精确，当然，工作量相应地也就大了。我们用了美国著名汉藏语专家马提索夫（James A. Matisoff）教授的STEDT数据库。马提索夫用了三十年的时间建设这个数据库，收录了全世界汉藏语研究者认定的同源词，共有六百种语言。我们这篇论文选取了斯瓦迪士前一百个核心语义中的九十八个，从马提索夫的STEDT数据库中选取了一百零九种语言。不算前期的材料处理，光是最后的运算，在四核八线程的电脑上就连续运行了四天，工作量的确很大。

事实上，我们本来打算和国际学者展开合作的。首先联系的就是马提索夫，经得他的同意之后，使用了他的数据库。

对这一百零九种汉藏语材料的处理，最后呈现出的成果是一棵谱系树，这是怎么画出来的？

汉藏语系中一百零九种语言的谱系树

潘悟云：谱系树是根据同源词画的，但是要辨认同源词是一件很麻烦的事情。例如，太阳这个词，汉语最早是“日”，上古音读njit，藏语的太阳是nima，ma是后缀，ni是词根。上古汉语的nit与藏语的ni，一眼就能看出它们之间的同源关系。这是比较容易辨认的同源词。但是有的同源词就很难辨认，比如数字“七”，汉语读t?hi，羌族读?in，景颇语读?anit，彝语读s?，这几种语言之间的同源关系就需要我们深入、系统地加以比较，才能得出正确结论。如果仅凭看上去是否相似，来断定不同语言之间是否存在同源关系，这显然是不行的。

画谱系树采用的贝叶斯统计方法，不单是对计算年代有其长处，对画谱系树也有其特殊的长处。关于同源词的比较，传统的历史比较方法只考虑数量，打个比方，语言A和B有二十个同源词，A和C有十个，二十个比十个多，可见A和B更有亲缘关系。但是词与词的重要性是不一样的，比如身体部位名称就比人称代词重要，马提索夫曾说过，身体部位名称是核心词中的核心词。这很对，因为人类认识世界总是从认识自己开始。因此，身体部位名称变化的速度比人称代词要慢。贝叶斯方法把语言变化速度纳入考量，给每一个同源词加权，速度变化快的，次要一点，变化慢的，重要一点。所以，我们现在是计算加权以后的同源词。这样画出来的谱系树，会更精确一些。

这次的研究成果对语言学有什么样的意义和价值？能请您谈谈吗？

潘悟云：首先是对有关汉藏语系起源假说的证实。主要就是两种假说，主流意见是“北方说”，认为黄河中上游——也就是陕西甘肃宁夏一带——是汉藏语系的起源地，马提索夫，国内的许多学者都持这种观点；另外一种“南方说”，以欧洲的范德利姆（George van Driem）教授为代表，认为汉藏语系的起源地是中国西南到印度东北这一带地区。这两大派针锋相对，其实都还是用传统的历史比较做出的猜想，谁都不能解决时间和地点的互动问题。我们的文章支持了“北方说”。

这次的研究成果，更有利于历史语言学的发展。最早的语言是怎么样的？年代一久，谁都说不清楚。现在的学者就像盲人摸象一样，有些人摸到鼻子，有些人摸到耳朵，有些人摸到尾巴，其实把各个方面的研究拼起来，才能还原古代语言的面貌。前面说过，我们目前采用的贝叶斯方法，能够解决年代跟地点的问题，这两点恰巧是历史比较法的软肋。但是贝叶斯方法不能解决语音构拟问题，例如中古、上古汉语和原始藏语的读音怎么样，这是历史比较法的强项。

把原始语言每一个阶段怎么发音弄清楚，这有什么意义呢？它不只是解决古人怎么说话的问题，最终会使得整个历史语言学的面貌焕然一新。十九世纪，整个欧洲的语言学家都投身历史语言学研究，到了二十世纪初，研究者渐渐减少。其中很大一个原因，就是传统的历史比较法存在一个很大的缺陷——不确定性，这与现代科学思潮是相抵触的。历史比较法无法做到定量化、形式化，因而逐渐退出语言学家的视野。大概是从上世纪六七十年代开始，美国的一些语言学家开始用新的方法去做历史语言学研究。最核心的内容是音变。这更符合现代科学的思路：人的语音为什么会变化？

人的语音变化。最重要受制于两个因素：一个是发音器官，一个是听觉器官。这两种器官，古今中外是一样的，所以由这两个器官引起的音变现象，古今中外也是一样的。于是，音变规律就有其普适性，就可以把演绎、推理的方法引入历史语音研究。

现在大家都在研究，全世界的语言到底有哪些音变规律？其中最重要的就是自然音变（nature process），它是渐变的，而且可以从发音、感知上加以解释。如果我们通过历史语言学研究，把这些音变规律一条条研究出来，将来的历史语言学就是另外一种面貌。确定了汉语与藏语、缅甸语是同一个祖先，即从同一种语言变化而来，就可以通过历史比较，把这些语音的演变规则找出来。

另外，这次研究还有一个重大意义，有利于我们回答一个问题：中华五千年文明的根据是什么？甲骨文记载也只有三千多年。而我们通过研究汉藏语的起源、汉语和藏缅语的分化时间，可以确定汉语有五千九百年的历史。这与中华文明探源工程定下来的五千八百年是相当接近的。中华文明探源工程的依据是考古，我们的依据是语言比较，大家从各自独立的研究，得出了接近的结论。

这个研究还要继续推进。汉语和藏缅语分化以后，汉语如何走向东南演化为各种汉语方言？藏缅语往西南怎么演化为藏语支和彝缅语支？彝缅语支又怎么分化为缅甸语和彝语？发生在什么时候，什么地点？整个中国版图上这么多民族的来源和演变，都要弄清楚。

您觉得这次研究当中体现出来的这种跨学科研究方法，对我们来说有什么启发？

潘悟云：现在的语言学研究，有几个学科要合在一起做。

一个是古文字研究。我是做上古音研究的，最近几年我才意识到，古文字研究、考古发掘，对上古音研究的意义有多大。去年5月份北大文研论坛请我去做了一次讲座，那次以后我就认识了好多年轻的古文字学家。后来又到香港去开了一次会，又认识了一批古文字学家。我觉得很欣慰，这批年轻的古文字学家可了不得，不仅懂古文字，而且懂上古音。

一个是前面提到的分子人类学。复旦有金力教授和他的科研团队，将来肯定会形成一个古代人类学、古代语言学研究的国际学术中心。

另一个是民族语研究。我现在很关注民族语的搜集和整理。我带领的团队经常去少数民族地区进行语言调查，这些搜集到的语言样本，是很宝贵的进行历史语言比较的资料。

读书推荐