邓小南、包弼德、薛凤、魏希德、陈熙远:数字人文与历史研究

在数字人文的终极乌托邦里,人人都是历史学家吗?还需要历史学家吗?在数字纪元里,历史学家需要有什么新的专长?

2020年6月8日,由北京大学数字人文研究中心联合北京大学人文社会科学研究院、历史学系和北京论坛共同主办的“数字人文视角下的中国历史研究”研讨会在线上进行。本次研讨会是“北京论坛云端国际论坛系列”的首场活动,根据现场统计,有近万人在线参与了这次研讨会。

本次论坛邀请了北京大学历史学系邓小南教授、哈佛大学东亚语言与文明系包弼德(Peter K. Bo)教授、德国马克斯普朗克科学史研究所的薛凤(Dagmar Sch?fer)教授、荷兰莱顿大学区域研究所的魏希德(Hilde De Weerdt)教授,以及台湾“中研院”历史语言研究所研究员陈熙远博士五位重量级学者。论坛召集人为北京大学信息管理学院王军教授,由北京大学历史学系何晋教授、南京大学历史学院梁晨教授及北京大学中国古代史研究中心的史睿研究员共同主持。

邓小南:“数字人文视角下的中国历史研究:点滴想法”

北京大学人文社会科学研究院院长、北京大学邓小南教授带领北大历史系的一批研究生长期参与与哈佛大学合作的CBDB项目,在她主持的北大人文社会科学研究院的工作中,也有诸多涉及数字人文研究的内容。本次研讨会中,她首先以“数字人文视角下的中国历史研究:点滴想法”为题展开探讨。

邓小南教授谈到,进入20世纪以后,学术界一直面临着学术创新的压力,数字人文是重要的尝试路径。“面向历史,也面向未来”的历史学研究者不断在寻求新的历史学发展路径。数字人文是一种新的学术导向,其产生和推进都源于“数字”和“人文”的双向需求和动力。数字人文是一种理论开放、成就最显著的跨学科研究,提供了多学科交流的平台,提供了新的研究工具,激发了新的研究方法、研究范式和研究活力。人文学科一直是需要积累和传承的,特别需要拓宽学术空间和激活学术潜力,这样的内在需求,其实是发展数字人文的根本性动力。北京大学近十年来一直在推进数字人文的建设,各学院、图书馆等,都在积极进行相关尝试。历史学成就的基础,来自“材料”和“议题”的结合,数字人文技术的介入,尝试突破的首先是历史学的材料占有问题。在实践的过程中,透过不断的追问,即使是字面上的“检索”,也支持并且引导学者的深度研究。现在,数字人文已有长足的发展,从过去的检索,到现在超越检索的各类复杂功能,数字人文对历史学科的介入方式也是在不断推进的。现在,不仅有Markus这样个性化、定制化的数据平台,也出现了一些经过深层开发的关系挖掘型、语义分析型的数据库,这使学者们有机会开始处理材料背后的一些结构化的内容。

除此之外,邓小南教授还谈到了一些新的互联尝试。互联网的关键在于“互联”。现在对于“互联”,已经有许多新的努力和实践。数字和人文是不同的学科,也具有不同的学科特点,但不管怎样,二者都有拓宽天地的要求。这二者的连结,延展了观察历史的平台,深化了学术内涵,也使学术境界有可能获得根本性的提升。如CBDB、CHGIS这样的互联尝试,就用可视的、能看得到的方式呈现历史时空,呈现时空里活动的相互关联的人。这样就可能激发出一些新的研究题目,形成一些新的研究契机。同样,也是因为议题的互联和学者的互联,使研究交流的方式发生了根本性的改变。不仅是收藏在世界各地的不同资料能够让世界各地的学者广泛利用,而且针对一些全球性的问题,交换意见和合力研究的渠道也变得非常迅捷、丰富。在历史上,笔和纸的出现以及印刷术的出现,都曾为知识和学术思想的生成和传布创造了新的条件。如今数字人文技术的出现,也促成了新的记载、阅读和研究的方式。

最后,邓教授还谈及一些关于数字人文的新期待,特别是对于“融通”的期待。世界文明的发展,对于文明的研究,其实都是跨时代、跨地域、跨学科的。今天的数字人文领域,也正是这样一种跨越和互通的典范。数字人文出现以后,历史学者开始有了新的工作方式、面对新的议题,也开始进行学术机制的重组和重构,有了大跨度的文理交叉实践过程。对未来的新期待,一方面包括量化研究和质性研究的对话,另一方面也包括数字人文和传统考证方式的融通。人文学科有一些特有的属性,这些属性对于数字人文的功能实际上提出了很高的要求,同时也对历史学者的素质提出了更高的要求。现在历史学者不能仅靠对材料的熟悉夺得研究中的先机,所以辨析和追问的能力高低就会特别凸显出来,就这些问题,学界已经有许多聚焦式的集中讨论。

数字人文领域新的“互联”尝试

最后,邓教授也谈到数字人文研究方式的广泛应用,应该是人文学科得以深化的路径。作为历史学者,要特别警惕急功近利导致的“表浅化”可能。系统可以协助学者抓取文本、观察文本间的关联,但有一些非字面的体悟,只能靠学者对各类史籍、对田野、对历史遗迹的“触摸”,靠内心的感触、靠阅读实践与思考来摸索形成。数字人文的深度发展,是和历史学科的深度发展相伴相随的,加强问题的提炼、材料的阅读和辨析的训练,仍然是我们不能忽视的基础和责任。

魏希德(Hilde De Weerdt):“数字历史需要什么?想象力、评测、合作”

荷兰莱顿大学魏希德教授是Markus古籍半自动标记平台的主持开发者,曾在2016年的世界数字大会上赢得“最佳数字人文工具”奖。本次研讨会中,魏希德教授以“数字历史需要什么?想象力、评测、合作”为题,介绍了她心目中数字历史、特别是东亚和中国的数字历史研究最需要重视的原则。

魏希德教授首先介绍了她所主持的Markus中文文本标记、分析、可视化平台项目的最新进展。2019年,Markus 项目新开发了文本对比服务和韩文版本。同时,团队已与中文在线公司进行合作,预计在未来三年的时间里在中国大陆深度开发Markus,这将为大陆用户的使用提供便利。

魏希德教授主持的Markus项目

接下来,魏希德教授探讨了她对“数字历史最需要什么”这个问题的看法。在她看来,这个问题的答案是“想象力”。想象力不仅是数字历史,也是历史学本身的一种发展动力。著名的欧洲中世纪历史学家马克·布洛赫(Marc Bloch)在著作《历史学家的技艺》中曾说:“历史研究的特殊对象,是人类的所动所作。比起其他学科,历史学是为了引诱想象力而设计的。”有趣的是,布洛赫先生虽然如此强调想象力,他对在学术界很有影响力的实证主义(positivism)也表示了尊重,认为实证主义教我们深入地分析问题、固定地把握问题,甚至使我们的思想没有那么粗劣。现在许多学者都认为数字人文就是以前的实证主义,若以布洛赫的视角来看,数字人文的研究不意味着历史学家要成为数学家,而意味着历史学家要对数字人文的技艺有所把握,将来数字人文也会成为历史学家“本行”的一部分。魏希德教授自己,也坚信这样的观点。

在魏希德教授看来,数字化给历史学家带来了新的挑战,也带来了新的机会。她着重就“问题的开发”这一问题展开了探讨。她认为,比较成功的研究项目通常有三个特点:第一要从有想象力的问题出发;第二要确定好合适的研究范围;第三点,也是最重要的一点,要设计好研究程序以及研究方法。她过去召开过许多Markus工作坊,发现有一些学生和同行只是在没有达到这三点的情况下盲目地尝试工具,这样一来就无法产生有价值的研究。

最后,魏希德教授以Markus平台的实际开发过程为例,来说明想象力在设计研究方法与学术发表方面的意义。Markus平台开发的每一步,都反映了她本人或是同学、同行们的研究兴趣,以求灵活地设计人文学者需要的平台。

Markus平台的开发是从自动标记开始的,这与她当时正在从事社会网络,特别是宋代笔记反映的社会网络研究有关。后来,平台加上了各种功能,比如手动标记、关键词标记、段落筛选等。团队不断在功能和参考材料方面对平台进行改进,如由于对标签之间的关系感兴趣,添加了关系标注的功能;为了适应清史研究者的需要,添加了满文材料;因为有一位学生要从事中韩关系的研究,又添加了韩文实体标记功能等。为了实现可视化功能,平台链接到Palladio,后来又添加了链接到Docusky平台的功能。因为历史学研究常常需要回到原文,平台特别设计了能从每个标记点回到原文中的功能。最近,因为对《贞观政要》里引用的书籍感兴趣,平台新开发了文本对比的功能;除此之外,还开发了版本对比的功能。这些功能,都是通过跨领域长期深入的协作开发完成,许多学者都曾在其中发挥贡献。

包弼德(Peter K. Bol):“从轶事到数据:传记数据的网络和空间分布”

哈佛大学包弼德教授是哈佛大学中国历史地理信息系统项目(CHGIS)、中国历代人物传记资料库(CBDB)项目的负责人。在本次的研讨会中,他以“从轶事到数据:传记数据的网络和空间分布”这一主题展开介绍。

包弼德教授首先介绍了一批数字人文领域的中国历史研究文献,其中,他特别提到了两位年轻学者——伯克利大学的谭凯和巴克内尔大学的陈松,他认为,这两位学者用数字人文的方法,对中国历史有新的发现。包弼德教授提到,正如魏希德教授所言,数字人文领域的许多研究是合作研究,需要有其他领域的专家、尤其是技术人员参与。除此之外,他还介绍了一批对中国历史数字人文研究最有价值的数据库、工具和平台,包括中国哲学书电子化计划(Ctext)、明清数据著作数据库(MQWW)、中国历代人物传记资料库(CBDB)、中国历史地理信息系统(CHGIS)、Markus、《史记》研究数据库、10,000 Rooms、LoGaRT、Philologic、Docusky等。

接下来,包弼德教授对中国历史地理系系统(CHGIS)和中国历代人物传记资料库(CBDB)的情况进行了介绍。中国历史地理系系统(CHGIS)项目始于2001年,由哈佛大学与复旦大学合作,旨在建立适用于中国历史的历史GIS通用标准。CHGIS目前已经更新至第六版,包含由秦代到辛亥革命的行政区划数据。中国历代人物传记资料库(CBDB)项目则始于2005年,由哈佛大学与北京大学、台湾“中研院”历史语言研究所合作开发,在即将更新的最新版本中已经包含了47万人的数据,旨在让学者能够通过个人与群体的角度研究中国历史问题。目前,使用CHGIS和CBDB进行中国历史研究的研究者分布在世界各地。CHGIS和CBDB的数据特点是“三言”的——同时有汉字、拼音和英文翻译三种形式。建设数据库的过程中所用的各类文本,是为了供给学者做不同的研究和分析,如统计分析、群体传记学、社会网络分析和空间分析等。

包弼德教授介绍到,所谓“从轶事到数据”,可以通过南宋史学家、经济学家吕祖谦的传记案例进行说明。学者们在这一传记中,标出了不同的人名、字号、官名、地名、社会关系。接下来对这些标记出的片段进行编码并放入关系型数据库中,即可成为可供计算机检索的资料。

据包弼德教授介绍,目前,CBDB最新版本中的大部分数据来自唐、宋、元、明、清代,而五代、辽、金的材料则较少,目前已有一些来自民国的材料但数量也较少。在未来,会进一步将材料的时间范围向前推广到秦汉,且希望能尽力向后推广到现在为止。CBDB的数据库支持在线检索,并提供了可下载的access数据库版本。包弼德教授以明代进士数据的查询统计为例,向大家讲解了CBDB的使用过程。随后,他也向大家展示了如何使用明中叶七十二位学者的数据进行社会网络分析和GIS分析,研究学者间学术关系、学者籍贯和明朝驿站地点关系、学者聚集地点特征等的案例。目前,若想要在中国大陆使用CBDB数据库,可以从“中文在线引得数字人文资源平台”进入,十分便利。

薛凤(Dagmar Sch?fer):“看待史料的新视角——利用数字人文进行历史研究”

德国马克斯·普朗克科学史研究所所长,柏林工业大学教授薛凤教授2020年荣获德国最高学术届最高荣誉——“莱布尼茨奖”。她主持有关中国地方志的数据库项目,并推出了自己的数字人文研究工具LoGaRT(Local Gazetteers Research Tools)。

在本次研讨会中,薛凤教授基于马克斯·普朗克科学史研究所(以下简称马普科学研究所)在构建地方志研究工具LoGarRT方面的相关经验,以“看待史料的新视角——利用数字人文进行历史研究”为题进行了探讨。

薛凤教授指出,尽管“对问题的回答”一直是许多数字人文研究方法和发展的前沿,但她建议未来可以将“提出新的研究问题和产生新的研究方法”作为下一代的数字人文学术前沿。

薛凤教授关于“地方志和灾害”的数字人文研究

这项研究的研究问题是使用地方志了解地方灾害的出现和政治因素,从而分析地方性知识的性质、发展、变化、政治因素等。和传统“利用地方志了解灾害何时出现”的材料使用方式比起来,这项研究需要了解地方志本身的发展过程。使用LoGaRT系统中的数据,可以发现很多问题,例如各地方对自然灾害的记录情况和朝代有关。薛凤教授指出,这个例子也可以说明数字人文的研究,可能产生新的问题,但并不意味着一定能给出更多的答案。

薛凤教授认为,数据本身不足以提供增加新认知的结构性信息, 当我们从数据中提取出某种新的结构,例如做成一个数据库的时候,数据本身便具有了新的意义,我们也会对数据产生新的了解。同时,如果我们仍然对数据原始表征的信息感兴趣,就需要保留原来的结构,这样的做法会对材料的价值产生新的了解。这二者之间,存在很大的区别,对数字人文研究的创新很重要。通过分析数据,分析结构,和同时分析数据与结构,就能够更深入理解原始材料。

如果我们将注意力转到史料资源本身的问题上来,材料是如何被解释的?它是关于什么,又是为什么被采用?或者原始语境中是怎么利用这条材料的?魏希德教授认为,数字人文是探讨这些问题的完美工具。它帮助我们重新思考我们本认为理所当然的事情,让我们对原本认为理解的东西产生新的认识。

陈熙远:“探索人文研究的数位转向:挑战与前景的若干思考”

台湾“中研院”历史语言研究所(以下简称史语所)研究员陈熙远博士是台湾“中研院”数位文化中心召集人。该中心一直致力于推动跨学科的数字人文研究,在上个世纪八十年代就开始了数位典藏与数位文化的建设。陈熙远博士以“探索人文研究的数位转向:挑战与前景的若干思考”为题进行了报告。

陈熙远博士首先引述了台湾“中研院”史语所成立时,所长傅斯年先生的名言:“我们不是读书的人,我们只是上穷碧落下黄泉,动手动脚找东西”、“中国古来新学问大都由于新发现”。在二十世纪中国学界的五大发现中,包括殷墟甲骨、汉晋简牍等,都成为史语所在后来发展中很重要的助力。

陈博士认为,如果说史学资料库的建置可以作为数字人文研究的发展开端的话,数字人文研究其实可以说对史学研究者具有十分深远的影响。例如说,史语所从1984年就开始做“汉籍自动化”的工作,九十年代开始“内阁大库”的整理,这些资料库提供了材料检索和使用的便利。这些资料库还仅仅停留在“Big Data(大数据)”而不是结构化的“Smart Data(智慧数据)”层面,但对它们的使用,使得史学界从研究选题、到史料援引、再到成果展现,都已经和过去的历史学研究有所不同。在使用材料时,从私人藏书楼,到公共图书馆,再到现在的云端资料库,寻找材料时,我们已经基本已经不必再从故纸堆里“众里寻他千百度”,在弹指之间,现在研究中的“海底捞针”已经全凭“翻云覆雨手”。学者已经不再“上穷碧落下黄泉,动手动脚找东西”,而可能是在“东西”上动手脚,将这些“东西”转化成数据库,让“东西”自己长出“手脚”。数字人文方法的出现,在大势方面重新覆案历史发展的宏观全局,在细节方面则挖掘藏在历史夹缝的微观细节。

作为历史研究者,陈博士提出了若干在一个美丽新“数”界出现之后,历史学将如何发展的问题。在数字人文终极的乌托邦里,人人都是历史学家吗?还需要历史学家吗?苏轼所说的“博观而约取,厚积而薄发”会变为“约观而博取,薄积而厚发”吗?在数位纪元里,历史学家需要有什么新的专长?这些都是值得学者们深入思考的问题。通过这些问题,陈博士引出了自己和台湾“中研院”数位文化中心(以下简称数位文化中心)对“人文研究的数位转向”的看法对和对数字人文研究的规划。


台湾“中研院”数字人文研究中心开发的研究平台

数位文化中心希望能够通过四个核心课题来规划数字人文发展。在数字人文知识库建立上,延续过去的资料库建置,并和其它资料库进行关联;在数位研究研究工具的开发方面,通过核心技术与系统的研发,萃取并分析文本;鼓励数字人文创新计划的发展;在出版与推广环节,通过数位展示和虚拟出版来完成。数位文化中心已经与台湾“中研院”民族学研究所、台湾史研究所、地理资讯科学研究专题中心、近代史研究所等机构合作,开展了多项课题研究。陈博士特别强调,这些项目的成果都是“linked data(关联数据)”,而不仅仅是数据库。这些结构性的数据,能够更有意义地协助研究者们今后的探寻工作。他指出,对于人文研究者来说,文本分析和图像分析是两个重要的研究问题,目前数位文化中心也针对这两个问题开发了文本分析研究平台和图像分析研究平台,可实现文本标引、语义标记、词频统计、文本对比、图像比对研究、影像文字辨识等功能。平台同样注重数据的开放互联,也建立了自己的自己的研究材料检索系统。在人文学者对数据资料库的使用方面,史语所每年都会通过“申请-审查”的方式鼓励所有的人文科学研究者参与到项目中来。在出版环节,数位文化中心正在考虑成立一个院级的出版社,实现实体出版,并在未来将其和所有的数位展示连结起来。同时,正所谓“致广大而而尽精微,极高明而道中庸”,数位文化中心也希望能够通过这些平台,让一般人也可以参与到项目中来。目前已经在进行“开放博物馆”的展示平台规划,旨在实现研究者学术成果的数位展示、研究历程的记录、研究素材和数据的保留、分享甚至进一步修订等。除此之外,也希望从美术馆、图书馆、档案馆、博物馆乃至普通人,都可以通过公众授权的模式,进行藏品的收集、展示、转译与再创作。陈博士认为,这是“从学者一个人的武林到全天下人共享的江湖”,目前已经设计的展示模组、展览模式和分析工具,都服务于这个构想。

在五位学者的精彩介绍过后,由北京大学中国古代史研究中心的史睿研究员和南京大学历史学院梁晨教授两位主持人收集了一些来自听众们的问题,并向学者们提问。

Q1:想请问包弼德教授,数字人文的研究方法比较依赖于数据的搜集,那么这样的一种新方法是否意味着它在某一类史料上比较有效,而在某些领域内不太能展现其功能?这种方法的局限性在哪里,未来的前景怎样?

A(包弼德):这个问题提得很好。我想从另一个角度来回答,不是从材料来讲,而是从问题来讲,从研究的题目、研究的问题意识来讲。举一个例子,我个人是研究中国思想史,特别是宋、元、明、清思想史的。如果我需要了解朱熹的哲学思想,那么我一定要读朱熹的几篇比较重要的文章和注解。举例而言,他在《中庸章句集注》中引用著名的十六字——“人心惟危,道心惟微,惟精惟一,允执厥中”,对“人心”、“私欲”、“道心”和“天理”进行了新的定义。除了我现在所看的文本都是数字化的文本之外,这个问题原本和数字人文不太有关系。但是如果我现在有另一个问题:我想看到朱熹提出这个讲法以后,谁开始接受“人心”就是“私欲”,而“道心”就是“天理”这个新的定义?要回答这个问题,我可以阅读每一篇朱熹所在时代之后写成的文章,或者《四书》经解等等,看这些文章是怎样讲的。可是,最有效的方法是一个数字人文的挖掘文本方法。看从哪些文章中,开始同时提到“人心”和“道心”,同时,也提到“天理”和“私欲”。例如,从朱熹去世之后,到元朝开科举制度以前的约115年之间,谁接受了这个新的讲法,谁又持另外的讲法?这是一项数字人文的研究,但这和我自己想问的问题有关。如果我对这样的问题没有兴趣,就没必要进行这样的研究。所以说,不是资料在限制我,而是我提出的问题最重要。刚才魏希德教授也提到,我们要先看到自己的兴趣、想法和问题,然后选择最适用的方法去研究。有时候可能是详细地阅读一篇文章,有时候则可能采用挖掘文本的方法。所以说,我觉得自己不是专门要做数字人文的研究,而是要研究中国历史的一些关于思想史、思想价值变迁的问题,这需要利用最合适的方法,而不是必须用数字人文的方法。或者说,如果我是要研究社会史的一些问题,研究社会史是和社会科学非常相关的,可能要用群体传记学的方法。通过群体传记学的方法,我们可以找到非常多关于人的生活资料,如从墓志铭、《宋书》、诗等等,都可以搜集资料。比如说CBDB就是一个关系型的数据库,我们对非常多的各类的资料进行标记,从标记得到数据,把数据放在一个关系型数据库中,才可以用社会科学的方法进行研究。可是我们研究中国文学,并不一定要用这样的方法,而要根据兴趣。所以说,我认为回答这个提问不应该从资料来讲,而应该从问题意识来讲。

在线提问环节

Q2:想问薛凤教授,现在这些新的方法和工具,为学者的研究开辟了新的天地,使得学者能够提出新的问题。但是这些研究因为具有很大的开放性,甚至很多个人自我的材料也能够成为一种新的研究材料,这是否能使得普通人也能够有机会从新的视角看待自己的历史,甚至自己去做一些分析?

A(薛凤):这是一个很大的问题,所以我也不知道能够怎样回答。我觉得有各种各样的方法,但正如刚才包弼德教授所说,应该从问题和兴趣开始,由兴趣决定要用什么方法。在中国历史的研究中,因为材料很多很丰富,有一个好处是可以试试很多的研究方向,但也有一个坏处,因为全部这些材料已经被从各种各样的方向和观点研究过,有时候我们可能过分固执,觉得“只能这样看”,不能用新的方法分析,因为我们已经特别了解所用的原始材料。不过,很多材料其实也是很大、很丰富的,所以还是应该从一个新的问题开始,从自己的兴趣开始,发挥想象力,一方面非常的了解材料,一方面拥有新的兴趣,将二者联合起来,肯定会有新的方法出现。

另外还有一个点可以补充,我们的研究所中,目前也有研究者和数学家一起合作,来研究欧洲方面的材料。我认为历史学家和数学家合作研究历史方面的问题,是一个有挑战性但很有希望的方向。我们需要研究这方面的算法(algorithms),但这是我们不愿意做的事情,需要他们逼着我们来做。为了发展历史学研究,和他们合作发展算法(algorithms),是一个新的领域。

Q3:想问魏希德教授,数字人文这样的研究方法需要人文学者和工程师的合作,像这样跨越领域的合作以前是很少的,请问有哪些经验可以借鉴?据我总结,在数字人文方面,应该说人文学者对于新的技术提出了最高的要求,但他们同时又是一批数量最少的用户,然而他们的研究内容又有最高的文化、文明价值。数字人文研究中数据的建设也非常难,建成的数据库和研究结果在学术界取得学术信任的过程也比较长。在这样一个非常复杂的状态下,人文学者应该如何寻求合作?合作中有哪些经验可以分享给大家?

A(魏希德):其实合作是一个挺复杂的问题,我先来谈谈自己在这方面的经验。我自己在读研究生和刚开始教书时,总是自己一个人做研究,自己一个人读书、写文章。开始开发Markus的时候,我开始和计算机科学家一起工作。后来,在机器学模型开发和文本对比系统开发的过程中,也分别和不同的计算机科学家合作过。研究方面,刚才演讲中提到的有关党争、社会网络比较分析这篇文章,也是和数学家、历史学家以及计算机学家一起合作的,可以说这真的是一个跨领域的合作。这种合作当然充满了挑战,有的时候开展起来很困难,特别是作为历史学家,和计算机科学家以及数学家一起工作,常常不太顺利,因为大家可能互相都不了解彼此要解释的问题。根据我个人的经验以及对其它一些项目的观察,我觉得一件非常重要的事是大家要非常频繁地相处,学者之间的合作应该是非常深入的。一般来讲,项目都是几年的工作,在这段时间里大家应该频繁相处,一起讨论问题。作为历史学家,不仅要讲到自己比较感兴趣的问题,也要讲到自己在所用资料的特征在哪里。因为和你一起做研究的计算机科学家可能也对这个问题感兴趣,甚至不仅仅是感兴趣,还可能会提出一些新问题、新批评或新建议。我认为这一点非常重要。我看到一些学者开始做数字人文的研究时,是自己做自己的,然后雇用一个技术员来工作,这种做法有时候也是成功的,但通常不是最成功的。因为在合作中大家会互相学习,这种互相学习非常重要。当然这存在挑战,正如提问中提到的那样,这意味着历史学家要自己培养自己,或是自己学习一些新的技术、理论。这需要时间,但我认为这样做非常值得。这样的做法可能有一个现实的原因,就是如果自己不了解的话,计算机学家可能会认为某些问题提供模版化的解决方式,但这常常不适合我们想做的研究。计算机学家常常会用到其他人已经做出来的案例和程序,这本身不算是问题,但我们自己在做研究的时候,需要注意到这种“数字人文”是不是真的反映了自己的研究和自己想要解释的问题?另外一点也非常重要,我们在写文章的时候,也是一起写作,主要还是我来写,但是例如说做社会网络分析的研究时,需要请到数学家来为历史学家解释为什么会用到这样的概率统计方法(probabilistic method)。这样,历史学家也可以学到一些新的知识,并且对计算机科学家来说,这可能也非常有趣。很重要的一点是,我们常常会觉得数学家可能会有比较特定的看法,觉得他们比较相信客观的事实,但是事实上并不一定是这样,他们对“未尽性”(uncertainty)也有非常深的了解。我觉得和他们合作可能会让我们发现,我们这个学术界可能并不一定那么割裂,他们的兴趣也可能和我们非常相似。最后一点是,合作时一定要找到合适的人,找到愿意和你长期合作的人。对人文科学感兴趣的计算机科学家和数学家不容易找到,但还是要努力寻找。除此之外再补充一点,我觉得看我自己或者其他人已经做过的研究,其实总觉得不满意,还有进步的余地。做这样的工作确实很不容易,需要我们慢慢来做,慢慢来进步,这样才会慢慢做出我们将来可能见到的那些数字历史研究项目。

Q4:刚刚陈熙远教授在介绍台湾“中研院”的资料时,网上有非常多的听众在问一个同样的问题,希望能请陈先生解答一下。目前,史语所的典藏数据库,对于中国史研究而言,在材料和内容上有什么样的特点?目前的开发情况是什么?

A(陈熙远):其实我也刚好可以借这个机会向大家报告。其实最近由于COVID-19的关系,很多全国、全世界各地的高校都暂时在授课和研究方面受到较大冲击。所以史语所在上个月其实已经正式向全世界开放关于“汉籍资料库”以及“内阁大库”资料库的使用,预计开放到九月底。非常欢迎在线上的朋友们试试看我们的资料库,也希望能获得大家的一些反馈。刚才我们也谈到了关于资料库的建置,从研究者的立场补充我们过去“上穷碧落下黄泉”所收集的各种材料,也包括我们图书馆的典藏。很多很重要的东西事实上的确需要人文学者和专业的科技人员通过算法、通过电脑程序等提供更好的字形解决、错别字辨正、字体标注等功能。现在大家如果使用史语所的汉籍资料库,可以看到在某种程度之下,我们也希望能够实现由大数据到智慧数据的建置。我们重要的标识——人名、地名,甚至可以和“人名权威档”、GIS联系起来,还可以从其中的关联字进行搜寻。我们每年都希望能够开放数据库,并获得使用学者的回馈,这种回馈机制是非常重要的。刚才几位前辈都谈到一个很有趣的问题,即一个资料库如何能够真正为人所用,研究者和技术开发人员能够怎样搭配起来?这就像过去所讲“体用”还有“道器”的问题。有一些比较单纯的资料库,像我所负责的“内阁大库”,现在还没有到达全文辨识的阶段,但我们基本上会做一个透视资料库,通过做元数据的建置,让大家能够进一步检索,做图像的阅读、浏览,这将来还有很多不同的开发可能。在这个过程中,技术人员能否了解使用研究者的需求,或者反过来讲研究者的需求是不是能够很精准地把想象中的需求纳入到程序开发者考虑的项目中来,是非常重要的。每年我们都会组织一些开发厂商和研究人员的商讨,以求进一步优化数据库。这是一个漫长的道路,需要前仆后继的努力。

Q5(北京大学信息管理学院王军教授):刚才陈老师介绍的台湾“中研院”数位化的项目非常多,而且涉及了“中研院”下属的多个机构,包括史语所、近史所等等,而且在新技术的应用方面,也非常前沿。陈先生展示的内容,包括通过关联数据将“中研院“各方面的数据、哈佛的数据和艺术图库方面的数据都关联在一起。因为我自己是资讯科学的背景,所以我特别感兴趣这些技术、项目开发、工程建设的问题是如何解决的?是否每一个所内都有资讯科学家和历史学家合作?还是有一些商业的同辈和“中研院”方方面面的研究人员在一起工作?

A(陈熙远):王军教授的这个问题非常重要。其实严格来讲,虽然我们由中心通过审核制度资助各个人文单位来进行相关成品、典藏、档案或文献的数位化工作,希望能够建立最基本的资料库,但我们也希望它们能够开放关联,因为这对研究者来讲是很方便的。这牵扯到一个很重要的问题,虽然我们中心的团队也有专业的图书资讯人才和相关科技工程师,但个中也包括了和相关的信息专业的教授合作。其实在早期推动数位典藏的计划时,就有很多重要的资讯方面的学者参与这个计划,从图像、文字、到影音,这三方面都有相关学者能够予以投入。因为很显然,这并不是一个简单的“数位”加“人文”的架构问题,而事实上有很多内在的、嵌合的考量。现在,当然不可能资助的所有人文社会科学项目在建资料库时都能有相关技术资源支持,但我们希望通过每年的成果展示以及相关的课题研讨,包括数字人文会议等媒介,和中心更密切地合作,这其实也还在摸索当中。王军教授刚才讲得没有错,我们想要以此产生学术的成果和成绩,不只是人文学者,包括参与项目的科技人才,这个问题严格来讲在“中研院”还没有完全解决。但至少很重要的一点是,“中研院”对这个问题是相当重视的,也希望能够通过数位中心这样一个平台,使这些人文研究获得更好的发展。各所面临的问题,接下来可能会想办法在经费上来处理。我们所知的大部分资料库,其实是商业的,但“中研院”的这些资料库,原则上实际上是由“中研院”来进一步维建、管理、甚至可以说经营的,每一年可能从海外和国内申请经费,但并没有一个真正的商业公司来做统筹工作。这和其他数据库,像我们熟悉的方志库、古籍库相比有很大不同。这个问题要如何解决,如何用一个更好的方式来进行数据库开放,在本次数据库开放的过程中,也是纳入到我们的议程来探讨的。

Q6:很多听众有这样一个问题:在今天的技术环境之下,诸位专家都是做中国历史,特别是中国古代史研究的。大家觉得现在中国历史研究在数字人文的帮扶之下会对我们的全球文明产生什么的价值和贡献?怎么样看待中国历史研究对全球文明建设的推进?

A(包弼德):这个问题确实非常大。我们总是在给不是专门学中国历史的人讲,中国历史的文献,是两千五百年以来一直有继承性的,是很广大、很详细的。中国历史一定是世界史中非常重要的一部分,未来也是我们学界一个全世界共同的资源。我们可以的确这样讲,但我们应该怎样证明?我们在做一些数据库,比如CBDB的时候,也有一个目的,就是让中国史学领域以外的人,能够看到中国史料和数据的丰富。欧洲史和中国史有一点很有趣的不同,如果我们看欧洲中叶的历史,他们地方的资料非常丰富,比中国丰富得多。例如意大利的佛罗伦萨,他们关于书信的档案,比全中国中古史的地方书信档案还要多。中国的文献,有很多是全国性的,可是到了宋朝、特别是南宋以来,地方志的资料也是很重要的。到17、18世纪,中国的地方史的材料,还是比欧洲更丰富。所以从资料来看,中国史和其他世界史分支有一些非常重要的不同,可是从问题意识来讲,又有许多问题可以做比较性的研究。这个问题的确不太好回答,我想说的就是这些。

A(魏希德):这个问题其实讨论到中国史如何为全球史作出贡献。我觉得这个问题有几个方面可以探讨。中国历史有很多数据,这是一方面的贡献。20世纪,中国人文科学家也出了很多参考书,这些参考书其实很值得我们注意,我们可以利用这些材料来做一些先进的平台,这方面其实CBDB只是其中一个例子。讲到历史经验的话,我自己的看法是其实我们应该把中国历史的经验连接到其他全球史。这是件很困难的事情,但我觉得我们现在应该开始做这件事情。数字人文刚开始成为研究热点的时候,每个国家都单独地做每个国家的项目,东亚、欧洲、美国都是这样。这当然有好处,就是我们现在已经有很多数据库;但也有一个缺点,就是这些数据库常常没办法互用。将来,希望我们可以进一步把中国和整个东亚的历史经验、数据、平台连接到其他文明的材料中,这可以让我们做新的历史研究。从19世纪开始,我们所写的历史都是一些国家性的历史,当我们把全时间、全人类的历史放在一起,可能会发现,通常这些去国家性的历史可能产生一些比较大的误会,所以我希望我们能弥补不足,做这项工作。

A(薛凤):我稍微补充两点。我认为包教授和魏教授已经说了最重要的事情,他们的视野也是国际化的。我还是要强调自己是一个科学历史家,我觉得如果应用中国历史的长期的材料,最大的好处是可以看到长期的认识和发展。这方面我认为中国的材料还是有特点的。这和多样性有关,因为各种各样的地方都有不同的材料,对数字人文的应用方式也不同。中国有这么多的文献材料,同又有很多文物方面的材料,对此开展数字人文研究,既存在挑战,也存在机遇。我希望中国在这个方向也能继续发展起来,据我估计,中国史学界在数字人文研究方面的能力还是很强的。

最后,何晋教授对本次研讨会进行了总结。何晋教授指出,数字人文未来可能会对史学研究产生非常大的影响,也对历史学家的工作方式产生了影响。希望这次的研讨会能够对未来的历史学研究者带来启发,也希望未来史学界也能够有科班出身的数字人文研究人才。同时,也希望未来能够有一个更好的、便于使用的数字人文研究资源整合平台出现。

借此机会,王军教授向大家公布了北京大学数字人文中心“‘数字人文创新作品展’暨数字人文国际论坛2020”即将举办的消息,并发布了展会征稿启事。此次论坛预计于2020年11月召开,于9月底截止征稿,征稿内容内容包括学术论文、设计作品、系统研发等,通过初审的前二百份作品的作者,届时将受邀参加此次数字人文论坛。

读书推荐

读书导航