破壁与赋能:多学科驱动下的数字人文

2021年5月22日,由南京农业大学数字人文中心主办的“破壁与赋能:多学科驱动下的数字人文国际学术研讨会”在南京农业大学召开。多位海内外重量级学者受邀参加了会议,包括哈佛大学包弼徳(Peter K. Bol)教授、上海图书馆刘炜副馆长、北京科技大学潜伟教授、武汉大学王晓光教授、南开大学王利华教授、北京大学王军教授、上海图书馆陈涛工程师、西北大学曲安京教授、复旦大学路伟东教授、南京大学陈静副教授、莱顿大学魏希徳(Hilde De Weerdt)教授、杜伦大学德龙(Donald Sturgeon)助理教授以及南京农业大学包平教授等。南京农业大学党委常委、副校长胡锋教授和江苏省哲学社会科学规划办公室主任许益军致开幕辞。此次会议采用线上线下相结合的方式,共开展十三场专题报告及一场圆桌讨论,并在腾讯会议和哔哩哔哩弹幕视频网进行同步直播。

与会学者合影

与会学者合影

刘炜:“数字人文平台架构及语义互操作设计”

上海图书馆副馆长、中国科技情报协会副理事长刘炜教授率先以“数字人文平台架构及语义互操作设计”为题进行了报告。

刘炜教授从数字人文发展的态势、技术发展的形势、上海图书馆的数字人文建设、数字人文平台的互联及互操作等方分别进行了汇报。他认为当前处在发展初期的数字人文研究被“图博档”,即图书馆、档案馆、博物馆所占领,基础设施建设者占据了研究中的主导地位。然而同时,当下基础设施建设仍然不够到位。他指出,在当前的数字人文研究中,图情领域研究者的核心竞争力在于解决“如何组织知识”这一问题。近二十年来,技术发展极其迅速,一批数字人文项目、工具和平台被建设起来,但目前使用的技术基本集中于网络互联(Internet-connected)阶段,纵然互联网已经将所有的研究者们串联在一起,每个研究者所使用的系统仍然是相互独立的。

刘炜认为,数字人文的应用系统发展存在数字化、文本化和数据化几个阶段。他还特别强调,汉学材料在数字化阶段需要保存原始图像,这是中国数字人文发展中所面对的特殊问题之一。他通过一个“堆栈”图向大家介绍了他心目中的数字人文的全景。理想中的数字人文的“堆栈”包括物质和精神两大板块以及制度、构成、方法、系统、界面五个层面,它们共同构成了数字人文的发展全景。他认为,未来云原生时代的数字人文平台系统,也应包括系统和内容两个方面的架构,同时,互联网上的各个数字人文系统应该通过应用程序接口(Application Programming Interface, API)来进行互操作,例如工具书,应当通过建立接口的方式服务于任何数字人文平台和系统。

同时,刘炜也提出,目前数字人文提出的技术、框架和设想一定要和商务模式结合起来。他认为,目前的数字人文平台建设应该凸显“内容架构”,从平台建设之初,就应该在知识关联的层面上打造宏观架构,实现真正的知识管理。建立数字人文平台,不外乎数据和方法两个层面,其中,在数据层面应当实现“数据占有”和“书目控制”,在方法层面则应强调“获得事实”和“循证研究”。此外,刘炜还指出数据服务应遵守FAIR(Findable, Accessible, Interoperable, Resuable)原则,并实现语义互操作,在系统底层解决信息的关联问题。目前,上海图书馆正在建设“历史人文大数据平台”,以期实现“让查全不是梦想,让资料唾手可得,让模型随心所欲,让计算随遇而安,让结果美轮美奂,让人文研究不再困难”的愿景。

包弼徳(Peter K. Bol):“数字环境下的研究周期:面临何种挑战”

接下来,哈佛大学东亚语言与文明系包弼徳(Peter K. Bol)教授以“数字环境下的研究周期:面临何种挑战”为题进行演讲,从研究周期问题出发,阐述了数字人文发展过程中的问题。包弼徳教授认为,一个完整的研究周期分为提出研究问题、查找资料、整理、分析、出版五个环节。其中,提出研究问题环节是所有研究者共同面对的,而数字人文则能够在查找资料、整理、分析、出版这几个环节提供重要帮助。

从查找资料、数据、信息的环节上看,在2015年,世界上的数字资料总量为2泽字节(zettabytes),到2020年,这一数据则已经达到了40泽字节,这个数据量,相当于美国所有高校图书馆资料综合的50万倍。这些数据形式多种多样,并不全都与学术直接相关,如视频、音乐、通俗文学、漫画、游戏、照片等。对于学者来说,则可以在网上找到各类资源,如书籍、地理空间信息、数字化字画资源、古籍原文等。包弼德教授认为,在资源的获取上,有两个重要问题,其一是跨资源平台搜索,其二是大小机构间资源获取能力不平等。

从数据整理环节来看,过去我们将信息记录在纸上并保存在文件柜中,但今天我们将许多数据保存为电子文档和图片,并将其存储于文件系统中。研究者使用不同的数据存储形式,如电子表格、关系型数据库、图数据库中,同时,也有人将资料存储在“云端”,以便从不同设备进行访问,这一切都使得当今分享数据与合作变得容易。然而,共享数据与合作也面临挑战。首先是数据存储的空间问题,这涉及将数据存储在何处以供分享。其次是许多学者害怕分享数据,不希望数据被自己项目以外的人使用,针对这个问题,包弼徳提出,数据只是数据,数据本身无价值,被广泛的分析和使用才能让数据真正具有价值。最后则是一些与学术无关的原因,如校园网内服务器的“断网”等,这类问题在中国比较严重。在数据整理工作中,包弼德教授所在的CBDB开发团队还在数据组织和分享中尝试使用众包模式,目前已经通过众包平台开展了对25,000余封明代书信的人工地址识别。

在数据分析的环节,数字人文方法及计算机科学技术,为人文科学的发展做出了极大贡献。包弼徳认为,知识推进包括三个部分,分别是知识的专门化,理论和典范的转移,以及工具的变迁。正如同显微镜和望远镜的发明使得自然科学家得以观察到从前无法观察的事物那样,数字人文发展中引入的新工具也使得人文科学家能够观察到从前无法观察之物。针对这个观点,包弼徳进一步讨论了数字人文带来的“概念飞跃”——文本挖掘和文本挖掘改变了阅读方式,基于关系型资料的建模推动了人物传记资料构建,群体传记学的发展解决了更多研究问题,空间分析使得数字化方志得以转化成为空间对象,社会网络分析促进了对人物关系的深入研究。

如何维持可以继续进行的数据库项目,工具和平台?在这个问题上,包弼徳教授认为“商业化就是大众化”。目前CBDB也在进行一些商业化工作,例如目前国内的高校可以从中文在线“引得”数字人文资源平台购买CBDB数据库使用许可,以使用完整版本的CBDB数据。

潜伟:“科学史研究的数字化问题”

随后,北京科技大学科技史与文化研究院院长潜伟教授以“科学史研究的数字化问题”为题进行了发言。潜伟教授指出,在“大数据”时代下,需要积极利用信息技术开展“新文科”建设。在科技史这个相对小众的学科中,数字化的发展存在严重缺位。近年来,无论是“数字人文”还是“数字史学”的研究都呈现上升趋势,虽然目前科学史领域的相关研究较少,但计量史学、数字人文、数字史学、e考据等趋势,都对科技史研究产生了一定影响。

定量研究的方法,在科学史研究中由来已久。自十九世纪下半叶以来,德堪多、高尔顿、雷诺夫、洛特卡、默顿、贝尔纳、普莱斯、竺可桢、赵红州等学者都曾使用量化方法研究科技史中的问题。潜伟教授自己及其研究团队,也曾就“科学图形面积比例与学科硬度测量”、“《宋史》记载的高频次学科”、“宋代科技成果曲线与科技政策曲线”等问题开展过科技史方面的定量分析。

潜伟认为,数字史学的发展有两种模式。一种是问题导向,这是传统史学擅长的方法,致力于学术问题的分析与解决,更关注思想;另一种则是数据导向,注重数据驱动,数据转换、提取、清洗和漂亮的可视化呈现。科技史的数字化分为三个阶段,首先是史料的数字化存储和检索管理,其次是可视化展示,最后是基于大规模历史数据挖掘的量化分析研究。近年来,科技史领域对古籍的数字化亦发生兴趣,产生了一批相关研究成果。目前,潜伟及其所在的团队正致力于中国古代金属技术相关研究。最近,他的研究团队从图情领域借鉴了新方法来建设中国古代金属技术词表,以构建知识之间的关联。 自去年起,团队着手建设了“文物科技标本库和数据库”,使用三维扫描、计算机辅助计算等新技术对文物进行信息采集和技术复原,并通过文物数据与地理信息系统的结合进行遗址选址的预测。

潜伟强调,数字化不等于数据化。建设具有逻辑关系的结构化量化数据库,才是实现数字史学的关键。科技史的数字化既有文献数据库,也有文物遗址的数字化应用;既有古代文献挖掘整理,也有近现代文献的科学计量研究。当前,知识管理、数据挖掘、三维扫描、数值模拟、地理信息系统、聚类分析、社会网络分析,已成为科技史数字化的主要方法。他乐观地指出,科技史工作者先天具有技术向,科技史研究数字化未来可期。

王晓光:“文化遗产智能计算:方向与路径”

武汉大学信息管理学院副院长、数字人文研究中心主任王晓光教授以“文化遗产智能计算:方向与路径”为题进行了报告。文化遗产作为记录人类文明的重要载体和媒介,拥有着丰富的历史文化和知识内涵。尽管数据资源在人文社会科学研究中日益重要,但当前的数字化建设还处于“摇篮本”时代,大量数字资源尚未成为可计算、可深度加工的数据生产要素。

对此,王晓光教授提出“文化遗产智能计算”,指出借助大数据、人工智能、云计算、5G等前沿技术对文化遗产蕴含的信息与知识进行采集、分析、组织、挖掘、表达、传播和展示。通过从传统文献资源到智慧数据的转换升级,真正支撑人文研究,实现文化遗产“活起来”的目标和愿景。目前,以欧洲“历史时光机”项目、芬兰Sampo系列项目以及“数字敦煌”项目为代表的一批文化遗产智能计算的典型案例正在进行中。

王晓光介绍到,文化遗产智能计算任务包括文本、视觉、时空和历史虚拟再现四个维度,其实现路径包括了数字化、智能计算和大规模富语义智慧数据三个过程,这也是从实物到数据、再到知识、最终到智慧的过程。目前,武汉大学正在全力建设文化遗产智能计算实验室,从数据基础设施建设、古籍深度挖掘与再造、图像语义理解与计算、文化遗产地理系统、遗产3D建模与虚拟呈现五大方面探索文化遗产资源的创造性转化和创新性发展。王晓光教授表示,挖掘文化遗产中更深层次的历史文化知识是数字人文研究的重要内容,文化遗产智能计算需要多学科共同参与,利用先进的数字技术对文化遗产进行数字化再造与活化。文化遗产智能计算将构建新型数字基础设施,成为繁荣数字文化产业,开启数字文明的关键。

王利华:“数字资源与数字陷阱:一名普通学者的‘数字史学’实践”

下半场第一场,由南开大学历史学院暨生态文明研究院王利华教授率先以“数字资源与数字陷阱:一名普通学者的数字史学实践”为题进行报告。

王利华教授认为,从地球生成到今天,人类已经历了物理世界、化学世界、生物世界、人类世界、文明世界到虚拟世界的迭深和嵌入。人类的生存状态在发生颠覆性的变化,这种变化也带来史学的颠覆。 数字技术给历史学带来诸多变化,改变了资源获取方式,带来新的工具,推动学科联系,并描绘了新的历史镜像。

王利华教授介绍了自己早起建立历史资料数据库并从事研究的经历。他通过对唐以前大量文献的数字化和分析,提出在中古时代中国北方地区以食羊肉而非猪肉为主的结论。在教学工作中,王利华也曾在多种情境下感受数字化带来的便利。与此同时,在史料数字化过程中,王利华也曾面对许多问题,如同名异物问题、资料信度问题、资料转化造成错误的问题等。

此外,王利华结合自己从事“中国当代环境保护史数字资源数据库”建设的经验,指出了一些数字史学发展过程中可能存在的问题。其中,最大的问题是“谁来作苦力”——在史学数据库的建设中,有一些优秀的学者成为了“数字史学的牺牲者”,未能产出理想的研究成果。另外,他还提出“由数字平台操控学术评价”的危害。他认为,目前各大数字平台的学术评价体系存在弱点,在论文查重方面也存在如公共知识被判定为抄袭等诸多问题,这可能造成对学术的戕害。

王军:“数字人文能为历史做什么——人工智能技术在史料处理中的应用”

北京大学信息管理学院王军教授以“数字人文能为历史做什么——人工智能技术在史料处理中的应用”为题,展示馆了北京大学数字人文研究中心的最新研究成果。

北京大学数字人文发展的一个重要方向,是帮助历史学家从事研究工作。王军教授表示,数字人文并不期待能够在研究环节代替人文学者,而旨在为历史研究提供辅助工具。历史学家邓广铭先生有言,历史研究有四把钥匙,即目录、年代、地理和职官。历史学所做的工作,即在古典文献的基础上,在时空和政治制度的多维空间下,思考历史上的人与事。在这个框架之下,数字人文应当为历史学家提供一些工具。文献载体对历史研究方法有决定性影响,传统印本时代的年表、舆图、职官志、图书目录、人名辞典等资料和工具书,在数据库时代已被转换成为各种数据库。但目前数据库能为学者提供的辅助,无非是快速数据查找和大规模资料存储,如何从大规模的资料中,还原地理时空以及职官制度的多维思考空间,实现如谭其骧先生从文献文本构建历史地图籍那样的工作,仍旧有待思考。 

王军教授认为,在智能时代,大数据环境和人工智能应用是两大特征。一方面,数字技术的普及和开放共享风气的形成使得学者面临历史资料的再发现,产生了“读不完的材料”,也带来网络时代“数字文献学”要解决的一系列问题。王军认为,解决这些问题的方法是实现文本材料的数据化、结构化和语义化。另一方面,人工智能代表着计算机处理技术的极大提升,计算机已经具备较强的搜索能力甚至理解能力,从基于规则的专家系统发展到基于学习的人工智能。

目前,王军教授及其团队正致力于在两三年之内为学术界提供一个“汉语古籍大数据分析平台”。该平台的核心部分在于自动句读和命名实体自动识别,王军在现场向大家展示了这套系统的自动句读及命名实体识别过程。此系统目前从先秦上古文本到明清及近现代文本的平均自动句读准确率已达94%左右,在诗词韵文上的准确率甚至达到99%。在命名实体自动识别方面,系统已经能识别人名、地名、时代名和职官名,其中,该在标注语料上的识别准确率达到99%,在泛化语料上的识别准确率接近88%。在识别速度上,系统将8000字文本进行句读需要约20秒时间,进行命名实体识别则需要约25秒。团队下一步的目标,是在此系统中实现关系提取。随后,王军还向大家展示了其团队开发的“宋元学案知识图谱”系统。这套系统在命名实体识别的基础上,将87个宋元学案进行可视化描绘,对学案中各学派学者人数变化、地理分布、著作信息、官职信息、人际关系网络、学术传承关系等各个层面的信息进行生动刻画。

王军表示他在数字人文研究中的终极目标,是实现系统的“自然语言问答”。他乐观地指出,如果能将二十四史的全部信息输入到这套系统中,并用自然语言问答来访问该系统,就能“复活”历史与文化,实现人与历史的直接对话。

陈涛:“史料资源图像知识框架构建与应用”

接下来,上海图书馆及上海科学技术情报研究所高级工程师陈涛博士以“史料资源图像知识框架构建与应用”为题进行了报告。

陈涛博士指出,图像是一种重要的史料。当前的资料平台中,图像更多的是作为附件而非“资源”存在,且各平台间的图像独立存储在各自的服务器上,不能进行交互,造成了“图像孤岛”现象。上海图书馆的想法,则正是希望能够让这些图像“活”起来,通过使用 “国际图像互操作框架(International Image Interoperability Framework, IIIF)”,实现图像之间的“互操作、可获取、可展示、可关联、可比较、可分析”,使图像成为可以流通、共享、交互的数据节点。IIIF已经在全球掀起热潮,国内方面,除了上海图书馆的“历史人文大数据平台”项目之外,各大高校、博物馆中也有多项数字人文项目使用了该框架。IIIF并非一个平台或系统,而是定义了一套交互的“标准”,目前包含“图像、呈现、搜索、验证”四个API,其中“呈现API(Presentation API)”是核心。基于IIIF,陈涛所在的团队提出了“史料资源图像知识框架”,该框架包含“图像资源IIIF重组”、“图像资源数据化提取”、“图像资源语义化关联”以及“图像资源智慧化应用”四个部分。

以IIIF为基础,结合关联数据、知识图谱、图数据库等技术,陈涛团队开展了“多维图像智慧系统(简称MISS平台)”建设。该平台支持多种格式的图像资源一站式在线组织、发布、复用、语义标注、分享等,目前可支持亿级像素的超清、超大图像资源的在线交互,为史料资源再利用提供了坚实的技术堡垒。目前,平台由上海市高等院校海外交流联谊会及上海市海峡两岸教育交流促进会新文科专业委员会发布与运营。MISS平台具备资源层、功能层、研究探索层三层架构。在资源层,平台可以将海内外的资源进行导入;在功能层,平台将资源按照图数据库结构进行存储,并能实现资源内容重组、OCR、多层标注、协同研究、对象识别及关联等操作;在研究探索层,则可开展语义链接、图像内容检索、史料图像复用、知识图谱分析等。目前,MISS平台已经能导入海内外超过20所高校、图书馆、博物馆的资源,这为研究者整合研究资源提供了便利。此外,陈涛还着重介绍了平台建设中正在实现的新设想,如通过图像复用及重组保持图像版本的唯一性、建设图像多模态注释体系、设计图像内容注释模型和图像语义标注流程等。

陈涛认为,可以将“数字人文”理解成一棵大树。人文数据是这棵树的树根,研究数据是树叶,数字人文的成果是树果,资源描述框架则是树干。想要将不同的树叶连起来,则需要关联数据(Linked Data)和IIIF两个树枝。同时,从人文数据到研究数据的提取,又需要大数据(Big Data)和人工智能(Artificial Intellegence, AI)两项技术。他将这五项技术,合称为数字人文研究中的LIBRA技术理论。

曲安京:“中国出土文献的数字人文研究”

下午的会议中,第一场报告人是西北大学科学史高等研究院曲安京教授,他的演讲题目为“中国出土文献的数字人文研究”。

目前,曲安京教授所在的西北大学科学史高等研究生院,正在进行出土文献与数字人文方面的研究,他们的目标是实现“中国出土文献语料库”之构建与应用。出土文献的目标范围,包括简牍、金文 、甲骨文等,西北大学团队期望在“中国出土文献语料库”的基础上,开展诸如简牍的复原和缀连等历史问题的数字人文研究,并为中文信息处理领域提出一些新鲜的问题,如短文本处理等。曲安京教授向听众们阐述了团队选择出土文献进行研究的理由。他认为,中国出土文献文本规模适中,同时又与传世文献存在结构上的显著差异,值得单独进行研究。构建“中国出土文献语料库”的意义在于,将数字人文的研究方法应用到出土文献的研究领域,为传统出土文献的研究提供新方法。在语料库构建完成后,团队亦期望能够在此基础上进一步提出历史问题和中文信息处理问题并进行解决。

曲安京指出,数字人文研究中,语料库的构建是一项沉没成本极高的工作。因此,他的团队在选择出土文献作为研究对象时,立足点并不仅仅是基础设施建设,而更多放在数字人文研究和语料库应用之上。在未来,团队还希望进一步推动数字人文基础设施建设和数字人文方法的创新与应用,形成以科学史为交叉点的全国高校“数字人文”多学科融合交流平台,为历史、考古、情报、信息等多学科在数字信息环境下的发展,构建基础设施、提供实验场所、创新研究方法。

路伟东:“数字人文背景下长时段中国历史人口研究”

来自复旦大学中国历史地理研究所(以下简称复旦史地所)的路伟东教授以“数字人文背景下长时段中国历史人口研究”为题进行了报告。他指出,历史地理研究的对象是典型的具有时间属性的空间数据,历史地理学者关注数字人文是从GIS(地理信息系统)开始的。早在二十年前,在葛剑雄教授和包弼德教授(Peter K. Bol)的带领下,复旦史地所和哈佛大学就曾一起推动了CHGIS项目的建设。这一项目的本质是基于史学考据的科学数据生产。该项目已经公布一批免费使用的标准历史基础数据,在海内外广受关注。但路伟东教授认为,对于个体研究者来说,如何将这些数据、技术、理论与方法运用在自己的研究实践中,进行真正面向学术问题关切的个案研究,可能是一个更值得思考的问题。在过去的十几年间,路伟东教授持续关注清代历史人口相关问题,他认为自己在研究中“有一点点工作勉勉强强可以归入数字人文的范畴”,他的演讲就主要围绕这些工作展开。

路伟东教授表示,两千年的中国历史人口发展中,有一个重要的转折点就是清末民初人口增长模式发生了结构性变化,在这个转折点上发生了一次全国性的人口调查,即宣统人口调查。研究宣统人口调查对于观察中国人口和社会由传统向现代转型,具有重要学术意义和现实价值。但是对于这次调查数据质量,学界存在较大争议,认可这次调查结果的学者将其称为“中国历史上第一次真正具有现代人口普查意义的人口调查”,反对者则认为这次调查的数据非常糟糕,与其说是调查不如说是编造。无论是支持者还是反对者,能够看到的数据都非常有限,主要是出自民国学者分省统计表,基本上只有“户、男口、女口、性别比” 等少量字段。实际上,就这份简单的统计表还不是原始数据,而是王士达、陈长蘅等人从清朝民政部宣统人口调查汇总表中抄录并修订而来,被抄录的原始数据则收藏在台北“国史馆”中,为分县统计数据。大约十年前,路伟东教授在甘肃省图书馆偶然发现了宣统年间人口调查的基层原始文献,即“地理调查表”,该文献以自然聚落为单位,大约记录了7000个聚落的户口等数据。这些原始的文献引发了路伟东教授的思考。

第一个问题是城市人口等级模式。传统时代后期中国究竟有多少城市人口?这个问题很有趣,但是很难回答。主要原因是缺少数据,一方面中国传统文献中的历史人口是以保甲体系为单位的纳税户口,而非以城乡为单元的全部人口;另一方面,文献中有限的城市历史人口又大多是行政治所类城市。在这种情况下,研究的问题似乎可以转化成为——假如可以在一个特定的区域内根据有限的行政治所城市人口,构建一个不同行政等级的城市人口非等差比例模型,就可以差补全部城市人口。这一做法,在逻辑上看似符合普遍认知,即省城人口多于府城人口,府城人口多于县城人口。但实际上却存在严重错误,因为传统时代决定城市行政等级的核心要素不是,或者至少不只是城市人口,反过来也无法推断一个与城市行政等级相吻合的城市人口等级模式。用地理调查表的数据可以用来检验这样的结论,其实,这一问题更深层的社会背景是传统时代行政城市的首位度很低,对于人口和资源的虹吸效应很弱;人口与水源和交通等地理要素的相关性也较低;相较之下,人口是趋于离散的,人口的空间分布相当平滑,这与当代人口空间分布存在显著差异。许多现在看起来远离交通线和水源的“穷乡僻壤”,在改革开放前都曾存在大量人口,这些人口实际上大部分都是传统时代中后期逐渐迁入的。路伟东教授强调,如果我们偏离这样的基本历史认识,用不同的地理因子匹配历史人口,通过复杂的计算可能就会得出错误结论 。

第二个问题是中国传统社会的城市化水平。这个问题一方面呼应了对传统中国社会结构稳定性的讨论,另一方面在某种程度上也迎合了对于历史中国辉煌过往的想象,学界讨论比较热烈。许多知名学者,如珀金斯(D. H. Perkins)、诺斯坦(Frank Notestein)、乔启明、施坚雅(G. W. Skinne)、赵冈、饶济凡(Gilbert Rozman)等,都曾根据自己定义的“城市”,即人口大于某一个阈值为城市,估算中国传统社会晚期的城市化水平。路伟东通过对这些研究者的估计数据与“地理调查表”数据的对比,发现他们的结论均存在错误。路伟东认为,探讨现代话语的城市化水平有两个基本前提,其一是严格人为界定的城市和城市空间边界,其二是基于空间边界的科学人口普查数据。但是历史中国这两个条件均不具备,所以实际上讨论历史时期的城市化水平是一个伪命题。现实工作中,还有很多工作和研究历史时期的城市化水平一样,就是把历史问题强行纳入到现实的框架中进行讨论,“新瓶装旧酒”,最终,通过复杂的数据计算和眼花缭乱的数学公式堆砌,得出漏洞百出、似是而非的结论。

此外,路伟东还讲解了一个通过静态截面数据展示人口动态迁移过程的案例。战争与战争引发的饥馑瘟疫是中国历史人口短时间内剧烈波动的核心要素。同治西北的战争造成了约千万量级的人口损失,通过繁琐的文献梳理可以发现,这一时期的人口迁移模式不是横向的水平迁移,即从战争区域逃离到非战争区域;而是在战争区域内部的纵向垂直迁移,即从小的聚落逐层逐级迁往较大的核聚落,尤其是那些有城墙和守卫的行政治城。这一问题体现在数据上就是聚落的数量在减少,但聚落的规模在扩大。将“地理调查表”中千人以上聚落进行可视化展示,会发现这些聚落的分布是集聚而非离散的,并且数据分布在战时人口损失特别严重和特别不严重的两个极端区域,前者显然是由于战争期间人口收缩的结果,后者则是战争期间及战争后避难人口入迁导致的。

使用“地理调查表”中的户口数据,路伟东还对葛剑雄教授主编的六卷本《中国人口史》中的部分研究进行了验证。在《中国人口史》中,第五卷和第六卷作者对宣统人口调查数据的认识不同,数据前后无法衔接。通过使用人口重心模拟1776年至1953年西北人口变动,路伟东发现,使用《中国人口史》第五卷中关于宣统人口数的校正数据,和使用“地理调查表”人口数据计算出的人口与重心存在方向性的不同,在排除几种不可能的解释之后,他认为《中国人口史》第五卷中的人口校正数据是错误的。除此之外,基于“地理调查表”,路伟东及其团队还开展了一系列其它工作,比如开发聚落在线定位网站、基于随机森林回归模型重建西北地区历史人口空间分布、辅助建设《清朝历史地理信息系统》以及建设丝绸之路沿线历史人口数据库等。路伟东指出,在一套看似简单的数据上,传统人文研究者可以工作十年甚至更久,这是因为需要将看似简单枯燥的数据放在更宏大的时空背景中研究,才能透过数据观察复杂多面向的历史,不断地感知和走近历史现实。

最后,路伟东教授表达了他身为历史学者对数字人文研究的一些看法。数字人文引起学界的普遍关注不过最近十余年,但如果谈到人文计算或者人文计量,其实可以回溯得更久远一些。若干年前在史学界曾经兴起过计量史学的热潮,但近年来计量史学已渐渐淡出主流史学研究者们的视野,表面上看,其原因是计量史学那种过于追求技术、数据和计算的研究偏离了传统史学范式,同时,也不排除,有相当一部分计量史学工作者于有意或无意间流露出的技术炫耀和数据傲慢,引发了传统史学工作者的厌恶与嫌弃,近而形成了沟壑式的学科成见。但路伟东认为,这些只是问题的表象,其更本质的原因在于计量史学将复杂综合的历史现象和社会关系全部归结于简单的数学函数关系,用单一的“数据变量”取代了构成历史主体的人的主动历史实践,以及研究者本身对历史复杂性的个性化全面理解和整体认知,由此最终掩盖了人文和人文研究的光辉。但是,最近十几年“数字人文”的火热,和之前计量史学兴起的时代背景已有不同。路伟东认为现在的数字人文堪称“千万年未有之大变局”,最近十年信息技术的巨大进步不仅仅引发了全新的技术变革,也带来了社会结构质的飞跃,其背后更深层次的数据基础是,包括历史文本在内的几乎所有信息都开始逐渐脱离物理的载体,不断数字化。在这样的时代背景下,无论传统人文学者对数字人文存在怎样的质疑和批评,毫无疑问,当下扑面而来的数字人文浪潮已经给传统人文研究带来了强烈的冲击,实际上,比这种冲击更重要,也更严重的问题是,我们目前已经处于一个完全不可逆的数字化进程中,再也无法回头。数字人文的崛起是信息技术向传统人文研究渗透与介入的结果,但数字人文既不是传统人文研究的终结者,也不是传统人文研究的附属品,在不远的将来,数字人文发展的最终指向一定会有自己独特的研究理论、方法、范式,以及学术关切和知识体系。从这一视角看,当下蓬勃发展的数字人文浪潮,只不过是从刚刚开启的那扇数字人文大门的缝隙里透出的第一缕曙光。路伟东表示,未来的路还有很长,值得大家的共同努力。

陈静:“迭代更新还是打破重构?数字人文之于交叉学科的价值”

来自南京大学艺术学院的陈静副教授以“迭代更新还是打破重构?数字人文之于交叉学科的价值”为题进行了报告。她表示,目前理工科中交叉学科的开展情况较好,有生物医学、物理化学、天文物理以及各学科与统计学的交叉等。文科中,则有文化研究、性别研究、审美人类学、艺术社会学等。陈静教授提到,逐渐走向没落的“文化研究”领域曾面对与当下“数字人文”相似的困境,当时盛宁、周宪、张红兵、吕新雨等学者的研究中,曾就研究范式、学科化、本土资源和问题意识、既有框架下的发展意义等展开讨论,这些对文化研究的探讨会引发关于数字人文的思考。

陈静教授探讨的核心问题,在于基于中国语境的人文与实践问题的一系列理论与方法。她认为,数字人文的建设性意义在于直面新一轮技术变革带来的大挑战、响应国家主导的“新文科”策略、满足学科建设的内部匮乏与突破刚需、以及形成新的学术共同体与评价体系。在理论探讨之外,陈静也介绍了她的研究团队近两年正在开展的中国传统色彩知识研究。“色彩”作为一种跨领域的存在,分散于典籍、织绣、器物乃至口头知识中。陈静及其研究团队希望通过数字人文的手段从生产主体、生产方式、知识存在方式及知识特点四个层面体现数字时代的知识生产转型。项目期望做到传统手工艺的有籍可查、有物可考、有据可依、有人可问,实现方法论和应用层面的多个目标,并对接产业需求。

魏希徳(Hilde De Weerdt):“东亚数字人文的关键问题”

随后,Markus古籍半自动标记平台的主持开发者、来自荷兰莱顿大学的魏希徳(Hilde De Weerdt)教授以“东亚数字人文的关键问题”为题进行了演讲,从五个有关问题出发,探讨东亚数字人文的问题与挑战。

首先是近年来东亚数字人文研究主要成果的问题。其一是创建了全文人名地理信息资料库,且维护并扩大了这些资料库,如CBDB、CHGIS、C-Text等;其二是不同机构开发了促进数字人文研究的工具和平台,如魏希徳教授自己所在的研究团队开发的MARKUS文本标记平台、COMPARATIVUS文本对比平台和PARALLELS版本对比平台等;其三是不同研究机构的开发者开始一起设计交换信息、提供工具使用权的渠道,如马克斯-普朗克人类历史科学研究所开发的RISE平台等;其四是在各个方面上东亚数字人文的发展越来越快,国际数字人文期刊越来越欢迎东亚数字人文研究的相关文章;其五是东亚数字人文研究数量不断增加,并呈现出多样化的取向,多个领域的期刊上都推出了关于数字人文的特刊,且产生了新的电子书项目;其六是与中国的情况相似,海外的数字人文研究也出现了虚拟的学术共同体,学术共同体内部通过电子媒体互相交换经验和分享资源。

第二个问题则是东亚数字人文面对的关键挑战。魏希徳教授认为,目前东亚数字人文面对的挑战分别为学术界内的障碍、技术性的挑战、文物管制上的不同、以及数字人文认识论性的挑战。其中她特别强调,技术性的问题往往没有学者想象的那样严重,以机器学习技术为例,在MARKUS的开发过程中很早就设计了机器学习模组,并将其运用至资料的命名实体识别等过程。但她同时也指出,由于MARKUS开发时间较早,当时所采用的技术以现在来看已显落后。目前,莱顿大学已经拿到欧盟和荷兰国科会的两项大项目,两个项目的主要目标是描绘长时期的“物质基础建设的社会史(social history of material infrastructures)”,如通过对地方志、考古报告等文献的数字分析,探究中国各地的城墙、道路、桥梁等的建设、瓦解和重组;利用挖掘出的数据研究各地的区域发展或缩小等。给历史学家开发较好的机器学习服务,也是两个项目的核心目标。从今年九月开始,莱顿大学将开放9个博士及博士后职位,包括数字历史、数字考古、人工智能与软件开发等,她也欢迎对此感兴趣的听众申请。在认识论性的挑战方面,魏希徳认为数字人文有两条道路,一条是计算机学性的,利用各种计算机学的计量研究方法;另一条是理论性的,也常常是批判性的。可惜的是目前这两条道路往往是分开的,而她认为无论是研究方面还是教学方面,两种方法都缺一不可,应该将计算性的研究与批判性的理论联合在一起。计算机学的研究方法往往源自于自然科学与社会科学领域,必须把人文科学方面的关怀和研究流程与这些科学的模式结合在一起。

第三是对数字人文的不同理念与不同的制度嵌入对国际性合作的影响问题。在理念影响方面,仍然存在面向计算机学的数字人文与面向理论性、文化性的数字人文地位不平等的问题。在东亚数字人文研究中,后者比前者更少出现在数字人文的会议上。在国际合作的问题上,一般来讲数字人文的项目以一个国家的边界为限,以每个国家的官方语言为主,魏希徳认为数字人文需要更多多语言的研究、工具和平台。目前,中国的数字人文研究界大部分平台只支持汉语,事实上其它在中国历史上被利用的语言也需要被包含进来,魏希徳认为,此问题的改善可能需要靠加强国内、国际合作来实现。最近,MARKUS系统中已经开始支持更多语言,如在中文和英文之外支持韩文材料的处理等。

第四个问题是国内和国际性标准的优势与缺陷。魏希徳指出,不同的标准各有优劣,但多语言性的研究以及资料库与工具的结合无疑需要共同的标准。举例而言,在刚开始做基础建设设施时,她就开始寻找有关于基础设施的本体(Ontology)或术语集,但这非常困难。这样的方法和工具本应存在,她的团队也希望能够在未来为大家提供这样的工具。

最后一个问题是数字人文的教学。目前国外已经有一些教学项目提供数字人文教材、暑期学校等,在这个方面,魏希徳也希望大家能努力分享自己的教学课程和资源。

德龙(Donald Sturgeon):“从计算机科学和中国历史研究的角度反思数字人文的相遇”

接下来,由英国杜伦大学助理教授德龙(Donald Sturgeon)进行了题为“从计算机科学和中国历史研究的角度反思数字人文的相遇”的报告。德隆教授是著名的C-Text项目的唯一创办者。

德龙教授先介绍了自己的相关背景。他在本科时学习数学,中间经过汉语、哲学、东亚研究等多次学习、研究转向,目前在杜伦大学计算机科学系工作。他本次演讲的核心内容在于从人文科学与计算机科学的两个角度讨论数字与人文的合作问题,特别是教学方面的问题。德龙教授曾在哈佛大学东亚系为硕士生开设“中国研究的数字方法”课程,也曾在杜伦大学计算机科学系为三年级本科生开展“人文、社会科学中的计算模型”课程。这两门课程虽然在细节上有所不同,但在内容和评定方法方面有相似之处,都涉及文本处理、文本相似性、社会网络分析及作者身份识别,并采用期末报告的方式进行考核。德龙教授从两次教学经验的对比出发,以探讨数字与人文两种学科间合作的可能性与难题。

根据德龙教授的观察,人文背景的硕士生在数字方法课中面对诸多挑战。在概念上的挑战方面,这些学生要学习计算机思维,理解电脑运作,以及学习评估每种方法应用的难度;在实用上的挑战方面,需要从零学习编程,并花时间学习如何使用有力工具。反观计算机科学系的学生,也同样面对许多挑战。在概念上的挑战方面,这些学生往往受限于计算机思维而欠缺问题意识,不善于评估什么分析值得做;在实用上的挑战方面,则面对不知道怎么寻找适当的研究空白,和倾向于选择保守研究题目的问题。这两类学生也各有优势和缺点:人文背景的学生具有非常强的问题意识,但不一定能够实际做到想做的工作;计算机科学的学生则往往从工具出发思考问题,依赖成熟的数据集,他们的研究课题成功率高却缺乏创意和突破。

德龙在教学中发现,“人文、社会科学中的计算模型”课堂上的计算机科学系学生,常常使用来自Kaggle网站的成熟数据完成他们的期末报告。该网站提供各类便于计算机学者使用的数据集,如Twitter情感分析数据、图片分类数据等。同时,Kaggle会对数据“可用性”进行基于数据集元数据的评估,评估指标包括是否有元数据及简单介绍、数据格式是否清晰、是否针对指定目标等,而完全不包括资料的完整性、可靠性、客观性,也不包括指定目标的重要性和难度。德龙认为,这或许能够代表计算机科学的学生看待数据集的典型思路。德龙曾在这堂课上向学生们介绍了TEI(Text Encoding Initiative)/XML,希望学生可以用已标记好的丰富文本尝试数字人文研究。然而在阅读学生们报告的过程中,他发现学生们往往不愿意接受这些文本标记,因为它们的标签透明度不够高,需要翻阅TEI说明才能了解,这对学生来说是一种过于繁杂的挑战。但学生们相对愿意接受有线上查询系统的RDF(Resource Description Framework,资源描述框架)资料,因为它们具有“自说明系统”和更为简单的数据结构。此外,德龙还发现学生们对于自然语言处理,尤其是文本情感分析类的题目极为偏爱,因为这些题目具有清晰易懂的指定目标和简单的评价方法。接下来,德龙进一步探讨了机器可读性(Readability)和可处理性(Processability)方面的问题。他指出,机器可读并不代表机器可处理,需要进一步将数据链接到本体或知识图谱,引入领域知识或常识,以使其具有机器可处理性,在此方面,Wikidata是一个优秀的案例。

德龙提出了几个他认为数字人文学者在开展项目时可以考虑的问题。其一是把相关资料链接到内容广泛的一般性知识图谱,以补充“理所当然”的领域知识或常识;其二是考虑参与Wikidata的知识图谱建设,提出新性质并提供自己的标识符;其三是把数据库包装成适合机器学习处理的项目,在Kaggle等平台上分享,吸引计算机学者参与;其四是为数据提供简单完整的说明,这会使得数据更容易被其它领域的研究者使用。

包平:“方志物产数字人文研究实践与思考”

最后,由本次会议的东道主,来自南京农业大学的包平教授以“方志物产数字人文研究实践与思考”为题进行了报告。包平教授首先向大家介绍了本次会议召开的原因。在开展研究的过程中,他的团队在项目推进过程中遇到了很多难以在内部突破的问题,因此决定求教外部力量,这也是本次会议召开的初衷。同时,因为一直对思考跨学科发展有所思考,他特地将两个领域的专家召集起来进行讨论。包平教授对在场各位专家的到来表示感谢,并在演讲中对南京农业大学数字人文研究团队的工作进行了简要报告。

包平教授介绍到,方志是中华独有的一种历史文献,约占存世古籍的十分之一。从宋代以后,物产成为方志中一个重要的栏目。较为幸运的是,此前已经有几代人将方志资料进行整理,如万国鼎先生在建国初年所整理的一百余册《方志物产》手抄本,摘录有3600多万字的物产信息专题资料。《方志物产》的材料在空间维度上涵盖了国内所有行政区域,在时间维度上涵盖宋代以降约九百年的旧志,在内容上涵盖了多种罕见或广义方志,是独一无二的古籍再造,也是规模最大的地方志物产资料集成汇录,并且具有完备的查检系统,可以辅佐追溯和还原物种演变的路线图。上世纪九十年代开始,王思明教授带领一支团队开始了《方志物产》的数字化工作,先是对原始文献进行扫描,而后又开展全文录入。侯汉清教授的团队,则在十几年前就开始进行文本的自动断句、自动标点、引书、本体构建等研究工作,此为《方志物产》智能整理的开端。从2008年开始,包平教授开始接手此项任务并开展新的系列工作,团队中的朱锁玲、李娜、徐晨飞等博士分别从实体名称智能识别、社会网络、深度学习、关联数据等角度进行了体系化探索。2018年,团队获批国家社会科学基金重大项目,继而深入开展几项新的研究,包平教授对这些研究的进展依次进行了详述。

首先是《方志物产》资料的再辑录、整理与数字化。《方志物产》手抄本资料也有缺漏,团队目前正在进行再辑录和整理,并对原有材料开展纠错和校对,现已补充了1696种方志物产资料,总量已达9071种。同时,团队还进行了方志物产素材库构建,目前该素材库已经能够基本实现物产的导入、导出、浏览、抽检、删除、修改、统计和用户管理等功能。其二是方志物产资料的多层级自动标注,在这个方面,团队已经制定了相应规范并搭建了一体化标注平台,开展分词、词性和命名实体识别等工作。其三是知识库的构建,团队进行了面向领域专家的问卷调查工作,充分了解需求,目前已构建新的知识组织框架,并着手处理关联数据发布和本体构建问题。这三个子课题相互关联,最终目的设计并实现方志物产知识库原型系统,提供检索、可视化、关联功能。其四是方志物产知识发现与考证,该子课题当下正处在构想阶段,其核心就是解决方志物产的“同物异名”和“异物同名”问题,目前团队希望通过结合上下文、引入外部资料、构建分类体系等方式构建智能考释模型。其五是方志物产资料深度利用,在这个方面,团队希望将他们的研究与社会需求从宏观、微观层面结合起来。对此,包平给出了几个典型应用场景,包括通过梳理方志物产资料以挖掘传统种质资源,地标产品的历史文化内涵挖掘,以及药用物产的智能整理与利用等。

包平提到,在研究开展的过程中,团队也遇到了版本与资料完整性、集外字、别名、同物异名、同名异物、知识库构建、理论体系与技术方法构建等问题,对此,他们正在积极寻求解决方案。包教授在结语中先引用《未来简史》尤瓦尔?赫拉利的一段话:每股科学的阳,都包含着一股人文主义的阴,反之亦然。阳给了我们力量,而阴则提供了意义和伦理判断。现代性的阳和阴,就是理性和感性、实验室和博物馆。延伸出若把方志物产知识组织与挖掘的技术体系喻为阳,那么物产与自然、社会发展的关系则是阴;把物种演变的生物学属性喻为阳,其多样的形态与人文的解释又成为阴;数字人文是数字技术快速发展,学科间交叉融合的产物,其研究范式尚在形成之中,我们只有多一些合作赋能,多一些争鸣批判,发展方能行稳致远。

最后,他还向大家展示了南京农业大学设计的“中华方志物语”标志,未来团队的知识库正式发布时,将会使用这个logo。

读书推荐

读书导航