概念史研究的数字转向

2021年11月26日,复旦大学中国近代史青年学者读书班2021年第7期在线上进行。活动由复旦大学历史学系章可副教授召集主持,南京大学学衡研究院暨历史学院邱伟云副教授受邀主讲,讲座题目为《概念史研究的数字转向》。评议人为北京师范大学文学院方维规特聘教授。本文为主讲人发言整理稿,末附评议人发言稿。

主讲人邱伟云

主讲人邱伟云


主持人章可

主持人章可


过去十年的概念史研究法的数字转向探索实践,逐步证明了概念史研究法数字转向的可能性,近年来也逐渐受到中国学界同行的肯定与关注。从全球概念史学界近年发展可见,自2015年开始已有海外名校同样意识到将计算机学界的自然语言处理技术引入词汇与概念研究中的可能性与发展前景。以下就从概念史研究的数字转向为题来讨论概念史研究方法数字转向的可能发展与前景所在。

节点1:什么是概念史(history of concepts)?

由于参加我们今天这个讨论会的师友们,有些是计算机学界的朋友,因此我先大概说明一下何谓概念史(history of concepts)。根据方维规老师研究指出,德文Begriffsgeschichte(概念史)一词最早出现于黑格尔﹙Georg Wilhelm Friedrich Hegel﹐1770–1831﹚的《历史哲学讲座》中,指基于普遍观念撰述历史的方式,用来指称一种史学类型,即考察艺术、法学和宗教的历史,可以纳入哲学史的范畴。而后在科塞雷克 (Reinhart Koselleck, 1923-2006)所主编的八卷本《历史基本概念-德国政治和社会语言历史辞典》(1972-1997)与《历史语义学与概念史》(1979)书中,完成了“概念史”学派的定型。简言之,概念史研究的目的,即希望通过考察重大概念在不同历史语境中的社会影响,推导出政治社会群体运用特定概念的典型张力,进而分析时代、社会、政治的结构变化,最后重构社会史的截面,进一步呈现出整个社会历史,提供史学研究一个新范式。在概念史研究法特征上,我们发现了能与计算机学界文本探勘技术进行协作研究的着力点所在,因为文本探勘技术正是一种可计算长时段中巨量文字语料里的词语结构及其变化的数字技术,从这角度而言,文本探勘技术即能介入概念史研究视野,辅助概念史研究工作者进行复杂与长时段的概念形成、运用与嬗变研究。关于概念史研究法中丰厚且复杂的理论层次与研究视角,有兴趣的师友可参见方老师自2019年出版的概念史三书,分别是《概念的历史分量:近代中国思想的概念史研究》(北京:北京大学出版社,2019年)、《什么是概念史》(北京:生活·读书·新知三联书店,2020年)、《历史的概念向量》(北京:生活·读书·新知三联书店,2021年),通过阅读概念史三书,当能较为全面的掌握德国概念史研究理论方法。至于概念史研究案例,可参见2013年开始至今,由南京大学学衡研究院院长孙江教授主编出版的《亚洲概念史研究》集刊,目前出版至第8卷,收录众多亚洲概念史研究的优秀成果,当然也不能错过章可老师在概念史研究领域的力作《中国“人文主义”的概念史(1901-1932)》(上海:复旦大学出版社,2015年),章老师以一本书的分量系统且细密地揭示了“人文主义”的概念以及围绕此概念的其他相关概念,是想了解概念史研究方法与实践取径的师友们不能错过的好书。

《什么是概念史》

《什么是概念史》


节点2:什么是数字转向(Digital Turn)?

上面我们通过简要的概述,帮助计算机学界师友们了解概念史研究方法的简明基础定义后,接着我们再谈谈什么是数字转向(Digital Turn),以帮助人文学界师友们理解为何要数字转向?以及如何数字转向等问题。南京大学陈静老师与香港城市大学徐力恒老师曾在〈我们为什么需要数字人文〉(《社会科学报》第1572期,2017年8月24日,第5版)一文中指出,随着数字技术更新迭代、数字化内容不断增加,数字化的研究趋势得到了更广泛的应用,影响遍及各个人文学科。大约在2000年以后“数字转向”(digital turn)时代到来,个人计算机变得十分普遍,成为大多数学者能方便使用的设备。如今通过高速高能的计算机设备,配合国家提出的数字中国主张,各界都如火如荼的对古代乃至近代的所有历史文献进行数字化、数据化乃至智能化的工作,展开各种目前可见的大型数据库建置项目计划,运用各种前沿的数字技术,包括数据探勘、文本探勘、图像标记、网络分析、时空地理分析、声音分析技术等,对人文世界进行诸多前沿性的探索性研究工作,这就是目前人文学研究的数字转向情况。

节点3:概念史研究真的需要数字转向吗?

也许有师友们会问,概念史研究真的需要数字转向吗?在当代语境中,我们不难想见未来乃是一切皆数据的世界。不仅过去的材料我们不断的进行数字化工作,诸如爱如生的“典海”中浩如烟海的数字化古籍;或是近现代的史料数字化工作,如香港中文大学中国近代思想史专业数据库(1830-1930)具有一亿两千万字的全文史料内容,晚清期刊全文数据库(1833-1911)收录期刊520余种,文章53万余篇,民国时期期刊数据库(1911-1949)收录期刊25,000余种,文章1000余万篇;中国社会科学院近代史研究所“抗日战争与近代中日关系文献数据平台”于2020年9月1日已上线报纸1046种、期刊2343种、图书71071册……以上数据平台若配合前沿OCR技术,在未来将转为巨量可全文检索与计算的文字文本。概念史研究者们未来在研究概念时,会有人力难以读尽的材料。此外还须考虑到概念史研究的重点之一即做概念比较研究,目前东亚学界也不断进行历史文献材料数字化工作,如“韩国近代报刊语料库”,近代中日词汇交流有关文献的数字档案化与词汇语料库,及日本皓星社建置的《杂志记事检索集成数据库(1860-1945) 》(http://info.zassaku-plus.com/)等,都是未来在研究亚洲概念史时不可回避的巨量数据库。目前欧美各国也都积极推行多语种历史材料的数字化工程,如GALE平台即收录了跨越全球500 年历史的1.7亿页珍稀原始资源文献,包含多种语言的文学、档案、法律文书、手稿等内容,其中ECCO 十八世纪作品在线数据库更是收集了1700-1799年之间所有在英国出版的图书和所有在美国和英联邦出版的非英文书籍,涵盖英语、法语、德语、西班牙语、拉丁文等多个语种,包含13万种15万卷,超过3,300万页的内容。

因此,假如概念史研究就是要观察词语及其作为语言的运用与嬗变过程,借以推导政治社会群体运用特定概念的典型张力,分析时代、社会、政治的结构变化,那么概念史研究就天然的适合与需要进行数字转向。由于数据化将使人类认识世界的方式产生根本性转变,因此未来世界不再是一连串自然或社会现象的事件,而是由信息所构成(Viktor Mayer-Sch?nberger and Kenneth Cukier,2013),百年后的概念史研究者们若想要研究百年前我们现在这个社会中的概念发展,他们会有看不完的文本,包含系统性的个人专著、论文,与碎片化的朋友圈、微博、推特等文字。这样巨量的文字数据信息,若不借助数字方法,将难以进行“概念与社会”互动的概念史研究,因此现在的数字转向正是在为未来的概念史家提出方法的准备。

在上述全球历史材料数字化工程下,可以想像未来概念史研究者的焦虑,将从过去的“动手动脚找材料”向“巨量材料如何读尽”转变。在旧文本不断被数字化,新文本膨胀速度比旧资料快的语境下,未来概念史研究者必定面对材料过多无法读尽的问题,这也是概念史研究的数字转向的合理性与必要性所在。

节点4:全球概念史研究的数字转向重要案例

正因全球历史文献材料如火如荼的数字化工作,使得全球概念史研究者们逐渐发现,若不采用新工具与新方法,将出现难以穷尽所有历史材料再进行概念研究观察与提出结论的问题,因此已有诸多著名大学研究团队开启了概念史研究的数字转向实践工作。

第一个案例是美国剑桥大学在2014-2018年设置的概念实验室(CCDK)。此一实验室尝试通过计算方法描述和分析由概念结构生成的结构化环境,试图揭示其中循环的概念网络(https://ccdkconceptlab.wordpress.com/)。2020年,该团队的Peter de Bolla, Ewan Jones, Paul Nulty, Gabriel Recchia, John Regan共同发表了The Idea of Liberty, 1600 – 1800: A Distributional Concept Analysis, University of Pennsylvania Press in the Journal of the History of Ideas(Volume 81, Number 3, July 2020)一文,运用计算和统计方法对十六到十八世纪的“Liberty”概念进行分析,基于一套定制的分析概念结构的工具,帮助对“Liberty”概念的文献分析工作,并与以赛亚·伯林(Isaiah Berlin)和昆汀·斯金纳(Quentin Skinner)过去有关Liberty概念的研究成果相互对话。

第二个案例是英国谢菲尔德大学数字人文学院(DHI),是英国领先的数字人文中心之一,成立于1994年。2016年春季开启现代西方思语言DNA项目(https://www.dhi.ac.uk/ldna/),通过对十五到十八世纪英语话语中发生的语义和概念变化建模,进以理解早期现代思想的演变。最近的研究成果可参见Digital methods for studying meaning in historical English. Special Issue of Transactions of the Philological Society, 119 (2)、§Susan Fitzmaurice, (2020).

第三个案例是新近成立的芬兰赫尔辛基大学数字人文中心(HELDIG),这是一个集合赫尔辛基大学七个不同院系数字人文学科相关领域的协作中心。早在成立之初的2015年,他们就举办了“概念变化–数字人文案例研究座谈会”,讨论应该如何使用大的数字化历史数据研究概念变化。自2017年起,这个中心开始连年举办“概念计算方法”专题讨论会、“历时性概念变化的计算方法”讨论会、“言语与行动:政治文本挖掘” 讲习班及词汇语义变化讲习班等,密切聚焦于计算概念研究的趋势方法及其转向。

节点5:中国概念史研究的数字转向

对词汇概念的“形成”“运用”与“变化”研究视角进行量化转译与考察,很早就已经在中国学界出现。基于此对词汇概念研究进行数字转向的思考,配合计算机学界自然语言处理技术的迭代与更新,在中国概念史研究学界中产生了三种领先全球的新的量化考察视角。

第一种是结合文本探勘技术与网络分析技术对概念关系进行量化计算并发现互斥概念的研究路径。如我与郑文惠、刘昭麟、林书佑等老师合作的《概念关系的数位人文研究——以<新青年>中的“世界”观念为考察核心》(收于项洁主编:《数位人文:在过去、现在和未来之间》(台北:台湾大学出版中心,2016年12月)一文,以数字人文技术与德国概念史理论对话,勾勒《新青年》500万字语料中与“世界”概念共现的概念群并计算其间的概念网络。该文使用机率统计、统计学中的LSA、PMI等关系性计算,以及词汇相依计算法等多种可能适用于概念关联性计算的方法,发现《新青年》前后不同时段“世界”概念共现词群的分合。其中“世界”与“天下”这一对概念呈现出从不显著相关到显著负相关的变化,表示“天下”概念与世界论述互斥,此种概念关系型态是人力不能考察者,亦即是数字人文视野下独特的发现。

第二种是对汉语词缀复合词研究进行量化计算的工作。关于汉语词缀复合词研究工作,2001年方维规老师即发表 “Yi,Yang,Xi,Wai and Other Terms:The Transition from ‘Barbarian’to ‘Foreigner’in Late Imperial Chi- na”(“夷”、“洋”、“西”、“外”及其相关概念:晚清译词从“夷狄”到“外国人”的转换in:New Terms for New Ideas:Western Knowledge & Lexical Change in Late Imperial China,ed.by Michael Lackner et al.,Leiden:Bril l,2001)一文,探讨由“夷”“洋”“西”“外”等四个汉语词缀所复合出的四批复合词间的时代变化,从中提出中国近代对西方认同的转型现象;而后2011年章清先生发表《“界”的虚与实:略论汉语新词与晚清社会的演进》(《东アジア文化交渉研究》,别册7,2011 年3 月)一文,更是直接指明汉语词缀复合词研究的意义与价值,文中指出作为现代汉语中颇为特殊的“后缀复合词”(或称为“接尾词”),这样的构词法已预示其具有明显的开放性和不确定性,往往成为考察语言成长具有特殊意义的例证,而这样的构成法大大提升了语汇的制造能力,“后缀”之前添加什么,决定于中国社会所做的取舍。拙作《词汇、概念、话语:数字人文视野下中国近代“美”之观念的建构与再现》(收入周宪主编:《艺术理论与艺术史学》第三辑(北京:中国社会科学出版社,2019年10月)即实践了汉语词缀复合词研究法的量化转译工作,通过数字人文技术,计算并归结中国近代“美”之观念的建构与再现轨迹,有一从“美善”“美术”到“美育”的三阶段发展过程,并发现中国近代“美”之观念具有教化性与实用性两个特征。当我们能将此前所提到的中国从古代到近当代所有建置完成的数据库加以串连,那么我们就可望通过数字技术,勾勒出中国各种词汇概念由传统至当代的发展史,这是过去依靠人力难以完成的重大工作。

第三种是结合图像标记技术对图像概念史进行量化计算工作。如王平、钮亮、金观涛、刘青峰等发表的《五代北宋山水画的数位人文研究(二)——以“渔隐”主题为例》(收入《数位典藏与数位人文》2018年第1期 )一文,即以五代北宋时期至今流传的120余幅山水画图像为研究对象,围绕舟船、渔人两类图像进行数据撷取与图像分析,以此去追溯“渔隐”主题及其概念的原形与流变。在图像概念史研究法的数字转向思考中,研究者尝试通过计算机自动发现稳定图像形式结构,使人文研究者可考察其图像概念含义,以及从稳定图像形式结构去考察其图像概念譬喻含义,或从概念寓意画考察其图像概念含义。当图像数据的收集与数字化、数据化乃至于智能化工作完成,概念史研究者们即可快速地从长时段的跨国图像中发现概念环流的踪影与历史意义。

节点6:中国概念史研究数字转向的未来方向

以上我们已经介绍了全球概念史研究在数字转向上的经典项目以及中国在概念史研究法数字转向上的独特贡献,下面可再从人文的概念史理论视角出发,谈谈中国概念史研究数字转向的未来方向。

第一个基于中国概念史理论可以进行数字转向的工作是中国近代概念发展转型的数字考察。孙江教授曾在《概念史研究的中国转向》(《学术月刊》2018年第10期)一文中讨论中国近代概念转型的问题,基于中国近代概念转型的特征,提出了有别于德国概念史家科塞雷克所勾勒出的德国近代鞍型期概念转型中的“四化”尺度,分别是标准化(Standardization)、大众化(Popularization)、政治化(Politicization)、衍生化(Derivatization),未来可进一步通过文本探勘的量化模型方法,转译与侦测中国近代概念转型中的概念四化发展现象。

第二是基于中国近代汉字发展的词化现象进行数字转向研究。如日本关西大学沈国威教授在《近代中日词汇交流研究:汉字新词的创制、容受与共享》(北京:中华书局,2010)一书中指出,词化是对概念的命名。概念可以用一句话、一个说明性或比喻性词组、一个短语来表达,而当概念用一个词来指称时,叫做概念的“词化”,或称“词汇化”。通过数字转向,可以利用词嵌入、文本探勘、时空地理、网络分析等技术进一步的量化转译东亚近代概念词汇化的进程。

《近代中日词汇交流研究:汉字新词的创制、容受与共享》

《近代中日词汇交流研究:汉字新词的创制、容受与共享》


第三是基于近代中日韩三国之间概念环流现象进行数字转向研究。亦即可运用时空地理技术、文本探勘、网络分析方法等,结合中日韩三国对于同一概念的研究数据基础,进行跨国的概念数据比较研究,借以揭示概念的源流以及在长时段过程中三向影响交流的动态过程。

今日所谈的概念史研究的数字转向方法与趋势,正符合文理交叉的“新文科”主张,这一主张使得我们一方面能通过结合计算机与统计方法对人文研究议题进行“人文数字化”的思考与探讨,另一方面又能再基于人文关怀角度去商榷与研发带有人文性的计算统计方法而完成“数字人文化”工作。唯有建立起人文数字化与数字人文化两个角度的循环交流协作工作流程,才能真正落实新文科的文理交叉诉求,为2035年建成高等教育强国、实现中国教育现代化提供有力支撑。 

评议人发言:方维规教授

问题一:

用计算机进行人文研究易缺乏人文温度:计量研究如远读认为重要的关键点在数值的高峰,但人文研究学者会认为概念的意义在走势之中,因为概念顶峰已经丧失了锐气,但人文研究者更在乎的是发展趋势中如何普及的过程,以及普及过程中报人或是百姓等不同层次行动者的理解现象,但这些研究角度在计算机视角中容易被忽略。且在数字转向之中,很多研究结果都以可视化图表方式进行呈现,但这种数据可视化的结果易将“人”推向平面化,亦即只关注高低而不关注过程,会削弱其中丰富的人文性信息。

回答:对于这一问题,数字人文学界也开始进行反思,亦即数字转向的发展,并非拿来主义式的只听从于计算方法的“人文数字化”,也许在过去十年我们确实是走“人文数字化”的道路,因为那时是在探索阶段,我们得先把各种计算方法拿来探索实践,看看是否能结合?然而在十年后的今天,数字转向应该迈向建立理论的方向,亦即我常说的转向“数字人文化”的方向,我们不能再像过去十年一样,不问计算方法的优劣以及其是否合适拿来计算人文问题,只要看到最新方法就拿来使用,只求量化视角的信校度,却不问这些新方法是否适合用于计算人文问题。如今我们应该迈向从人文角度去对各种最新的方法进行“人文性”的信校度提问与反思阶段,亦即必须通过人文视野去判断与反思各种最新计算方法的人文研究配适性,甚至是更进一步,应当基于人文问题意识的需求,量身定做计算方法,如此一来,像方老师提出人文学者更应关注的是概念的爬坡发展阶段的重要性此一研究视角,就能通过量身定做,发展出一种探索概念爬坡轨迹与信息的测量方法,以符合人文研究者的需求。这样的方法才是真正结合数字与人文的思考后所产生出的真正的数字人文方法。

问题二:

在概念研究中常见存在着一种概念用多种不同词汇来翻译与理解的现象,例如Democracy在近代就有“民主”与“共和”两种译法,那么在利用数字方法进行Democracy概念研究时,如果只注意到“民主”或“共和”,就是忽略了其他当时同时代表着Democracy概念的发展向度,基于这样的问题,数字人文方法如何解决?

回答:目前在自然语言处理技术当中,有种非监督学习的词向量研究法,可以通过词汇的上下文语义关系,侦测并辨别出长时段巨量文本中的近义词,有望处理并解决一词多义与多词一义的问题。因此对于上述问题,未来可以利用词向量方法进行探索性实验,通过数据驱动的方法找到并解决同一概念具有多种词汇能指的问题。

问题三:

报告中谈到全球概念史的比较问题,在这中间有很多需要考虑的地方,例如中日概念对比时候,要注意概念先后问题;还有概念到底是在殖民地或是半殖民地发展也会有所不同,而这些细节往往并非量化方法所考虑的问题?该如何解决?而且概念在跨语境间是很难进行比较的,因为概念随着语境不同有着完全不同的变化?那么全球概念比较研究如何可能?

章可老师回应

我认为全球概念史研究还是有可能的,因为即使概念会随着语境而有很大的不同,但跨语境中还是有属于非语境成分,这个非语境成分恰恰是语义带来的,而这往往就是全球概念史的基础,因此全球概念比较研究还是有可能的。

回答:这正是概念史研究法在数字转向过程中需要通过人文与计算机领域学者密切讨论去解决的问题。概念史学者可以提出各种在研究概念时应当关注的人文研究变项,而计算机学者就能从这些变项去思考该如何通过计算权重的调整与方法的复合重组,让计算方法能很好的回应人文学者所关注的焦点问题,因此概念史研究的数字转向,需要人文学者多多提出人文性的关怀视角,借以发展适合于概念史研究专用的数字计算方法。而章可老师提出可以考察跨语境当中的非语境成分的问题意识,即是未来在概念史研究数字转向中可以通过量化模型去尝试加以勾勒的重要人文问题。

问题四:

从莫来蒂提出世界文学的研究主张中,可以发现世界文学的研究可能带有偏见,这里的偏见包括世界文学的组成多为英语文学,而其他语种则少;又或者殖民文学多,精英文学多,那么这样的研究结果可以称为世界文学吗?

回答:确实,老师提出的是目前数字转向中时常被提出来进行反思的一个问题,亦即“数据偏见”。例如斯坦福大学李飞飞教授他们曾经对大量图片进行人机互动标记工作,进而训练出一个能自动标记图片的模型,当他们将穿有白纱的女性图片给予识别时可以自动识别出是婚礼;但当他们将印度女性穿着印度传统婚纱的图片给机器识别时却识别出是戏剧,这里问题就出在训练计算机自动辨识模型时所用的图像多为西方图片,因此只能较好的识别西方图像中的事物,但对东方事物的识别就产生了问题,这就是一种“数据偏见”,亦即机器所学习的数据是有偏向的,如此所建置的计算识别模型语自然也是带有偏向的。在此案例中,李飞飞即通过调整机器学习的数据,更为多元的重新收集机器学习的图像材料,借以让机器学习的结果更为公正客观而不具有偏见。就此而言,概念史研究的数字转向前提,就是我们用以计算概念发展的语料必须尽量避免材料的倾斜,对语料结构必须十分了解,如此才能针对语料结构的倾斜而调整计算权重,进一步避免与解决数据偏见可能导致偏见结论的问题。

读书推荐

读书导航