量化评价扼杀人文学术

直面人文学术危机仲伟民著

量化评价扼杀人文学术

目前中国的学术评价机制不仅混乱，而且对学术研究的发展极为不利，对人文学科尤其不利。造成中国学术评价机制混乱的原因很多，其中之一是因为急功近利以及学术大跃进，使得科研行政管理部门过多干预学术，在学术管理上甚至是乱作为。社会上各种各样的大学排名、学科排名以及五花八门的课题申请及评奖活动等，更是将这种不合理的评价机制推向极致。另外一个非常重要的原因，是学术界包括期刊同行自身对学术评价漠不关心。很多学者尽管对目前的学术评价机制颇多微词，但又不愿花更多精力来关注，结果导致学术评价制度日趋混乱。即使有少数学者对学术评价机制提出一些批评，也大多不得要领。

这里，我可以拿人们知其然而不知其所以然的影响因子为例进行说明。

众所周知，影响因子（Impact Factor，IF），即某期刊前两年发表的论文被引用总次数，除以该期刊在前两年发表的论文总数。后来又有复合影响因子，这个概念是指，以期刊综合统计源文献、博硕士学位论文统计源文献、会议论文统计源文献为复合统计源文献计算，被评价期刊前两年发表的可被引文献在统计年的被引用总次数与该期刊在前两年内发表的可被引文献总量之比。

尽管影响因子这个概念的发明也就40年的时间（1975年开始使用），但它的影响却非常惊人。可以毫不夸张地说，这个概念现已成为国际上通用的期刊评价指标，它不仅仅是一种测度期刊有用性和显示度的指标，而且甚至成为测度期刊的学术水平乃至论文学术质量的重要指标。所以，中国学术期刊光盘版电子杂志社索性以此为题，每年都出版《中国学术期刊影响因子年报》，且成为业界的一件大事。根据通常的理解，影响因子的主要影响在两个方面：它不仅是评价学术期刊的一个主要指标，而且也是评价论文的一个重要指标。也就是说，影响因子在学术评价方面几乎可以通吃了！

文献研究者最喜欢，也最重视影响因子数据，各评价机构几乎均将影响因子定为最重要的评价指标，有的评价机构甚至作为唯一的指标；科研管理者乃至学者不明就里，也往往喜欢以此作为学术评价的重要标准。如果方法正确，将影响因子作为学术评价的标准之一，其实完全是可以的；但如果方法不对，也就是说，如果在使用影响因子进行学术评价时不分学科，将影响因子作为普世的学术评价工具，那就大错特错了，因为不同学科之间论文的影响因子数据相差实在太大。对于专业期刊来说，不同学科专业期刊的影响因子差别巨大；对于综合性期刊来说，偏重人文与偏重社科的期刊之影响因子的差别也非常之大。

相关研究专家对人文社会科学各学科的引文特征实证分析后，发现人文学科与社会科学学科之间存在巨大差异，即使同样在人文学科，引文特征也存在极大差异。有学者采用自行研制的人文社会科学引文数据库的数据，分别统计了各学科的平均引文半衰期，测试出了各学科领域的最佳评价时段，其研究结果颇引人注意，见表1。从表1可见，以历史、文学为代表的人文学科的引文半衰期在10年以上，而社会科学学科的引文半衰期都在2.8—3.8年之间，几乎相差3倍；当然，比较意外的是哲学学科，半衰期是4.2年，与我们的常识稍有差距。

表1 各学科引文的平均半衰期

资料来源：任全娥：《基于文献引证关系的人文社会科学论文评价》，《大学图书馆学报》，2012年第3期。

目前，已有很多学者对引文分析的局限性进行了研究，他们主要归纳为以下三条：第一，引文原因或动机的复杂性影响引文分析的客观性。大量事实表明，作者引用文献的目的不都是因为需要利用某些观点或资料，也可能出于其他非正常的动机；而这种出于非正常动机的引用，在引用文献与被引用文献之间就形成了“假联系”或“假相关”。比如以下方式：阿谀某人，自我吹嘘，相互吹捧，为支持自己的观点而片面引用，为维护某一学派或师承关系而非正常引用，迫于某种压力的引用，等等。第二，技术上的缺陷影响引文分析的正确度。首先，文献收集的不完全性会直接影响引文分析的结果，而事实上任何学科的文献分析都无法收集完全。其次，暗引现象同样会影响引文分析的正确性。所谓暗引，即文章引用其他论著的内容，却不注明出处。这种违反学术规范的现象在各学科的研究中比比皆是。第三，引证分析对研究有时会产生误导作用。由于国家、民族以及文化的差异，某些知识领域或内容可能并非人类所共享；如果过多强调或追求共同性，必然会脱离自己国家的具体实践。瑞典学者A.Elzinga指出，面向由核心期刊引用率决定的国际研究工作的前沿，“往往意味着面向像美国那样的核心国家”，“意味着像美国、英国和法国这样一些国家将逐渐占据支配地位。然而对较小的国家来说，适应最大共性可能意味着扩大研究与实践之间的鸿沟”。实际情形是，过多强调征引指标和共享，往往是后发国家的普遍现象。这种做法最恶劣的后果，是粗鲁地扼杀自己本民族的文化传统；越是历史悠久的国家，对本民族历史文化的伤害就越严重。

上文所说引文评价的三个局限性中，最后一条尤为关键。也就是说，从自然科学引发的学术评价工具，在运用到人文社会科学的时候，会发生严重的变异，具体运用时需要格外小心，否则，评价有失公允，就会损害正常的学术研究。

目前学术评价机制不仅使人文学科处于极其不利的处境，主要刊登人文学科学术论文的社科学术期刊也同样陷入困境。这里，我仍然主要以影响因子为例加以说明。

上文已经指出，不同学科论文之间的影响因子差距极大，这就造成刊发不同学科论文学术期刊影响因子的差别极大，人文学科与社会科学学科期刊的影响因子差别更大。比如《经济研究》与《历史研究》同是中国社会科学院的著名期刊，但根据中国知网2014年发布的影响因子年报统计，两本最著名的专业期刊，影响因子差别极大，《经济研究》复合影响因子达9.831，而《历史研究》的复合影响因子只有0.954，相差整整10倍。所谓经济学“帝国主义”，文史哲“第三世界”，在学术评价领域显露无遗。详见表2。

表2 专业期刊影响因子比较

资料来源：CNKI 2014年公开数据，http：//www.cnki.net/

在综合性期刊中，除《中国社会科学》为5.596外，绝大多数综合性期刊如果能超过1，已经是很高的数字了。就学报而言，《浙江大学学报》和《中国人民大学学报》最高，《复旦学报》为1.094，《文史哲》则只有0.646。可是我们并不能以此判断后两家学报比前两家学术水平低，为什么？道理很简单，是学科文章分布造成的。前两个学报侧重社会科学学科的文章，尤其是经济学、社会学等学科文章；而后两个学报侧重人文学科，尤其是文史学科的文章。这种学科分布造成了影响因子的巨大差异。见表3。

表3 综合性期刊影响因子比较

资料来源：CNKI 2014年公开数据，http：//www.cnki.net/

因此，仅仅或主要依靠影响因子数据评价期刊，不仅是极不科学的，而且会对人文社科期刊造成严重的负面影响。这种评价标准没有考虑到学科之间的差异。人文学科有自己特殊的研究规范，以历史学科为例，实证性历史学文章多是径直爬梳史料，在经过考证辨析后得出结论，此类文章较少引证现当代人的论著。这是历史学研究的重要特点之一，当然，这既是历史学研究的优长之处，也是历史学研究的短板之处。说它有优长之处，是因为历史学者习惯直接从原始材料入手，尤其注重第一手的材料，这是历史学科不同于任何其他学科的重要特点。可是，这种研究方法同样有不足之处，这说明历史研究学者比较容易忽视同行的相关研究，不仅对同行的尊重不够，而且容易形成重复性研究。我主张，历史学者在注重原始材料的同时，应该尽量汲取其他学科尤其是社会科学学科的做法，即不仅应该很好总结前人的研究成果，而且还应尽可能多的引用别人已有的研究成果，避免重复性劳动。当然，历史学的学科特性以及研究方法，使该学科论文在被引方面永远不可能同经济学相提并论。

鉴于此，不同学科论著的学术水平，不宜都拿影响因子作为评价标准，更不宜将不同学科的论文进行影响因子的比较。如果要进行比较，只能在同一学科内，甚至要在二级三级学科层次上进行比较。学术期刊同样如此，不同学科的专业学术期刊不能用影响因子进行比较；综合性期刊的发文差异很大，也很难用影响因子来比较。上面所举例证，足以说明问题。

袁培国先生对滥用影响因子提出批评，他说：“把针对以英文为主、期刊类别与其刊载论文类别相对一致的科技期刊的期刊影响因子原封不动地运用于大多是一种期刊刊载多学科论文的中文人文社会科学期刊，在现实中便带来了新的问题，而科研管理使用的简单化、绝对化和误用更加剧这些问题的复杂性和严重性。”（《中文文科期刊影响因子评价作用之反思》，南京：《南京大学学报》，2011年第3期）可见，学术评价机制不合理有很多复杂的因素，需要我们做更深一步的研究。

在人文社会科学学术评价，尤其是职称评定中，代表作制度是一个相对不错的制度设计，得到学者较为普遍的认同，因为代表作制度激励学者做高水准的研究成果，而不鼓励急功近利、单纯追求成果的绝对数量。多年来中国社会科学院执行这项学术评价制度比较好，为广大学术界所认可；但可惜的是，自该院设立了创新工程后，便逐渐放弃这套学术评价体系。如今该院的某些功利性做法，甚至超过国内某些高校，比如现在学术成果评定要看刊物级别，要拼数量，相关的评价机构也要对国内学术期刊进行分级。前后比较，社科院的这种做法是一种倒退，令人惋惜。

学术评价出现上述重数量轻质量的现象，有很多原因，其中有两个原因特别重要：一是同行专家或学术共同体作用发挥不充分，此点下文将有阐发；二是评价机构的作用日益膨胀，正是因为在评价机构的推波助澜之下，导致学术评价的异化现象越来越严重。更为明确地说，学术评价机构是形式评价尤其是量化评价的推手，量化评价体系是一种貌似科学而实则粗暴的人文社会科学评价机制，对人文社会科学的发展会造成深重的伤害。