同行评议(Peer Review)在科研评价实践中有许多同义词,如专家鉴定(Refereeing)、价值评议(Merit Review)、同行评价(Peer Evaluation)、同行审查(Peer Censorship )、同行判断(Peer Judgment)等[1],我国 2002 年 12 月颁布的《国家自然科学基金项目管理规定(试行)》对同行评议的定义是:同行评议是指同行评议专家对申请项目的创新性、研究价值、研究目标、研究方案等做出独立的判断和评价,一般采取通讯评议方式[2].同行评议的重点是对研究成果的科学性、创新性、重要性、前沿性、应用性等学术价值和学术水平进行评价,历来是国内外学术评价最主要、最基本的评价方法。然而,同行评议既然是主观评价,就不可避免地存在一些问题,如:主观性、倾向性、权力滥用等[3],“同行评议本身的不足及相关问题遭到了广泛的批评,而公正性问题正是其中的焦点之一;无论是评议的系统性偏向或评议人的偏见,还是评议中的”马太效应“或利益冲突等问题,都引起了广泛的争议,也是科学社会学和科学政策研究的重要议题”[4].随着当今世界科研活动的日益繁荣,以及计算机和互联网技术的进步,科研交流与成果的内容、数量均呈现爆发式增长,人类进入大数据时代,同行评议同样面临全新的机遇和挑战。本文旨在探索如何利用大数据支撑同行评议工作,使其更加科学、公正,推动学术评价工作的创新与进步。
一、小同行专家选择
同行评议主体是同行评议的第一要素,通俗而言,即谁是专家、谁有资格来评价科研成果。同行评议质量的好坏直接关系到是否能客观、公正地遴选优秀、创新的科研项目,只有高质量的同行评议专家才能准确判断被评价研究的内在质量。因此,同行评议专家的来源和遴选直接关系到同行评议结果的质量与公平性[5].传统的审稿在选择评审专家时,组织者主要依靠熟人网络或规模较小的评审专家库进行遴选,并需建立在熟悉各位专家研究领域及专业水平的基础上,选择范围十分有限,不易遴选完全匹配的审稿人。而随着科学研究的飞速发展,学科间的交叉和细化日益明显,新的交叉学科和分支学科不断涌现,大同行专家未必能够对每一个小的学科领域的最新研究成果做出恰当评议。如何准确建立学者与学术成果的对应关系? 如何为定性评价快速、精准地找到真正的具有较高专业水平、能看得懂、且具备定性判断能力的小同行专家群体? 为被评价论文找到合适的专家是保证同行评议结果权威性和客观性的前提和基础。尽管传统的同行评议要求 at least(“至少”)要两个专家参与,但是由于找专家困难,at least(“至少”)变成 enough(“足够”),这种情况事实上无法实现群体评议和开放评议,受限于专家人数及专家的主观判断水平,评审的公平公正无法保证。
那么如何才能找到合适的专家呢? 大数据为找小同行专家提供了一个新的思路与途径。信息技术的发展,使得文献相似性比对技术逐渐进入了应用阶段。国内外有多家公司开发的重复度比对程序,就是通过将待评审的论文在海量论文数据库中进行比对,通过计算其文字重复度、概念的重复度、词频、引证关系、作者之间的合作关系、机构之间的合作关系,从而找到与待评审论文相似或与该课题相近的文献。通过大数据分析,建立学者与学科之间颗粒度很细的对应关系,再以学科为媒介,进而建立学者与学者之间的联系,准确构建虚拟的学术圈。大数据还可以通过对引文的计量分析,大致判断学者的学术影响力,为评价专家的水平提供参考。以中国知网为例,基于收录海量文献的学术期刊论文库、学位论文数据库、会议论文库等,从中挖掘整理,建立了一个包含 2000 万条学者信息的数据库和 3 万条数据的博士生导师库和 9 万条数据的硕士导师库。该库已经完成各作者的工作单位、发表文献统计、研究领域整理等信息。在此大数据基础上,开发一个通过论文查找小同行专家的软件,可以由评审组织者将拟评议的论文放到该数据库中进行比对后,由系统推荐最合适的作者与同行专家,这将为未来的开放的、群体参与的同行评议奠定可靠的基础。
二、同行评议的标准与依据
同行评议过程中,由于受到各种不利因素的影响,评审人可能会偏离客观、公平、公正的原则。影响因素包括审稿人的素质、审稿人的审稿心理、制度性因素(审稿单等)、审稿方式、人情因素、年龄和阅历、审稿人的健康状况、审稿费的多少、利益冲突、稿件本身质量、编辑部所送稿件与审稿人专业接近程度等[6].要避免专家评议的主观性缺陷,最关键的是评议的标准和依据。从其诞生之日起,同行评议即面临着“评议标准”科学性和“评议过程”合理性的挑战。同行进行定性评价的依据和标准是什么? 如何实现专家定性评议过程的科学管理? 如何确保专家评价意见的科学、客观和公正? 此外,一些创新程度高、有重大突破性研究结果的话题,如何依靠同行评议迅速判断其潜在的学术价值?
例如,陶瓷在传统的概念中是绝缘体,但在高温超导领域,陶瓷还可以作为高温超导材料。又比如,核聚变通常是在高温下发生的,清华大学教授提出“常温核聚变”,即“冷核聚变”.像这样极具创新性的成果,同行评议专家是否敢于接受? 量子力学的奠基人普朗克认为:“一个新的科学理论不是靠通过说服反对者而获胜。她最后的胜利是由于反对者们终于死去而赞同她的年轻一代成长了起来”[7](后被称为“普朗克定律”) .这一定律说明,在小范围的同行评议中,打破传统思维范式的东西可能被一小部分人当作错误的东西否定掉。而如果利用较大范围的群体评议,评议质量将更加全面、客观、科学。“相对于个体而言,群体不仅可以综合多个个体的资源,提供更全面、更完整的信息,而且也能够给决策过程带来异质性。群体观点的多样性,为群体讨论时提供了多种方法和方案,为决策提供了更大的选择空间”[8].这一研究结果说明,人数更多的群体评议比小范围同行评议可以更大限度地保护创新。
学界也在不断反思并设计同行评议客观、量化评价的标准。以对审稿工作的研究为例,张保军、王晋玲设计了量化审稿表,对稿件进行量化处理,督促审稿人对稿件进行全面、客观的评价,提高审稿质量,并缩小不同审稿人对同一稿件的审稿结论的偏差。量化审稿表经过半年的试用表明,对稿件采用量化评审可以避免审稿的片面性,缩小不同审稿人的评价差别,明显提高审稿质量[9].俞敏、于凤仙等人用模糊数学的方法对审稿人作出的单因素评价结果进行量化计算,设计了定量评价的学术期刊审稿意见表,目的是使审稿过程更具科学性和可比性[10].朱美香认为建立审稿质量评价指标体系对于进一步健全审稿制度,促使审稿工作管理的量化具有积极意义,基于完整性、科学性、可行性等原则,设计了包括学术价值或实用价值、创新程度和前沿性、数据处理或实验设计、论文写作、参考文献着录、名词、量和单位的规范化、修改意见及审稿结论等8 个指标在内的评议指标体系,并分别设置了权重[11].然而,将同行评议的定性指标进行定量化设计虽然能在一定程度上减轻各专家的评审偏差,但还是无法很好地克服专家评审的主观随意性。
大数据可为同行评议提供评议的参考信息,以约束专家的评议行为。首先,通过各类查重系统检测待评审论文与已有成果的相似性。如,CNKI 科研诚信管理系统,采用的比对库涵盖期刊、博硕士学位论文、会议论文、报纸、专利等学术资源数据,还包括网页资源数据、数百万的英文学术文献数据,可将待评价论文与上亿已有学术成果资源快速准确地进行比对,找出它与其他文章的相似之处。这在同行评议时可以拓展专家眼界,剔除抄袭文献,确保评出真正具有创新性的成果。利用大数据和最新的信息技术,对海量论文进行结构化和碎片化处理,分别对各学科的研究对象、研究问题、研究方法、研究结果、研究结论、实际应用、实践效果、取得效益等内容建立创新评价数据库,评审专家基于在这样的数据库中的检索结果,可以更准确地判断被评审论文的哪部分内容属于创新,以及其创新程度。
当同行评议用于对人才的评价时,往往需要参考该学者已经完成的学术成果及其对学科发展的贡献,借此评价该学者的潜力。此时需要对已经发表多年的论文进行评价。各类引文数据库可以发挥重要的作用。人们普遍认为,被引频次高的论文就是好论文,但鉴于引证动机的复杂性[12 - 21],被引频次虽然能在一定程度上说明文献的影响力和影响范围,但不能将所有引次看作价值均等。事实上,基于文本挖掘技术,我们尝试对每条引文进行内容与动机分析,挖掘后续研究者在引用前面的研究者时其评论部分的上下文,后续研究者的评论在某种意义上对前面的研究成果也是一种同行评议。通过分析被引文献的核心观点和作用,评价其对学科发展的真实贡献,将这些意见收集起来,为同行评议的专家了解其学术价值和贡献提供客观参考,也约束同行专家在评议过程中保持公平态度。
在大数据支持基础上的学术不端检测、论文创新点分析和引证动机分析等有力工具的辅助下,开发定性定量相结合的创新评价方法,为同行专家评议一篇学术文献的学术价值和贡献提供了客观可靠的参考信息。既可以克服传统同行评议的偏差,又能为文献计量注入崭新内容,从而使学术文献评价更加准确、公平。
三、同行评议的组织形式与实现手段
传统同行评议的组织模式,通常以通讯评议或会议评议为主。通讯评议的优点是便于组织、成本较低,但可获得的评价信息较少,早期同行评议主要是采取通讯评议的方式。会议评议则成本最高,如专家往返的交通费、当地的食宿费用以及零花费用等,还有就是被评估机构准备各种评估材料以及现场评估组织的时间成本,评估专家参与的时间成本等[22],总体而言评审过程成本较高且效率低下,并且容易被一些学术不端行为钻空子。在互联网时代,出现了很多采编平台,专家可以及时远程在线审稿,大大提高了期刊审稿的效率和质量,一定程度上缓解了这一问题[23].在同行评议平台上,期刊和机构在选择评审专家时可以不用过多关注其所处的国家和地域,仅仅考虑其学术水平和他在本领域的威望就够了,这种基于网络、打破国界的同行评议可以实现即时的、不限人数、成本低廉的群体评议。目前主要成熟地应用在期刊采编领域,而更复杂的同行评议,如:对项目、课题的评审,对期刊的评审,对科研管理评价等也开始尝试采用网络评议的方式。基于大数据和网络的便利,以及手机互联等通讯方式,构建网上在线同行评议平台,通过网络邀请、社交圈、移动媒体平台等服务,可以及时提供丰富详细的数字化评审参考材料,在更大范围内及时组织国内外同行专家参与,制定规范的评审指标表格、在线交流与讨论、实时统计评价结果、及时反馈专家意见、圈内或公开发布评价结果和意见。因此,线上的同行评议变成主流,线下的存档只作为一种辅助手段,这种实时、动态、高效的同行评审必然是“互联网 + ”带给同行评议的主要发展方向。
四、同行评议的未来展望
综上所述,同行评议的三大要素在互联网时代和大数据时代迎来新的发展机遇。我们所承担的 2013 年国家文化产业发展专项资金资助项目“世界科学文献评价统计数据库”的基本目标就是通过大数据内容挖掘技术和科学文献定性评价标准,建立一个国际首创的、可以支持客观、公正、及时定性评价我国和世界各国科学文献学术质量与国际影响力的大型数据库,并在全球学术界和科研管理界进行推广应用,形成具有我国自主知识产权和国际权威性的科学文献学术评价新体系。该项目将开发含“同行专家遴选机制、定性评价标准和同行评议过程管理”等功能的国际同行评议平台,建立面向文献的国际评价体系、评价方法和评价平台,为国内外学术机构组织学术评价提供可信的定性评价参考依据。
参考文献:
[1]贺颖。 基于科学计量视角的同行评议专家遴选问题研究[D].天津:天津大学,2008:4.
[2]国家自然科学基金项目管理规定(试行)。2002 -12 -13.
[3]任胜利,王久丽。 同行评议中审稿人遴选方式对审稿结果的影响:以《自然科学进展》为 例[J]. 中 国 科 技 期 刊 研 究,2006,17(5):723.
[4]龚旭。 同行评议公正性的影响因素分析[J]. 科学学研究,2004,22(6):613.
[5]贺颖。 基于科学计量视角的同行评议专家遴选问题研究[D].天津:天津大学,2008:2.