学术不端是指在申请课题、实施研究报告结果的过程中,出现的捏造、篡改或抄袭行为。 不端行为主要被限定在“伪造、篡改、抄袭 ”(Fabrication,Falsification,Plagiarism,简称 FFP )三 者中。 随着学术竞争日渐激烈,学术界存在某些弄虚作假、行为不良或失范的风气。 在职称晋升、申请立项、毕业答辩等科研环节中,存在剽窃他人研究成果、稍加改动甚至全盘照搬占为己有的行为,或者一稿多投以数量取胜为自身谋取利益等现象。 目前在国内学术界, 这些违背科学精神和道德的现象广泛存在于科研机构、大专院校等各个层面,极大地败坏了学术风气,阻碍了学术进步,给科学和教育事业带来严重的负面影响。 鉴于学术不端严重削弱了学术界的公平竞争,很多单位在职称评聘、应届毕业生答辩资格取得、新文章发表等工作中,适时引入了相似性检测这一硬性规定,针对着作、中外文期刊论文等科研成果进行严格的相似性检测,规定了一定的相似比,相似性处于该相似比之内的成果方可过关,否则一票否决。
针对相似性检测, 当前国内多家数据商均研发了学术不端检测系统,后台比对数据库资源丰富、涵盖面广,包括期刊全文数据库、学位论文数据库、会议论文数据库、报纸全文数据库、互联网数据库、港澳台数据库、优先出版数据库等;针对英文文献,也增加了相关的期刊、博硕、会议的英文比对数据库。 比对范围广泛全面,比对系统日趋完善。 而且根据被检测人自身文献的发文状况,还引入了个人比对库,使得检测的严格性和人性化相结合,在一定程度上净化了学术竞争环境,促进了学术竞争公平、公正地发展。
随着科研的飞速发展和更高要求, 国内科研人员越来越注重外文研发,英文专着、学位论文、期刊论文的数量日渐增多。 为了适应这一现状, 学术不端检测系统也相应地整合了多个英文资源比对数据库,如中国知网国际文献总库、德国 Springer 全文期刊数据库、英国 Taylor&Francis 期刊数据库、荷兰 Elsevier 数据库等。 比对的英文文献类型包括期刊论文、会议论文、学位论文、图书等。 在相似性检测过程中,英文文献查重存在一些技巧,比如外刊检索中优先出版、出版周期、刊种确定、时间确定等。 而且由于文献内容涉及各个学科,文献原始格式、出版格式、呈现形式多种多样,每一个环节的界定都直接影响着检测结果,这就要求检测人员在检测过程中要充分用心,于不规律中探寻规律,严格采用统一标准对待各篇送检文献,对申报者负责。
1相似性检测中的影响因素
1.1 英文文献格式
英文文献撰写者通常使 LATEX 等软件编辑,自动生成 PDF格式,故申报者在申报系统中提交的的英文文献多为 PDF 格式。①PDF 格式的英文原文在正常未加密的情况下, 检测过程一般比较顺利,可以正常生成检测报告。但是有时 PDF 格式会出现加密的情况,一旦出现这种情况,原文文字信息无法复制,文章在相似性检测系统中无法导入,或者导入之后生成乱码报告等,这些情况一旦出现,需要立即将原文章转换格式。 常用的格式转换软件有汉王 PDF OCR、ABBYY FineReader 等,格式转换之后,通常情况下检测过程会归于正常; ②有时相似性检测系统后台比对的外文数据库会涉及版权问题, 文章允许比对但不提供无缝下载链接,所以当原文无法在数据库下载时,有时会需要作者本人提供原文, 这时可能会出现 Word 等非 PDF 格式的文章被提交上来,检测方法和过程与 PDF 格式的文章相同,但前提是作者本人提交的版本内容必须与发表、收录的内容完全一致,这需要人事处、科研处等相关部门严格审核。 另外,从数据库下载的原文中,如果因排版等原因掺杂有其他文章内容,须转换为 Word格式,剔除不相关内容之后重新上传检测;③某些学科领域如生化、数学、艺术等文章中,有时会出现大量统计图表、设计图、公式、分子结构示意图等,通常因格式转换软件技术限制而导致格式转换效果欠佳,从而相似性检测系统无法检测,而图表、公式本身传达一定的信息量又不宜删除, 故需要采取其他方式进行相似性鉴定。
1.2 检测时间点界定
相似性检测的重要一环是检测时间点的界定, 即比对截止时间点。 规定按收稿日期、期刊发行日期、会议日期等酌情选择。原文如果是出版社正规单行本格式,一般会标注收稿日期。 英文文献的收稿日期一般标注格式为 Received Time、Accepted Time等; 会议文献按照会议召开日期, 可检索会议名称确定会议时间;期刊文献按照期刊发行日期,网络优先出版的文献按照网上出版日期,标注格式为 Available online Time 等。本着对申报者负责的精神,时间点尽量取前不取后,收稿日期和期刊发行日期如果同时检索到,选择收稿日期作为检测时间点。 检测时间点的界定需要严格慎重, 时间间隔会造成检测结果存在很大差异。 例如,某篇文章系统认定的出版时间为 2012 年 7 月 15 日,总文字复制比为 34%,超过了文字复制比须在 30%以下的要求,但收稿日期为 2011 年 11 月 4 日,如果按该时间点检测,总文字复制比则为 10.3%,符合要求。有的期刊发行日期不明确,则需要按照该刊出版周期、出版频率来确定每期的出版时间,从而确定检测时间点。 例如,双月刊为每两个月出版发行一次,如无具体的出版日期, 则规定 6 期的出版日期为前一年 12 月 31 日以及该年 2月 28 日、4 月 30 日、6 月 30 日、8 月 31 日、10 月 31 日; 季刊为每季度出版发行一次,如无具体的出版日期,则规定四期的出版日期为前一年 12 月 31 日以及该年 3 月 31 日、6 月 30 日、9 月30 日;此外还有半月刊 、旬刊、周刊、不定期出版等多种情况 ,如无具体出版日期, 则选择各小周期的前一天或者按照出版频率均摊时间来确定。
2外文期刊检索的方法及技巧
对于无收稿日期、 非会议文献的期刊文献, 需要借助数据库、网站等资源,确定该刊的出版周期、出版频率等,从而确定具体某期的出版日期。 常用的数据库如 EI Compendex、Springer 等,在数据库收录文献的题录信息里可检索到英文期刊的完整刊名、国际标准刊号(ISSN)、数字对象唯一标识符(DOI)、出版时间或年卷期号。 利用刊名或刊号可检索期刊的出版周期或频率,常用的网站有中国报刊网、中科院国家科学图书馆、中国知网国际文献总库、 中国图书进出口总公司期刊查询等。 如利用 http:/ /periodical.cnpeak.com / periodical.aspx 检 索 英 文 期 刊 《Insurance:Mathematics and Economics》,期数共 6 期,双月刊。 对于非常规周期出版的期刊,如《Philosophy & Social Criticism》,期数共 10 期,通常按照一年的总天数均摊时间计算每期的出版时间。 有些外刊每年出版的周期不同, 如 《International Journal of DatabaseTheory and Application》,该刊 2008-2013 年每年出版的期数分别为 1 期、4 期、4 期、4 期、4 期、6 期,遇到此类情况,须按照每年期数分别计算出版日期。 此外,还可以利用数字对象唯一标识符检索, 如利用网站 http:/ /dx.doi.org/ 检索 DOI 为 10.1007/s00339-013-8018-3 的文献,可以确定出版时间为 2014 年 3 月。 有些期刊的 ISSN 号分为印刷版和电子版两种,印刷版为 pISSN,电子版为 eISSN, 两 者 内 容 一 样 . 例 如 《Journal of ConvergenceInformation Technology》,ISSN 为 1975-9321 (Print),2233-9299(Online)。
3国际会议文献的检索技巧
在英文文献相似性检测中,EI Compendex 等收录国际会议文献的数据库均可用来检索会议文献信息。 根据国际会议名称,可检索该会议的详细题录信息,确定会议日期。 另外,还可以利用 google 等学术搜索引擎, 输入会议名称或缩写, 检索会议日期。 EI 收录文献可直接在题录信息中查看会议日期, 如 EITRT2013,会议日期为 2013 年 10 月 25 日~10 月 27 日;CCDC 2014,会议日期为 2014 年 5 月 31 日~6 月 2 日。 通常选取会议召开的前一天作为检测时间点。 会议论文集的出版时间有时在会议召开的时间之前,有时在会议之后,按照“选前不选后”的原则,选择靠前的日期作为检测时间点。
4外文着作相似性检测
外文着作相似性检测是针对书名、 作者位次、ISBN、CIP 查真,利用中国人民共和国新闻出版总署、国家图书馆等网站查询CIP 数据及 ISBN 的真实性,同时核对作者位次。 有时作者位次不是第一位,或者与其他人合着,则网站无法显示具体信息,须作者提供着作原件或扫描件予以鉴定。
5文字复制比分析
相似性检测结果中, 如果被检测文献与申报者本人的学位论文或者会议论文有相似片段, 则剔除申报者本人学位论文和会议论文相似部分,不计算重合率。以某篇检测文献为例,如图 1所示,该文献总文字复制比为 50.3%,但是去除本人学位论文会议论文之后,文字复制比为 3.9%,符合要求。
但是,因数据库收录时着录内容、着录人员等因素影响,某些文献着录信息缺失, 导致系统无法自动对应到某位作者名下予以剔除,因此会导致文字复制比较高。 解决方法,一是手动计算相似片段字数与原文字数的比例,从总文字复制比中减去;二是向数据商或更高权限账户提交申请, 从数据库中直接剔除本人该篇学位论文或会议论文,重新检测。
6结 语
外文文献因其原文格式、 发表收录以及外刊出版等多种原因,表现出复杂性、多样性的特点,要求检测人员具备较高的专业素质和外语水平。 在相似性检测过程中除了常规流程操作,更应具体情况具体分析,在公平、公正的前提下,采取灵活化、人性化的检测方法和技巧,保证检索信息无误、查全查准,检测结果真实、准确。