随着计算机泛互联网技术的迅猛发展, 世界已经转移到以数据为中心的范式上---“大数据”时代。由于“大数据”时代的到来,科学数据更加成为国家科学可持续发展的重要资源, 与国家科技创新密不可分。我国是科学数据的资源大国,但同时也是科学数据管理欠完善的国家。与英美等国家相比,我国科学数据的研究工作起步较晚。
科学数据从产生到管理、 利用的过程中会有不同的主体参与进来,包括政府和基金组织、研究者和研究机构、数据中心、数据出版机构、机构的 IT 部门、图书馆等,相关工作涉及统筹规划,政策导引,科学数据的获取、保存、管理等[1],相关研究涉及管理学、图书情报学、自动化、计算机及产生数据的相关学科等领域, 其中管理学和图书情报学属社会科学研究领域, 社科领域科学数据的相关研究对促进其有效保存、完善管理和充分利用具有重要意义。
中国社会科学引文索引(Chinese Social SciencesCitation Index,CSSCI) 是由南京大学中国社会科学研究评价中心研发的引文数据库, 是我国人文社会科学文献信息查询与评价的重要工具。 目前收录包括法学、管理学、经济学、历史学、政治学等在内的25 大类 500 多种学术期刊。 CSSCI 遵循文献计量学规律,采取定量与定性相结合的方法从全国 2700 余种中文人文社会科学学术性期刊中精选出学术性强、编辑规范的期刊作为来源期刊,CSSCI 源刊包含了我国人文社会科学学术界影响较大的中文期刊。
本文以 CSSCI 为数据源,运用文献计量方法,从论文发表年度、作者分布、机构分布、期刊分布、词频统计及研究热点等方面, 对在国内发表的关于科学数据研究的社会科学类高质量论文进行梳理、总结,从而揭示我国学者关于科学数据在社会科学领域的研究现状和热点,以期为今后的研究提供参考。
1 数据来源
分析数据来源于 CSSCI,以“科学数据 or 科研数据 or 研究数据”为检索式,分别选择“篇名”和“关键词”检索字段,检索 2013 年及以前的文献,合并数据,剔除会议综述等篇目,并去除重复数据,最终获得研究性期刊论文 125 篇,检索日期为 2015 年 1 月5~6 日。 由于在检索时 2014 年数据尚不完整,本文没有选取该年的数据。 本文主要利用 Excel、Note-Express、Ucinet 等工具对数据进行统计分析。
2 统计分析结果
2.1 发文量的年度分布
图 1 为论文的年度发文量情况。 从 2000 年开始关于科学数据的研究有 CSSCI 论文发表,但到 2007年年论文数不超过 10 篇,2008 年和 2009 年论文数达到 10 篇,后两年有所下降,2012 年增长到 16 篇,而到 2013 年数量急剧增长,达到 51 篇。 表明我国在社科领域关于科学数据的研究起步较晚, 前期很少有高质量论文发表,随着“大数据”时代的到来,科学数据的研究越来越引起相关学者的重视, 发文量急剧增长,发文质量也不断提高。
2.2 发文作者分析
在 125 篇 CSSCI 论文中, 作者的总数量为 199名,单独作者的文献有 41 篇,占文献总数的 32.5%;二人合着的论文有 53 篇,3 人合着的为 21 篇,3 人以上合着的为 10 篇,这表明我国学者对科学数据的相关研究以合作为主。从发文量来看,发表 CSSCI 论文在 3 篇以上的作者有 10 位,分别是钱鹏(6 篇)、江洪(4 篇)、郑建明(3 篇)、邢文明(3 篇)、涂勇(3篇)、殷沈琴(3 篇)、张计龙(3 篇)、司莉(3 篇)、刘润达(3 篇)和刘德洪(3 篇),表明这些作者在科学数据研究方面比较活跃。
选取频次为 3 及以上的活跃作者, 对其进行共现分析,得出作者合着网络图,如图 2 所示(图中点与点之间的连线表示两位作者的合作关系, 连线粗细表示作者之间联系的紧密程度) . 从图 2 可以看出,这 10 位作者组成 5 个合作网络。 在科学数据研究方面,钱鹏发表 CSSCI 论文 6 篇,总数最多,所在机构为东南大学图书馆,2011 年和 2012 年发表的论文为其在南京大学信息管理学院攻读博士时与郑建明发表的论文,2013 年发表论文时其在东南大学图书馆工作,合作者为孟祥保,所发表的论文都是基于教育部人文社会科学基金 “高校科学数据的组织与服务研究” 的资助。 其次江洪发表 CSSCI 论文 4篇,所在机构为中国科学院武汉文献情报中心(原中国科学院国家科学图书馆武汉分馆),其合作者为刘德洪和钟永恒, 发文时间集中在 2008-2009 年,论文为湖北省科技厅 “科学数据共享机制与制度的研究”项目的研究成果。 在另外 3 个合作团队中,以刘润达为核心的合作者, 主要来自中国科学技术信息研究所,主要合作者为彭洁、涂勇、董诚、赵伟,CSSCI论文均在两篇以上; 刘润达与北京理工大学管理与经济学院和中国科学院地理科学与资源研究所有过合作,研究基于不同的基金项目。以司莉为核心的合作团队,成员来自武汉大学信息管理学院,主要为研究生,发文时间为 2013 年,源于中央高校基本科研业务费专项资金资助项目 “我国科学数据共享保障机制研究”.以张计龙为核心的合作团队来自复旦大学图书馆,主要成员为殷沈琴,发文时间为 2013 年,项目源自复旦大学 985 项目 “复旦大学社会科学数据研究中心数据共享平台”.通过分析活跃作者及其合作网络发现, 发 CSSCI 论文较多的作者多是在资金资助的条件下进行相关研究的。
2.3 发文机构分析
将发文量 3 篇以上的 11 所发文机构列于表 1.
由表 1 可以看出, 关于科学数据的研究发表 CSSCI论文最多的机构是中国科学院, 发文量为 26 篇,是1构中国科学院国家图书馆、 中国科学院地理科学与资源研究所、中国科学院武汉文献情报中心、中国科学院计算机网络信息中心、中国科学院研究生院等,除 2.2 中分析的活跃作者及其团队中涉及的成员外, 发文数量 2 篇的作者为沈志宏、 刘细文和魏东原,其他作者均只发表 1 篇 CSSCI 论文,且各作者之间的合作较松散,没有形成稳定的研究群体。发文量排在第二位的是武汉大学, 发文机构为信息管理学院、图书馆和信息资源研究中心,除活跃作者及其团队中涉及的成员外,发文数量 2 篇的作者为洪正国、赖剑菲、项英、丁宁,且四人之间均有合作,机构为武汉大学图书馆,所发论文系 CALIS 三期预研项目“高校科学数据管理机制及管理平台研究”的研究成果,基于该项目武汉大学图书馆建立了研究团队, 发文时间为 2013 年。 第三位是南京大学,发文 9 篇,除郑建明外,其余作者均只发表 1 篇 CSSCI 论文,且各作者之间合作松散,也没有形成稳定的研究团队。第四位为中国科学技术信息研究所,发文 7 篇,发文来自核心作者刘润达的合作网络。 其他发文较多的机构为科研院所和高校的管理学院及图书馆。 研究的主体人员是图书情报学和管理学的研究人员。
2.4 载文期刊分析
刊载科学数据研究论文的 CSSCI 期刊有 36 种,主要为图书情报学类和管理学类期刊, 其中刊载 4篇以上论文的 12 种期刊中图书情报学类为 10 种(见表 2),还有 2 种是管理学类期刊。 《图书情报工作》 期刊的载文量达 24 篇, 占总样本文献量的19.2%,是我国社科领域科学数据研究的主要交流阵地。 其次《情报理论与实践》载文量为 11 篇,第三位是《图书馆杂志》,载文量为 8 篇,3 种期刊累积载文数量所占比例为 34.4%.