学术堂首页 | 文献求助论文范文 | 论文题目 | 参考文献 | 开题报告 | 论文格式 | 摘要提纲 | 论文致谢 | 论文查重 | 论文答辩 | 论文发表 | 期刊杂志 | 论文写作 | 论文PPT
学术堂专业论文学习平台您当前的位置:学术堂 > 毕业论文 > 硕士论文

科研人员数据重用意愿的影响因素探析

来源:吉林大学 作者:张彤彤
发布于:2020-08-25 共19551字
  摘要 
 
  随着科研数据开放共享的兴起,各个科研机构都在积极推动数据共享平台的建立,科研数据资源呈现出巨大的价值。科研数据开放共享的目的之一便是进行科研数据重用。然而,我国对于科研数据重用的研究并不丰富,数据重用情况较差,这造成了对科研数据资源和科研数据共享平台的浪费。因此,本文将从科研人员角度出发,分析影响科研人员进行数据重用行为意愿的因素,从而推动科研数据重用的发展。本文首先以信息使用环境理论为基础,形成内容分析框架,采用文献调研方法对我国图书情报领域数据重用行为现状进行调查;为了更好的了解科研数据重用的特点,对属于使用数据的科研数自建行为进行分析,并采用 LDA 主题模型对科研数据重用和自建类文献进行主题挖掘,多角度比较两者的联系与区别。然后,在信息使用环境理论、期望确认理论、感知风险理论、自我决定理论与技术接受模型相结合的基础上对影响数据重用行为意愿的因素进行探究,提出八个变量:科研人员特征、内部资源支持、研究主题、感知质量、感知风险、内部动机、外部动机。通过发放问卷调查,采用单因素方差分析、多元回归分析等定量分析方法探析影响科研人员数据重用意愿的因素。
 
  根据文献调研和问卷调查的实证研究得出以下结果:(1)科研人员的学历、职业角色、所属机构以及所属机构的层次分别对科研数据重用有着不同的影响。学历越高,科研数据重用行为越多;高校教师和研究生是进行科研数据重用行为的主力军;所属机构层次越高,科研数据重用行为越多。(2)科研数据重用行为存在数据引用不规范的情况,应该加强不同类型数据引用规范。(3)科研数据重用人员使用的数据类型大多为数据集和语料库,文本类数据大于结构化数据;数据语种中文多于英文;数据来源大多为高校,其次是公开网站和机构。(4)科研数据重用和数据自建行为在科研人员特征和组织机构方面不存在明显差别;二者在数据类型与研究主题方面存在不同之处:科研数据重用主题主要为情感分析、文本分类等以文本类数据为主的研究;科研数据自建主题主要为网络爬虫、问卷调查、影响因素等以结构化数据为主的实证研究。(5)研究主题、感知质量、内部动机、外部动机对于科研数据重用意愿产生正向影响;感知风险对于科研数据重用意愿产生负向影响。
 
  关键词:科研数据重用;内容分析;LDA 主题模型;影响因素;多元回归模型;
Abstract 
 
  With  the  rise  of  open  sharing  of  scientific  research  data,  variousscientific research institutions are actively promoting the establishmentof data sharing platforms, and scientific research data resources have showngreat value. One of the purposes of open sharing of scientific research datais to reuse scientific research data. However, China's research on scientificresearch data reuse is not rich, and the situation of data reuse is poor,which leads to the waste of scientific research data resources and scientificresearch  data  sharing  platform.  Therefore,  from  the  perspective  ofresearchers, this paper will analyze the factors that influence researchers'
 
  data reuse behavior, so as to promote the development of research data reuse.
 
  Based on the information use environment theory, this paper first forms acontent analysis framework, and adopts the literature research method toinvestigate the current situation of data reuse behavior in the field oflibrary  and  intelligence  in  China.  In  order  to  better  understand  thecharacteristics of scientific research data reuse, the self-built behaviorsof scientific research data that belong to the use of data were analyzed,and the research data reuse and self-built literature were subject mined byLDA thematic model, and the connection and difference between them werecompared  from  multiple  perspectives.  Then,  in  the  use  environment  ofinformation theory, expectation confirmation theory, perceived risk theory,self-determination, on the basis of the combination of theory and technologyacceptance model to explore the factors influencing data reuse behavior, putsforward  eight  variables:  the  characteristics  of  scientific  researchpersonnel,  internal  resources  to  support,  research  subject,  perceivedquality,  perceived  risk,  internal  motivation  and  external  motivation.
 
  Through the questionnaire survey, quantitative analysis methods such asone-way analysis of variance and multiple regression analysis were used toexplore the factors affecting the data reuse of researchers.
 
  According  to  the  empirical  research  of  literature  survey  andquestionnaire survey, the following results can be obtained :(1) the academicbackground, professional role, institution and the level of institution ofscientific researchers have different influences on the reuse of scientificresearch data. The higher the degree, the more scientific research data reusebehavior;  University  teachers  and  postgraduates  are  the  main  force  ofresearch data reuse. The higher the organization level, the more scientificresearch data reuse behavior. (2) data reference is not standardized inscientific research data reuse behavior, so different types of data referencespecifications should be strengthened. (3) data types used by researcherswho reuse scientific data are mostly data sets and corpus, and text-baseddata is larger than structured data. Data languages are more Chinese thanEnglish;  Most  of  the  data  comes  from  universities,  followed  by  publicwebsites and institutions. (4) there is no significant difference in thecharacteristics and organizational structure of researchers in the behaviorof scientific research data reuse and data self-construction; There are somedifferences between the two in terms of data types and research topics: theresearch  data  reuse  topics  mainly  include  emotion  analysis,  textclassification  and  other  researches  based  on  text  data;  The  self-builtscientific research data mainly focus on web crawler, questionnaire survey,influencing factors and other empirical studies based on structured data.
 
  (5) research topic, perceived quality, internal motivation and externalmotivation have a positive impact on the intention of scientific researchdata reuse; Perceived risk has a negative impact on research data reuseintention.
 
  Keywords:  content  analysis  of  scientific  research  data  reuse;LDA  thememodel;influencing factors;multiple regression model;

  目录
 
  第 1 章 绪论 .............................................................................................................................. 1
 
  1.1 研究背景 ......................................................................................................................... 1
 
  1.1.1 科研数据的多样性及价值 ....................................................................................... 1
 
  1.1.2 科研数据的共享与开放 ........................................................................................... 1
 
  1.1.3 科研数据重用的兴起 ............................................................................................... 2
 
  1.2 研究意义 ......................................................................................................................... 3
 
  1.2.1 理论意义 .................................................................................................................. 3
 
  1.2.2 实践意义 .................................................................................................................. 3
 
  1.3 研究现状 ......................................................................................................................... 4
 
  1.3.1 国外科研数据重用研究现状 ................................................................................... 4
 
  1.3.2 国内科研数据重用研究现状 ................................................................................... 6
 
  1.4 研究内容与方法 .............................................................................................................. 8
 
  1.4.1 研究内容 .................................................................................................................. 8
 
  1.4.2 研究方法 .................................................................................................................. 9
 
  1.5 本章小结 ....................................................................................................................... 10
 
  第 2 章 相关理论研究 ............................................................................................................. 11
 
  2.1 信息使用环境理论 ........................................................................................................ 11
 
  2.2 期望确认理论 ................................................................................................................ 11
 
  2.3 感知风险理论 ................................................................................................................ 12
 
  2.4 自我决定理论 ................................................................................................................ 13
 
  2.5 技术接受模型 ................................................................................................................ 14
 
  2.6 本章小结....................................................................................................................... 15
 
  第 3 章 科研数据重用行为现状研究 ...................................................................................... 16
 
  3.1 科研数据重用行为分析框架 ......................................................................................... 16
 
  3.2 科研数据重用行为数据分析 ......................................................................................... 18
 
  3.2.1 数据来源 ................................................................................................................ 18
 
  3.2.2 科研数据重用总体情况统计 ................................................................................. 19
 
  3.2.3 科研数据重用人员特征 ......................................................................................... 20
 
  3.2.4 科研数据重用行为分析 ......................................................................................... 21
 
  3.2.5 科研人员数据重用行为总结 ................................................................................. 24
 
  3.3 科研数据自建行为数据分析 ......................................................................................... 25
 
  3.3.1 数据来源 ................................................................................................................ 25
 
  3.3.2 科研数据自建人员特征 ......................................................................................... 26
 
  3.3.3 科研数据自建行为分析 ......................................................................................... 27
 
  3.4 科研数据重用行为与自建行为对比分析 ...................................................................... 29
 
  3.5 科研数据重用与自建文献主题对比 ............................................................................. 30
 
  3.5.1 LDA 主题模型介绍................................................................................................. 30
 
  3.5.2 科研数据重用文献主题 ......................................................................................... 31
 
  3.5.3 科研数据自建文献主题 ......................................................................................... 32
 
  3.6 本章总结 ....................................................................................................................... 33
 
  第 4 章 科研数据重用行为意愿影响因素分析与假设的提出 ................................................ 34
 
  4.1 科研数据重用行为影响因素分析 ................................................................................. 34
 
  4.1.1 科研人员特征 ........................................................................................................ 34
 
  4.1.2 内部资源支持 ........................................................................................................ 35
 
  4.1.3 研究主题 ................................................................................................................ 35
 
  4.1.4 感知质量 ................................................................................................................ 36
 
  4.1.5 感知风险 ................................................................................................................ 36
 
  4.1.6 内部动机 ................................................................................................................ 37
 
  4.1.7 外部动机 ................................................................................................................ 38
 
  4.1.8 科学数据重用意愿................................................................................................. 38
 
  4.2 假设模型构建 ................................................................................................................ 38
 
  4.3 本章小结 ....................................................................................................................... 39
 
  第 5 章 实证研究 ..................................................................................................................... 40
 
  5.1 科研数据重用行为意愿影响因素研究问卷设计与数据收集 ....................................... 40
 
  5.2 描述性统计分析 ............................................................................................................ 41
 
  5.3 信度与效度检验 ............................................................................................................ 42
 
  5.3.1 信度检验 ................................................................................................................ 42
 
  5.3.2 效度检验 ................................................................................................................ 42
 
  5.4 单因素方差分析 ............................................................................................................ 45
 
  5.4.1 单因素方差分析概述 ............................................................................................. 45
 
  5.4.2 单因素方差分析 .................................................................................................... 45
 
  5.4.3 多重比较 ................................................................................................................ 46
 
  5.5 多元线性回归分析 ........................................................................................................ 49
 
  5.5.1 残差正态性检验 .................................................................................................... 49
 
  5.5.2 异方差检验 ............................................................................................................ 50
 
  5.5.3 相关性分析 ............................................................................................................ 50
 
  5.5.4 多重共线性检验 .................................................................................................... 51
 
  5.5.5 多元回归分析模型检验及结果 ............................................................................. 52
 
  5.5.6 本章小结 ................................................................................................................ 55
 
  第 6 章 总结与展望 ................................................................................................................. 56
 
  6.1 总结 ............................................................................................................................... 56
 
  6.2 研究局限与展望 ............................................................................................................ 56
 
  参考文献 .................................................................................................................................. 58
 
  附录 .......................................................................................................................................... 62
 
  致谢 .......................................................................................................................................... 66

  第 1 章 绪论 
 
  1.1 研究背景 
 
  1.1.1 科研数据的多样性及价值 
 
  随着大数据环境的到来,数据获取、数据挖掘技术的飞速发展,产生了数据洪流。伴随现代科学的进步,科学研究中的核心部分已然为数据,其既是研究对象,又是战略资源[1]。数据的表现形式多种多样,国家科学院提到数据是指描述一个对象、方法、条件、状态和其他因素的事实、数字、文字和符号,可以看出,数字并不是数据的唯一形式,数据还有很多实体形式。科研数据含义广泛,左建安学者[2]提到人类在进行科研活动时会产生不同类型的数据,包括原始观测数据、探测数据、实验数据、试验数据、考察数据、调查数据、遥感数据、研究数据、统计数据以及相关的元数据和按照某种特定需求系统加工的数据,这些数据统称为科研数据。科研数据是科研创新的动力源泉,科研数据不仅具有科研价值,同时也具备社会价值和经济价值。
 
  1.1.2 科研数据的共享与开放 
 
  面对科研数据蕴含的巨大价值,科研数据的需求不仅仅存在于政府、科研机构以及企业,社会公众也越来越需要科研数据。因此,数据的共享与开放成为现代科学研究的一个重点问题。美国国家科学基金会(NSF)、国家卫生研究院(NIH)和国家癌症研究所(NCI)为了推进科学家的数据共享,制定了数据共享的管理服务计划,并对其进行适当的奖励以此促进知识创建和管理。许多国际组织、国家政府机构、科研机构等科研数据共享利益者加强对科研数据开放共享的价值的重视,并积极制定政策以推动科研数据开放共享,为科研数据的知识产权与科研人员的利益提供保障,注重开放共享的科研数据的质量与互操作性。科研数据开放共享平台广泛建立,提高了科研数据的透明性、可重复性与延续性,同时为科研人员提供了获取数据的途径。目前科研数据开放共享主要有三种途径[3],分别是数据知识库、数据期刊和数据期刊的说明文件,同时科研人员也在探究科研数据开放共享的内容审核、格式规则以及引用要求,旨在保障参与科研数据共享的科研人员的权益。对于影响科研数据开放共享的因素,国内外学者也进行了大量调查与研究。可以看出,各个机构为了推动数据开放共享都在付出努力,数据开放共享的目的之一就是进行数据重用,减少科研过程中的重复工作,进一步挖掘科研数据潜藏的价值,实现科研数据资源利用最大化。
 
  1.1.3 科研数据重用的兴起 
 
  随着研究数据不断开放,在可以获取的其他科研人员的数据成果上进行再研究是科学研究的另一种重要模式。在这种模式中,科研数据不仅是至关重要的科研产出,也是推动在原始数据基础上进行再一次科学研究进程的基础。国内学者对于科研数据重用的定义为科研人员通过对数据论文的内容及其数据集进行再分析、验证和得出新结果,在他人的研究基础上深化研究,形成一定的研究成果,这样可以缩短科研周期。国外学者 M. Law[4]提出数据重用是一个数据集再分析的过程,或者用新的方法解决原始研究问题以便组合成不同的数据集,或者基于之前的数据但是不拘泥于原始数据的采集以解决新的问题。科研数据重用的过程主要包括重新占有数据、重建数据、重新分段数据、重新构建数据与重新验证数据五个部分。科研数据重用的特点是科研数据是由非本小组科研人员所收集的数据,而是采用其他科研人员的数据并用于研究过程产生新的成果,通常需要通过数据期刊、数据共享平台等途径获取数据。例如,Nature、Science 等出版社的部分期刊要求学者在文章发表之前,需要提交相关数据并进行公开发表;数据期刊的出现也为数据重用提供了便利,数据论文作为该种期刊论文的形式出版,论文中的数据集会存放在数据中心。科研数据重用为科研活动提供新途径,减少科研人员收集数据的时间与成本;提高科研人员的研究和生产力,推动科学进步与发展;通过重用数据,科研人员之间联系增强,其相互之间的沟通交流可以促进科研纵向发展;同时促进数据引用规范、数据监管、数据管理等各个方面的完善,构建科学合理的数据重用机制与数据相关权益制度,为科研人员营造良好的氛围。
 
  1.2 研究意义 
 
  1.2.1 理论意义 
 
  本文将信息使用环境理论、期望确认理论、感知风险理论、自我决定理论与技术接受模型相结合。首先以信息使用环境理论为基础,形成内容分析框架,对我国图书情报领域数据重用行为现状进行调查;然后,在上述理论的基础上探究科研数据重用意愿影响因素。一方面,在对科研数据重用相关的文献进行全面分析的前提下,采用内容分析法与 LDA 主题模型对科研数据重用行为与科研数据自建行为分析,通过对比分析进一步了解科研数据重用行为的特点;另一方面,通过发放问卷调查,采用定量分析方法探究影响科研人员数据重用意愿的因素。综上,可以丰富我国关于数据重用研究的理论与层次,从客观与主观角度出发,分析科研数据重用现状与影响重用意愿的因素。
 
  1.2.2 实践意义 
 
  科研数据重用问题与数据共享开放密切相关,只有当科研数据被重用,科研数据开放共享才会实现其价值;通过分析科研数据重用,可以发现目前在科研数据重用过程中存在的问题以及阻碍其发展的因素,提出相应对策,进而推动数据共享开放。主要有以下五点意义:第一,保护数据所有者的权益,提升数据所有者的信任感,支持数据共享;第二,规范科研数据重用行为,形成数据重用参考文献标准;第三,推动数据仓储与共享平台的发展,多渠道获取数据,减少科研人员重用数据的成本与时间,推动科研发展。第四,推动图书馆、科研机构等提供数据服务的组织更好管理数据,改善数据共享与数据服务,提高数据利用率。
 
  1.3 研究现状 
 
  1.3.1 国外科研数据重用研究现状 
 
  国外,许多研究探索了数据重用实践与数据重用的障碍或促进因素,这些研究涉及到生态学、地震科学与工程、环境规划以及考古学等各个领域,由于学科不同,因此关于数据重用的发现并不总是一致的。值得注意的是,数据重用与数据引用有一定区别。数据重用是数据引用的一种功能表现,是在原始数据的基础上进行再研究并得到结果。J. C. Wallis[5]学者通过分析引用数据的行为,发现科研人员倾向于引用观测类数据用作研究的背景来进行概述。而本文论述的数据重用是一个数据集再分析的过程,用新的方法解决原始研究问题以便组合成不同的数据集来解决新的问题。
 
  在科研数据重用行为与影响因素方面,McCall and Appelbaum[6]学者指出了由于数据重用者一般不熟悉所引用数据的细节,因此需要在使用数据进行研究之前,需要花费时间来吸收关于数据的信息。而科研数据专家与其他学者在科研数据重用感知与行为方面存在不同,说明数据素养会影响科研人员理解数据与数据重用的行为[7]。Yoon[8]学者在研究了数据重用者的行为后,发现数据重用过程中会出现深入理解数据而形成的学习曲线。数据所在的文献上下文信息的可用性对数据的重用很重要,重用者是从已知的各种信息来源搜索上下文信息,例如期刊、数据文档、数据生产者、专家和其他用户社区等来源,不同的社会属性、机构属性、个人因素都会影响数据重用者的行为和实践。Faniel[9]学者在研究中也提到数据重用的一个基本挑战是数据是嵌入到文献上下文中的,其本质是数据生产者的隐性知识、理论知识和技术知识,重用者一般难以像原始数据的研究人员一样理解数据,尤其在跨学科背景下。Birnholtz[10]学者同样指出数据所在的文献上下文信息的可用性对数据的重用很重要。
 
  Curty[11]学者发现社会科学家的数据重用意图主要受重用数据所涉及的感知利益的影响。NIu[12]学者指出信息需求是影响重用行为的最主要因素,他发现重用者会优先使用他们最需要的数据,如果他们认为数据与他们的研究是相关的,他们会找到一种使用数据的方法,即使过程可能涉及到一些意想不到的挑战。Yakel[13]学者指出数据的可获得性与科研人员是否使用数据有着强相关性。数据获得方式中数据储存库可以提高使用者对原始数据的信任程度,促进数据重用产生研究成果。同时,其他学者发现科研人员会通过利用经验来判断获得的数据是否可信[14],进一步通过能力、诚信、凭证、声誉以及数据的可理解程度对数据共享者的可信度进行评估[15]。Y. K. Joo[16]学者采用基于综合框架理论的定量分析方法,调查了美国工程学领域的科研人员的数据重用行为,发现感知有用性、感知忧虑性以及主观规范与数据重用态度显着相关,而科研数据重用的态度受到数据可获取性与重用意愿的影响。
 
  原始数据的规范与数据重用的规范也对科研人员重用数据有影响。数据规范与数据追踪即数据获取密切相关,而数据获取的途径又与重用数据有着直接联系。Rolland[17]等学者指出由于没有规范的数据来源或系统,数据重用者需要穷尽各种方式来获得数据。C.Scaffid[18]等人发现科研人员在获取资源方面存在困难,获取到的数据在完整性方面无法得到保证,由于缺少统一的分类、系统或来源,重用者需要采取多种策略获取数据。Ann S. Zimmerman[19]学者对 13 位重用数据的生态学家进行半结构化深入访谈,指出生态学家对数据的理解是数据重用的关键,而标准的数据收集方法可以使生态学家更容易做到理解数据以及推动数据共享。由此,可以看出数据的规范化与数据的可理解性与获得性相关。Hyoungjoo Park[20]等学者在对生物医学领域数据重用的研究中指出,非正式的数据引用可能是由于原始数据研究人员对数据重用者的不信任,当他们获得信任时,研究人员更倾向于分享他们的研究成果,因此正式的引用或承认对于数据来说是很重要的,正式的引用是数据共享者的必要奖励。Albert[21]学者对开放的数据重用标准进行了探究,提出一个新的度量标准“Meloda”,对信息进行了限定,并帮助评估其可重用性,Meloda 有四个维度:技术标准、访问、法律考虑和数据模型。
 
  图书情报属于社会科学领域,社会科学中的数据不同于前文所说的生物等硬学科中的数据,数据一词通常被理解为是数值文件,这就意味着定量数据一直是数据最主要的表现形式,然而在社会学科中,大部分数据都是以定性数据的形式存在的,不同于基于实验室或其他科学研究得到的数据,通常包括对人类受试者的观察和非结构化格式(例如,访谈记录、调查数据)。由于涉及到人类主体,理解和解释这些数据需要详细的上下文信息。部分学者使用理论方法或模型来解释社会科学领域学者的数据重用行为。Borgman[22]学者认为数据重用增加了研究的可能性并节省了数据收集成本。在以社会科学家为研究对象的实证研究,提出了人们所认为的好处以及使用现有数据的动机,包括数据重用者对原始数据有用性的认识、重用数据的成本效益、使用大样本数据的能力以及将数据重用于培训和教育的方便性。尽管数据重用有潜在的好处,但许多社会科学家仍然对科研数据重用存在担忧,因为相对于定量数据,定性数据更加复杂。有研究称定性研究人员会更加关注潜在的伦理违规,因为定性研究涉及直接与人类主体的互动。Ayoung Yoon[23]学者以计划行为理论和技术接受模型为基础,探究了社会科学家的科研数据重用行为,提出可能影响数据重用行为的影响因素;结果表明社会科学家的数据重用意图直接受到主观因素包括科研数据重用的规范、科研数据重用的态度以及在科研数据重用过程中所涉及的工作的影响;数据存储库的可用性通过减少感知的努力间接地影响了社会科学家重用数据的意图。Claire C. Austin[24]学者指出数据发布领域是变化的、动态的,而且确实存在重大差距和挑战。数据发布系统的不同组件需要在最大程度上以无缝集成的方式工作。因此,提倡对存储库和所有部分实施现有的标准的数据发布过程,并在必要时制定新的标准。规范的数据使用标准与上下文信息说明会减少科研人员进行科研数据重用的担忧。
 
  1.3.2 国内科研数据重用研究现状 
 
  国内,徐延强[25]学者提到大数据时代为科研数据重用奠定了基础,在当今信息时代,数据不可或缺。数据引用行为与数据重用行为之间有着密不可分的联系,许多学者探究了数据引用与数据重用的关系。其中,谢娟[26]学者立足图书情报领域,研究了使用数据与引用数据间的关系,指出就科学传播而言,使用数据与引文数据间呈互补关系,将二者作为独立的单元来看,由于强相关性,其又呈可替代关系。使用行为是正式交流产物,而引用数据形成于正式交流过程中。赵蕊菡[27]学者利用引文分析方法对科学数据论文的重用现状进行了研究,立足于科学数据论文,从引用现状和引用动机研究,探索了数据分享行为与利用之间的关系。丁楠[28]学者从数据引用的角度出发,探究了数据引用机制,指出目前数据引用行为存在学科不均衡、数据引用不规范、数据追踪有阻碍以及数据质量评价机制弱等问题。
 
  科研数据重用行为研究包括对数据重用的动机、影响因素等的研究。彭洁[29]学者发现为自己的科研成果提供证据或者验证其他科研人员的成果、保证数据链接的唯一性和长久性这两方面是科研人员进行数据重用的主要动机。王雪[30]学者立足于科研数据引用行为以及其影响力,发现中英文文献在数据引用方面存在差异。英文文献数据再利用率相对较高,数据引用规范性更好。文静[31]学者发现数据质量、数据来源、科研人员的个人特征以及科学数据重用规范等因素都会对科研数据重用行为产生正向影响。其中,李梅[32]学者对开放环境下的数据引用进行了探析,提出了影响数据引用行为的因素有政策和机构基础设施与技术支持两个因素。李佳璐[33]提出明确科学数据质量评价指标与质量控制、开展科研人员数据素养继续教育、构建开放的科学环境、优化数据仓储与数据共享平台的功能与服务以及明确数据产权与利益相关者的权益的策略可以促进科研数据重用行为。
 
  由于数据重用主体的差异性,相关研究分别从高校研究人员与社会研究人员入手分析。出于科研数据需求,科研人员为了满足这一需求会产生对检索方式、数据服务、数据仓储等方面的需求及利用行为。图书馆是学生获取信息资源的重要场所,高校的博士生与硕士生不仅是学习的主体,也是科研主力,这决定了他们对信息的需求。洪程[34]学者对高校研究生科学数据需求与利用情况进行了研究。通过问卷调查实证研究,洪程学者发现尽管大多数研究生对图书馆提供的数据服务认识较少,但是并不影响他们对图书馆开展该项服务的支持度。沈婷婷[35]学者以社会研究学者为对象,研究了他们关于二手数据使用的行为;发现使用二手数据的科研行为不断增加,并且科研人员对于数据的时效性和可用性的关注度逐渐提高,二手数据的使用年限一般以 10 年为界限。张晓阳[36]学者测评了高校研究生的数据素养能力,以数据的生命周期流程为基础,发现研究生具备较强的数据意识与数据收集能力,这体现了研究生对于数据的需求;但是在数据分析与挖掘等数据处理的核心方面,研究生所呈现出的能力相对较弱,这启发高校、科研机构等应该不仅仅为研究生提供数据,更应该培养研究生数据分析与处理的能力。
 
  数据重用涉及到多方面主体的利益,张闪闪[37]学者提出科研人员、科研机构、科研资助机构、图书馆和数据中心、高校等都是科研数据重用的主体以及利益相关者。科研数据重用的权益研究应当关注利益相关者的主要权利及各权利的使用条件,确定不同的科研主体对科研数据重用拥有的不同权利标准。丁楠[38]学者研究了数据评价,发现以数据引用为出发点,可以相对公正、有效率地评估科研数据的存储与公开发布机构的影响力,保障科研人员的权益。张梦霞、顾立平[39]学者对数据监管方面的政策进行了研究,发现数据监管下的数据具有更高的质量价值,图书情报领域对数据监管开展了一系列措施:构建科研数据知识库、加强科研数据监管、完善科研数据遴选标准、制定科研数据存储规范与构建科研数据交流机制等,这些措施对于科研数据重用涉及到的主体利益有一定保障作用。
 
  总体来看,国外对于科研数据重用的研究较为深入,在理论基础的支撑上,采用结构化访谈、问卷调查等实证研究方法,着重研究数据重用行为本身以及影响数据重用行为的因素。而国内研究聚焦在数据重用行为,主要从数据重用现状进行着手,而忽视了对影响数据重用行为的因素深层次挖掘;没有明确数据引用与数据重用的联系与区别,对于数据重用行为本身的研究较少,大部分研究主要从数据重用过程中涉及的权益及监管等外部问题出发,提出对策。本研究试图通过对文献中数据重用行为现状进行客观研究,进而以科研人员为研究对象,在相关理论基础之上,形成科研数据重用意愿影响因素模型,采用实证研究方法进行探索。
图 2-1 期望确认理论模型 


图 2-2 技术接受模型 




图 3-2 科研数据重用文献与期刊文献统计 

表 3-1 科研数据重用人员个人特征与组织特征交叉分析表 


表 3-2 科研人员数据重用行为规则分析 



 …………由于本文篇幅较长,部分内容省略,详细全文见文末附件
 
  第 6 章 总结与展望 
 
  6.1 总结 
 
  本文研究了图情领域科研数据重用行为的现状和影响科研人员进行数据重用的因素两部分。对于第一部分,首先,采用文献调研和内容分析的方法,对科研人员数据重用行为进行了探索,得出结论,科研人员的学历越高,进行科研数据重用的可能性越大;高校的科研人员是进行科研数据重用行为的主力军;层次等级越高的机构进行科研数据重用行为的越多;科研数据重用规范存在不标准的情况,这与数据类型有关系,应该完善不同数据类型的引用标准;在图情领域,进行科研数据重用的数据类型主要是数据集、语料库和词典。同时,为了更近一步了解科研数据重用的特点,对科研数据自建行为进行了分析,对比两种行为最后总结得出,二者在科研人员特征、组织环境方面并没有太大差异;在科研数据类型上存在一些差别,相对于数据自建行为建立的数据类型大多是数据集类型,科研数据重用行为使用的数据大多是语料等文本类数据。最后,对科研数据重用文献和自建文献使用LDA主题模型进行挖掘,证实二者在研究主题方向存在差异。
 
  对于第二部分,首先在调研与本研究相关的文献的基础上,提出科研人员数据重用行为意愿影响因素的八个变量,即科研人员特征、内部资源支持、研究主题、感知质量、感知风险、内部动机、外部动机和重用意愿,以重用意愿作为因变量,提出七个假设。接着,采用问卷调查的实证研究方法,以科研人员为目标对象进行发放问卷;最后,分析问卷,对数据进行描述性统计分析、信效度检验、单因素方差分析、多元回归假设检验和逐步回归多元模型,最后得出研究主题、感知质量、内部动机、外部动机对科研数据重用意愿产生正向影响;感知风险对科研数据重用意愿产生负向影响。
 
  6.2 研究局限与展望 
 
  本文在分析科研人员数据重用行为和科研数据重用行为意愿影响因素方面,存在以下不足。
 
  对于科研数据重用文献的调研不够全面,期刊类型较少,文献数量不够多;没有对科研人员所使用的数据进行具体追踪,分析数据来源的可靠性;样本容量不够大,调查人员学科领域分布不均匀;被调查者职业角色不够全面,主要侧重于高校硕士生;所属机构也比较单一。由前文分析可知,不同的学历背景与职业机构的科研人员对于数据重用的看法存在差别,期望在未来的研究中将样本量扩大,同时有区别性的对待不同学科领域的科研人员分别进行调查。对于影响科研数据重用行为意愿的变量不够全面,一些变量与科研数据重用意愿之间可能存在的关系没有得到证实,期待在未来研究中,提出更多变量并进行验证,完善影响科研人员数据重用意愿的影响因素分析,更好的促进科研数据重用的发展,发挥数据资源的价值。

  参考文献 
 
  [1]姜鑫.国际图书情报领域“科学数据”研究进展述评——基于 SCI/SSCI 期刊论文的内容分析[J].现代情报,2018,38(12):144-150.
  [2]左建安,陈雅.大数据时代的科学数据共享模式研究[J].新世纪图书馆,2014(03):32-35.
  [3]刘晶晶,马建华.论科研数据开放共享的三种途径[J].情报杂志,2015,34(10):146-150+96.
  [4]M.Law.Reduce,Reuse,Recycle:Issues  in  the  Secondary  Use  of  ResearchData.IASSIST Quarterly,29(1),5-10.
  [5]Wallis J C,Rolando E,Borgman C L. If We Share Data,Will Anyone Use Them?Data Sharing and Reuse in the Long Tail of Science and Technology[J].PlosOne,2013,8(7):e67332.
  [6]Mccall RB.Some issues of conducting secondary analyses.[J].DevelopmentalPsychology,1991,27(6):911-917.
  [7]Kriesberg A,Faniel I M,et al.The role of data reuse in the apprenticeshipprocess[C].Asis&t  Meeting:Beyond  the  Cloud:Rethinking  InformationBoundaries. American Society for Information Science,2013:17.
  [8] Yoon A. Data reusers'trust development[J].Journal of the Association forInformation Science & Technology,2016,68(4):946-956.
  [9]Faniel  I  M,Zimmerman  A.Beyond  the  Data  Deluge:A  Research  Agenda  forLarge-Scale  Data  Sharing  and  Reuse[J].International  Journal  of  DigitalCuration,2011,6(1):58-69.
  [10]Birnholtz J P,Bietz M J.Data at work:supporting sharing in science andengineering[J].AcmSiggroup Bulletin,2003,24(1):339-348.
  [11]Curty  R  G,Crowston  K,Specht  A,et  al.Attitudes  and  norms  affectingscientists' data reuse.[J].Plos One,2017,12(12):e0189288.
  [12]Niu  J.Overcoming  inadequate  documentation[J].Proceedings  of  theAmerican Society for Information Science & Technology,2015,46(1):1-14.
  [13]Yakel E,Faniel I,Kriesberg A,et al.Trust in Digital Repositories[J].International Journal of Digital Curation,2013,8(1):143-156.
  [14]Bawden D.Scholarship in the Digital Age:Information,Infrastructure,andthe Internet[M].The MIT Press,2007:636-637.
  [15]Van House,N.A.Digital libraries and the practices of trust:Networkedenvironmental information[J].Social Epistemology,2002,16(1) :99–114.
  [16]Kim  Y,Yoon  A.Scientists'  data  reuse  behaviors:A  multilevelanalysis[J].Journal  of  the  Association  for  Information  Science  &Technology,2017.
  [17]Rolland B ,Lee C P .Beyond  trust  and  reliability:reusing  data  incollaborative  cancer  epidemiology  research[C].Conference  on  ComputerSupported Cooperative Work. 2013:435-443.
  [18]Scaffidi   C,Shaw   M,Myers   B.  Games   programs   play:Obstacles   todata reuse[J].Proc.symp.user Interface Software & Technology,2006:9-18.
  [19]Zimmerman A S.New Knowledge from Old Data[J].Science Technology & HumanValues,2008,33(5):631-652.
  [20]Hyoungjoo Park,Sukjin You,Dietmar Wolfram. Informal Data Citation forData Sharing and Reuse Is More Common Than Formal Data Citation in BiomedicalFields[J].Journal  of  the  Association  for  Information  Science  abdTechnology,69(11):1346-1354, 2018.
  [21]Abella  A,Ortiz-de-Urbina-Criado  m,De-Pablos-Heredero  C.  Meloda,AMetric  to  Assess  Open  Reuse[J].El  Professional  de  laInformacion,2014,23(6):582-588.
  [22]Borgman C L. The Conundrum of Sharing Research Data [M].Journal of theAmerican Society for Information Science and Technology,2012.
  [23]Joo  Y  K,Kim  Y.  Engineering   researchers’data   reuse   behaviours:astructural  equation  modelling  approach[J].ElectronicLibrary,2017,5(2):1141-1161.
  [24]Austin C C ,Bloom T ,Dallmeier-Tiessen,Sunje,et al. Key components ofdata publishing: using current best practices to develop a reference modelfor  data  publishing[J].International  Journal  on  DigitalLibraries,,017,18(2):77-92[25] 徐 延 强 . 大 数 据 时 代 与 数 据 重 用 [J]. 信 息 与 电 脑 ( 理 论版),2018(05):132-133+137.
  [26]谢娟,龚凯乐,成颖,柯青.使用数据与引用数据间的补充或替代关系探讨[J].情报学报,2018,37(05):486-494.
  [27] 赵蕊菡 . 科学数据论文的重用现状研究——基于数据期刊“Earth SystemScience Data”的引文分析[J].情报理论与实践,2017,40(11):52-57+72.
  [28] 丁楠 , 潘有能 .数据引用索引工作机理与应用现状综析 [J].情报理论与实践,2014,37(06):59-62.
  [29]彭洁,贺德方,张英杰.数字出版环境中科学数据引用的实现路径及策略调查分析[J].出版发行研究,2014(04):57-61.
  [30]王雪,马胜利,佘曾溧,杨波.科学数据的引用行为及其影响力研究[J].情报学报,2016,35(11):1132-1139.
  [31]文静,何琳,韩正彪.科研人员科学数据重用意愿的影响因素研究[J].图书情报知识,2019(01):11-20.
  [32]李梅.开放环境下的数据引用探析[J].河南图书馆学刊,2017,37(11):128-130.
  [33]李佳潞. 科研人员数据重用行为影响因素及促进策略研究[D].东北师范大学,2019.
  [34]洪程,钱鹏.高校研究生科学数据需求与利用行为调查分析——以东南大学为例[J].国家图书馆学刊,2014,23(01):16-21.
  [35] 沈 婷 婷 . 社 会 学 研 究 者 对 二 手 数 据 利 用 行 为 分 析 [J]. 情 报 理 论 与 实践,2016,39(05):95-100.
  [36]张晓阳,李楣.基于胜任特征的研究生数据素养能力测评量表研究[J].图书情报工作,2017,61(08):89-95.
  [37]张闪闪,刘晶晶,顾立平,崔文健,张卓然.科研数据内容重用中的权益问题研究[J].图书情报知识,2018(01):105-113+94.
  [38]丁楠,黎娇,李文雨泽,白晋铭,潘有能.基于引用的科学数据评价研究[J].图书与情报,2014(05):95-99.
  [39] 张 梦 霞 , 顾 立 平 . 数 据 监 管 的 政 策 研 究 综 述 [J]. 现 代 图 书 情 报 技术,2016(01):3-10.
  [40]TaylorR S.Information use environments,in  progress in CommunicationScience[M].Norwich,NJ:Ablex,1991:217-255.[41]Oliver RL.A Cognitive Model for the  Antecedents  and  Consequencesof Satisfaction Decisions[J].Journal of Marketing  Research,1980,17(4):460-469[42]Bhattacherjee  A.Understanding  Information  Systems  Continuance:AnExpectation-Confirmation Model[J]. MIS Quarterly, 2001, 25(3):351-370.
  [43]Bauer R A, Consumer behavior as risk taking In R.S. Hancock(Ed.), DynamicMarketing  for  a  Changing  World[D].Chicago:  American  MarketingAssociation,1960(7):389-398.
  [44]Barach J A. Advertising Effectiveness and Risk in the Consumer DecisionProcess[J].Journal of Marketing Research,1969,6(3):314-320.
  [45]Cox D F, Rich S U. Perceived Risk and Consumer Decision-Making: The Caseof Telephone Shopping[J].Journal of Marketing Research,1964,1(4):32-39.
  [46]Cunningham, S.M. The Major Dimensions of Perceived Risk. In: Cox. D.F.,Ed.Risk Taking and Information Handing in Consumer Behavior[C].HarvardUniversity Press,1967.
  [47]Jacoby J, Kaplan L B, Szybillo G J.Components of Perceived Risk in ProductPurchase:  A  Cross-Validation.[J].Journal  of  Applied  Psychology,  1974,59(3):287-291.
  [48]Deci  E  L,Ryan  R  M.The  general  causality  orientations  scale:Self-determination  in personality[J].Journal  of  Research  in  Per-Sonality,1985,19(2):109-134.
  [49]Sheldon   K   M.   The   self ‐ determination   theory   perspective   onpositive mental health across cultures[J].World Psychiatry, 2012,11(2): 101-102.
  [50]Davis  F  D.  Perceived  Usefulness,  Perceived  Ease  of  Use,  and  UserAcceptance of Information Technology[J].MIS Quarterly, 1989, 13(3):319-340.
  [51]何婷婷.语料库研究[D].华中师范大学,2003[52]Singletary M.Mass communication research:Contemporary methods and applications[M].New York:Longman,1994.
  [53] 李 志 芳 , 邓 仲 华 . 国 内 开 放 科 学 数 据 的 分 布 及 其 特 点 分 析 [J]. 情 报 科学,2015,33(03):45-49.
  [54]BLEODM,NGAY,JORDAN  M  I.Latent  Dirichlet  allocation[J].Journal  ofmachine learning research,2003,3:993-1022.[55]Xiuze  Zhou,  Shunxiang  Wu.  Rating  LDA  model  for  collaborativefiltering[J].Knowledge-Based Systems, 2016, 110.
  [56]Alberto Dellacasa Bellingegni, Emanuele Gruppioni, Giorgio Colazzo,Angelo Davalli, Rinaldo Sacchetti, Eugenio Guglielmelli, Loredana Zollo.
  NLR, MLP, SVM, and LDA: a comparative analysis on EMG data from people withtrans-radial amputation[J]. Journal of NeuroEngineering and Rehabilitation,2017,14(1).
  [57]Arnfred  Sidse  Marie,Moller  Paul,Davidsen  Annette  Sofie.
  Approachingpatients with hyperreflectivity and perplexity: an empiricalqualitativeinvestigation.[J].Trends in psychiatry and psychotherapy, 2018.
  [58]BLEIDM,NGAY,JORDANMI.Latentdirichletal location[j].Joural of machinelearning research,2003,3(Jan): 993-1022.
  [59]Sugimoto CR,Ni C,Russell T G,et al.Academic genealogy as an indicatorof interdisciplinarity:an examination of dissertation networks in Libraryand  Information  Science[J].Journal  of  the  Association  for  InformationScience&Technology,2011,62(9):1808-1828.[60]GREENHOOT A F,DOWSETT C J. Secondary data analysis:an important toolfor  addressing  developmental  questions [ J ] .Journal  of  Cognition  andDevelopment,2012,13(1): 2-18.[61]邱皓政.量化研究与统计分析—SPSS(PASW)数据分析范例解析[M].重庆:重庆大学出版社,2013:209-303.
  [62] 吴明隆 . 问卷统计分析实务— SPSS 操作与应用 [M]. 重庆 : 重庆大学出版社,2010:208-217.[63]Ajzen  I.  Constructing  a  Theory  of  Planned  BehaviorQuestionnaire[J].Unpublished Manuscript Retrieved, 2006(7):861-871.
 
 

作者单位:吉林大学
原文出处:张彤彤. 科研数据重用行为及影响因素研究[D].吉林大学,2020.
  • 报警平台
  • 网络监察
  • 备案信息
  • 举报中心
  • 传播文明
  • 诚信网站