学术堂首页 | 文献求助论文范文 | 论文题目 | 参考文献 | 开题报告 | 论文格式 | 摘要提纲 | 论文致谢 | 论文查重 | 论文答辩 | 论文发表 | 期刊杂志 | 论文写作 | 论文PPT
学术堂专业论文学习平台您当前的位置:学术堂 > 计算机论文 > 计算机应用技术论文

科研项目档案中数据挖掘工具的应用

来源:学术堂 作者:朱老师
发布于:2017-01-03 共3290字
  摘要

        0 引言
  
  科研档案是高等学校科研发展的缩影和真实写照,是反映高校科学研究和科研管理水平的重要标志,是高校实力的见证。科学研究水平是各高校核心竞争力的关键所在,支撑和引领学科建设与发展。随着高校科技创新竞争的日趋激烈,在科技资源配置方面,高端人才和重点重大项目资助的集中度不断升级。与各“985”高校、国子头的科研院所相比,地方普通高校与它们的创新竞争力差距不断扩大,只有可能在少数优势学科具有一定竞争力,在面上科研任务竞争中占有一定份额。多年来,高校在科研管理中积累了很多数据,但这些数据只是简单的以案卷目录的形式存储在档案管理系统中,在高校的科研决策中并没有得到充分利用,还停留在传统的管理水平上。如何利用已有的科研档案信息明确自己的科研优势,找出科研重点领域,凝练出品牌特色,以应对普通省属高校发展的严峻挑战,提升自己的核心竞争力,是目前普通省属高校亟须解决的重大课题。
  
  1 数据挖掘概述
  
  数据挖掘是一种深层次的数据分析方法,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又具有潜在价值的数据信息和知识的过程[1].数据挖掘是一种全新的信息处理技术,其主要特点是对大量数据进行抽取、转换、分析和其他模型化处理,从中提取辅助决策的关键性数据,把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持[2].目前数据挖掘已广泛应用于商业零售、电信、金融、电力、保险、生物信息学和医疗等行业。
  
  聚类分析是根据数据中发现的描述对象及其关系的信息,将数据对象分组[3],并使得同一个组内的数据对象具有较高的相似度,不同组中的数据对象具有较低的相似度[4].
  
  关联规则是数据挖掘的重要工具之一[5],关联规则分析是用于发现隐藏在大型数据集中的有意义的联系的过程。关联规则的强度可以用它的支持度和置信度来度量。支持度是一种重要度量,因为支持度很低的规则可能只是偶然出现;另一方面,对于给定的规则X→Y,置信度越高,Y在包含X的事务中出现的可能性就越大。
  
  2 数据挖掘技术在科研档案中的应用
  
  2.1应用背景介绍
  
  国家级科研项目[6]是高校及科研院所科研实力及学术水平的一项重要指标,是高校高水平纵向研究课题经费的主要来源。江苏科技大学作为江苏省省属高校,一直以来都非常重视国家级科研项目的申报和管理工作,在获得批准项目数量与资助金额不断提升的同时,学校的科研实力和学术水平也跃上了一个新台阶。多年来,我校在科学研究过程中积累了很多数据,但这些数据只是简单的以案卷目录的形式存储在档案管理系统中,在学校的科研决策中并没有得到充分利用,本文以江苏科技大学2011-2015年获得资助的国家级科研项目为例,应用数据挖掘技术对参与国家级科研项目的课题组进行了科研绩效评估,为学校找出科研重点领域和优势学科、凝练出品牌特色提供决策依据,同时进一步探讨科研绩效与科研人员最高学位、职称、年龄之间的关系,从而实现科研团队的优化配置。
  
  2.2数据选择及预处理
  
  2.2.1   2011至2015年江苏科技大学国家级科研项目基本情况分析
  
  近五年来,江苏科技大学所获自然科学与社会科学国家级项目实现了质与量的飞跃,获资助项目数逐年递增,资助经费也实现了稳步增长,获资助项目数从2011的24项增加到2015年的45项,资助经费从2011年的659万元增加到2015年的1478万元(其中2013年葛世伦教授申请的“基于云的管理信息系统再造研究”项目作为重点项目,资助经费为220万元)。
  
  2.2.2课题组数据集
  
  国家级科研项目相关信息包括项目名称、申请领域、资助经费、负责人年龄、项目组成员最高学位、专业、职称、批准年度。基于此,本文构造了课题组数据集,并利用聚类方法对其进行了分析。课题组数据集由项目资助经费、负责人年龄、项目组中博士人数、硕士人数、学士人数、其他人数、教授(正高)人数、副教授(副高)人数、讲师(中级)人数、助教(初级)人数、项目中各专业的人数组成。2011-2015年江苏科技大学共获批了185个国家级项目,有156个专业共815名科研人员参与。因此,本文为课题组数据集添加了对应于这156个专业的人数属性,以便发现项目组人员专业差别对国家级项目的影响。项目负责人年龄划分成<=30、31-35、36-40、41-45、46-50、51-55、56-60、61-65、>=66共9个年龄段。
  
  2.3基于数据挖掘的课题组科研绩效评估
  
  2.3.1课题组数据集的聚类分析
  
  课题组数据集的聚类结果显示,簇1中的项目数为45,大部分是面上项目或者重点项目,资助经费额较高、课题组科研能力较强,仅占总项目的24.3%;簇2中的项目数为140,占总项目的75.7%.结合聚类结果的簇中心情况如表1所示,簇1的各项指标都优于簇2,尤其是教授人数和资助经费额。本文还利用决策树分析聚类结果,发现教授人数、讲师人数和资助经费是导致这种项目聚类结果的重要因素。簇1共包含材料学11项、海洋工程10项、机械工程7项、管理科学与工程7项、养蚕学5项、自动化2项、物理学2项、生物学1项目。这说明了材料学、海洋工程、机械工程、管理科学与工程、养蚕学是江苏科技大学自然科学的优势研究学科,自动化、物理学、生物学等学科在快速发展,计算机科学、电子学等其他学科还需要提高。簇2的负责人年龄段指标显示这些项目申请人比较年轻,绝大多数都小于40岁,正是出科研成果的黄金时期,他们是学校科研队伍的生力军;簇1的负责人年龄段指标显示项目申请人具有丰富的科研经验,但超过一半以上的人在50岁以上,人才成长有些脱节,年轻教师没有能够及时顶上来,不利于学校的长远发展。
  
  课题组数据集聚类结果
  
相关标签:数据挖掘论文
  • 报警平台
  • 网络监察
  • 备案信息
  • 举报中心
  • 传播文明
  • 诚信网站