摘 要
如今数据爆炸时代已经来临,传统的数据处理技术已经不能满足海量数据的处理需求。随着信息技术的发展,以 Hadoop 为首的众多大数据处理技术已经广泛应用到互联网、商业、医学、金融业以及工业等行业,而在教育中的应用确很少。因此本文应用 Hadoop 集群平台对本校的学生成绩数据进行了分析和处理,并且研究了一种基于 MapReduce 的关联规则算法,提高了关联规则算法在处理海量数据时的效率,同时挖掘了课程之间的关联规则。
本文的工作主要分为以下两个部分:
首先学习了 Hadoop 平台的核心架构-HDFS 和 MapReduce,采用 HDFS 实现学生数据的存储。在深入了解到 MapReduce 编程模型后,针对传统 Apriori 算法的局限性,实现了一种基于 MapReduce 编程模型的改进算法,并通过实例验证了改进后算法的可行性。然后通过改变数据集的大小和改变最小支持度阈值以及最小置信度阈值这三种方式对这两种算法的性能进行了对比,实验证明,经过改进 MapReduce Apriori 算法的性能在各个方面都要优于传统的 Apriori 算法。
其次本文搭建了 Hadoop 集群平台,将改进的算法应用到真实的学生成绩数据中,挖掘出了课程之间隐藏的关联关系,同时本文也应用 Hadoop 平台进行了一些统计分析的工作。
本文的主要创新点为:(1)根据MapReduce编程模型的特点,对传统的Apriori关联规则算法进行了改进,改进的算法不仅实现了发现频繁项集这一过程,同时也根据发现的频繁项集筛选出了强关联规则;(2)通过对大数据技术的学习和学生数据的分析,本文搭建了 Hadoop 集群来分析和处理真实学生成绩数据。
高校中时时刻刻都会产生大量的数据,同时教育数据中隐藏的潜在价值也是无穷无尽的,更值得我们去探索。如果能将如此丰富的教育数据转化为有价值的教学研究成果,并且应用到改善教学决策的制定和实践中,那么对于各大高校和教育研究机构来说意义非凡。希望通过本文的工作能为以后的研究学者提供一个方向,也能为学校的教育工作者在以后的教学管理上提供借鉴。
关键词:大数据, Hadoop,MapReduce,Apriori
目录
摘要
第 1 章 绪 论
1.1 论文研究的背景和意义
1.2 论文的主要研究内容
1.3 论文的组织结构
1.4 本章小结
第 2 章 Hadoop 理论基础简介
2.1 Hadoop 简介
2.1.1 Hadoop 框架及其生态系统
2.1.2 第二代 Hadoop 平台-YARN
2.1.3 Hadoop 的应用现状和发展趋势
2.2 Hadoop 分布式文件系统
2.2.1 HDFS 简介
2.2.2 HDFS 工作原理
2.3 MapReduce 编程模型
2.3.1 MapReduce 简介
2.3.2 MapReduce 工作原理
2.4 本章小结
第 3 章 基于 MapReduce 关联规则算法的研究与改进
3.1 Apriori 算法简介
3.2 Apriori 算法的缺陷
3.3 基于 MapReduce 的 Apriori 算法的研究与改进
3.4 改进算法的可行性分析
3.5 本章小结
第 4 章 大数据技术在学生成绩分析中的应用
4.1 实验环境介绍
4.2 数据预处理
4.3 基于学生成绩的统计分析
4.4 MapReduce Apriori 在学生成绩分析中的应用
4.4.1 输入数据格式
4.4.2 分析结果
4.5 应用结果分析
4.6 本章小结
第 5 章 总结和展望
5.1 总结
5.2 不足与展望
参考文献