本篇论文目录导航:
【题目】森林资源信息化管理模式探析
【第一章】森林资源信息化发展研究绪论
【第二章】森林资源与信息化理论知识及相关技术
【3.1 - 3.2】信息化管理网络基础设施建设
【3.3】信息系统统一数据平台设计
【3.4】信息化大数据云平台详细设计
【第四章】基于大数据云平台的森林资源信息管理系统设计
【结论/参考文献】浙江省森林资源信息化方案研究结论与参考文献
3.4 大数据云平台详细设计
3.4.1 基于云计算方法的应用架构。
根据目前的实际情况,不同异构系统很难一步到位全部实现,当前只能采取边实施边完善,逐步整合各类异构系统的策略,因此构建的云计算模型拟采用分层结构,各层之间相互独立互不影响,之间用标准化接口互联,底层云平台层按需提供弹性资源。其模型结构可以分为云平台层、算法层、逻辑层和视图层。云平台层提供基础的网络资源、异构数据库、数据交换方法、数据接口方法和云计算框架,其中异构数据库可以按需动态添加到本层中,考虑到各类业务数据的复杂性和关联关系,本研究采用 Map Reduces 来实现多维度大数据的快速类聚,为模型的算法层提供元数据;算法层是本模型的核心层,它利用底层 Web Service接口从云平台层获取数据,同时利用 Web Service 接口为上层逻辑层提供数据服务,利用若干数据分析与挖掘算法对底层提供的元数据进行分析与数据挖掘,并利用 PMML 和 CWM 来呈现预测分析模型和实现元数据交互;逻辑层提供两类服务,流程引擎服务和系统管理服务,流程引擎服务为不同单位不同部门甚至不同角色人员提供流程引擎定制和数据流生成,这可以在最大限度内为不同用户和不同应用场合提供数据呈现的需求,本模型支持多种复杂结构多条流程组合业务的数据生成与呈现,系统管理提供用户管理、应用管理、数据管理和流程管理等管理服务;视图层是模型面向用户的最终接口,为用户提供基于富客户端的 Web应用,负责创建数据的呈现界面,提供人机交互接口,以及诸如系统导航、系统配置、用户管理、创建应用、算法管理和数据管理等功能。
3.4.2 数据挖掘模型建立。
算法层是本模型的核心层,主要作用是根据云平台层提供的元数据,通过对林业现有业务系统的历年数据的分析与挖掘,分析、揭示大量有意义的新的关系、趋势和模式。目前我省林业信息化经过近几年的发展,已经积累了大量的业务数据,通过对这些数据的分析与挖掘可以发现很多潜在的知识,揭示各系统的协同关系、数据流向及业务流程优化情况。图 3.6 所示为本研究森林资源数据挖掘知识发现的基本步骤。
在一般的数据库知识发现系统中, 需要考虑四个问题: 依赖性分析(dependency analysis) 、类的标识(class identification) 、类的描述(class descript ion)和偏差检测(deviation detection)[66].数据挖掘就是对数据库的属性变量建立依赖性模型, 以描述属性变量间重要的依赖关系。函数依赖性的研究有很多应用, 它们常用于数据库的规范化及设计、查询优化、数据约简、规则提取[67].在本研究中,数据挖掘的任务就是发现隐藏在数据中的模式。可以发现的模式可分为两大类:描述型(descriptive)模式和预测型(predictive)模式[68].描述型模式是对当前林业各业务数据中存在的事实做规范描述,刻画当前数据的一般特性;预测型模式则是以时间为关键参数,对于时间序列型数据,根据其历史和当前的数据去预测未来的数据,从而勾绘出今后的发展趋势[69].根据上述模式,在研究应用中需要建立模型来分析森林资源数据,需要对元数据进行以下处理:
1)对森林资源数据进行分类:在森林资源数据挖掘过程中,首先需要对数据进行分类,按照属性、部门、生产阶段甚至时间进行分类,以此为基础对数据进行研究与分析。
2)建立森林资源数据聚类模型:在实际的生产管理过程中,存在大量的森林资源数据,这些数据从表面上看无法知道他们的相关性,利用聚类模型就可以挖掘出这些数据的联系与差异,分析他们的组成结构。
3)建立回归模型揭示变化规律:回归模型主要解决林业生产中连续性活动的变化规律,比如营造林进度跟踪与预测、采伐活动变化规律预测、林产品出运及产业结构发展方向预测等。
4)建立关联模型揭示数据的跨部门关系:比如林农在同一次采伐活动中所涉及到的不同部门之间的相关性分析,采伐过程中提供的一系列材料及数据关联性分析,这些材料及数据的合理性、重要性分析。
5)建立序列模型揭示数据根据时间序列的变化规律:利用序列模型可以分析林业生产按时间序列的变化发展情况,例如可以分析历年采伐分布情况、采伐各指标变化情况,采伐活动与当地经济发展关系,历年林产品出运变化情况与产业结构发展关系等。
6)建立偏差模型监控林业生产状态:通过数据的奇异点分析发觉隐藏在数据中的非常操作,比如林产品运输过程中被处罚的记录,可以通过处罚的强度、频度、处罚执行人的异同来分析是否存在异常操作及权钱交易。
3.4.3 数据的可视化展示根据前面对森林资源数据的挖掘,发现其内在的规律,而这些规律是以数据的形式体现的,对于一般用户来说其数据太过专业性,可读性差。因此需要利用可视化技术把计算所得的数据以图形的形式加以展示。数据的可视化就是把计算获得的大量数据按照其规律进行组合,用图像的方式来展现数据所表现的内容及相互关系[70].要实现数据可视化,要将获取的抽象数据用图元(点、线、面、图像等)表示,再实现可视化的绘制,对图元进行参数化(几何造型、视点、视觉体、投影类型的参数控制等)、属性化(颜色、纹理、透明性等)[71].
科学数据可视化的参考模型可归纳为从数据到可视化形式再到人的感知系统的互动、回溯调节,体现了人们对数据"理解"的连续性[72]:原始数据的规范化便于图形渲染,对规范化的数据通过选择合适的可视化方式使数据变为抽象信息,而抽象信息通过系列交互式手段及与经验的结合变为系列知识,而这个过程也就是典型的、区别于基于统计方法的数据挖掘过程,也称信息可视化数据挖掘。设计、完成一种新的信息可视化一般包括:识别信息结构(如是层次、多维,还是网络等)、定义渲染流程(包括数据转换、投影变换、显示属性定义等)、选择合适的图形导航策略(如放大与缩小、概貌与细节、焦点与上下文等)及最后设计合理的各类交互模式(如拾取、关联、过滤等)[73].
上图中的原始数据是指对森林资源数据进行挖掘后获得的数据间的分类信息、数据相关性差异及组成结构信息、林业生产活动的变化规律信息、林业生产经营的预测及发展方向信息、部门相关性分析、数据合理性分析、数据重要性分析、异常情况分析、林业生产经营与经济发展关系、林业生产经营与产业结构发展关系等经过初步加工与分析得出的结论性数据。在可视化过程中,这些数据还是太过粗糙,需要进行精炼与结构化表达,生成具有一定结构适合图形描述的信息数据。这一过程称为数据的可视化预处理。接着利用可视化方法使用预处理阶段生成的结构信息生成相关图元,并且具有一定的图形结构。最后利用这些可视化的图元生成一系列的视图,这些视图以图片的形式保存于云端服务器中,用户可以利用各种终端设备(如 PC 电脑、笔记本电脑、智能手机等)随时随地通过互联网访问服务器获取图像。在此过程中,用户可以与云端服务器做人机交互,提出相关需求,在一定规则和条件下,云端服务器会根据用户需求对数据进行转换、投影变换等操作,生成用户需要的图像。