学术堂首页 | 文献求助论文范文 | 论文题目 | 参考文献 | 开题报告 | 论文格式 | 摘要提纲 | 论文致谢 | 论文查重 | 论文答辩 | 论文发表 | 期刊杂志 | 论文写作 | 论文PPT
学术堂专业论文学习平台您当前的位置:学术堂 > 管理学论文 > 信息管理论文

大数据和大数据技术分析

来源:学术堂 作者:陈老师
发布于:2016-10-10 共5255字
  第 2 章 大数据和大数据技术分析
  
  由于信息技术和网络的飞速发展,我们身边所有有的事物都开始与数据有关。打电话、发短信、网络购物、网络办公……我们的生活和工作实实在在被大量的数据影响着,数据开始成为了重要的资源,大数据就这样被提出。
  
  如何真确理解大数据,如何解决大数据问题,是我们将要分析的。
  
  2.1 大数据简介
  
  (1)大数据的定义
  
  对于大数据的定义,到目前为止仍就没有统一的标准,常用的定义有以下几点:
  
  百度百科的定义:大数据又称为巨量资料,它们无法在有效时间内通过传统手段或主流工具使数据得到采集,也无法进行处理和管理,进而得出有效信息帮助企业进行经营决策[4].
  
  维基百科的定义:大数据指那些数量过于巨大,因而无法通过人工等手段,在一定时间内将其截取、处理、管理并整理成简单且易于人们理解的信息的数据。因此,大数据也可称为巨量数据或海量数据[5].
  
  权威研究机构 Gartner 的定义:大数据是是一种新的信息资产,其主要特点是高增长率和海量。大数据的主要目的是为了使企业在全新处理模式下的决策能力和洞察发现能力的加强和流程的优化。对于大数据问题,是不限于一个维度上,远远高出传统信息技术处理数据能力的极端信息管理和信息处理问题[6].
  
  互联网周刊的定义为:通常所指的大数据就是指大量的数据(TB 级或更大)及处理大量数据的相关技术,其特点可以用通用的“4V”来概括。然而,真正的大数据远远不止这些,它涵盖了所有在小数据基础上无法解决的事情,也就是说,我们所说的大数据,是一种以新的方式方法,对海量数据进行采集分析,从而获取数据中的价值,提供服务,是一种前所未有的,给社会带来巨大变革的方式。[7]麦肯锡的定义:大数据是一个数据集合,其集合中的数据无法通过传统的数据处理工具在有效时间内得到采集、存储和管理等处理[7].
  
  无论从哪一种定义上来看,大数据都并非一种全新的技术或者一种全新的产品,大数据只是信息数字化时代高速发展所面临的一些问题的概括,一种普遍面临的现象而已,这一点和本世纪之初就早已出现的“海量数据”有某些相同之处。那么海量数据与大数据的有什么区别呢?大数据除了包括海量数据中的结构化和半结构化数据之外还包括非结构化和交互数据。
  
  从上世纪 60 年代至 80 年代中期,随着信息技术的进步。数据处理的方式也在不断演进。由最开始的应用程序直接管理数据的文件存储方式到具有面向性、集成性、飞易失性、时变性等特点的数据库存储方式,然后伴随着Web2.0 的兴起,人们开始广泛应用基于 Web2.0 的非关系型数据库等数据存储技术。到目前,由于社交网络的快速发展和移动终端的普及,数据关系到人们生活的方方面面,数据量呈指数形态爆发式增长,面对这样海量的且纷繁复杂的数据,传统的数据处理方式已经逐渐无法适应,对于如何去发现数据中所存在的价值和了解数据之间存在的规则和关系,以往的方法都都无法很好解决。然而大数据技术很好的解决了这个难题。
  
  故而我们认为,所谓大数据,就是一种利用分布式计算构架,依托云计算的分布式处理、分布式数据库、云存储和虚拟化等相关技术,通过数据挖掘与分析,从大量化、多类别的数据中提取价值的 IT 领域的一种新的技术构架。
  
  (2)大数据的基本特征
  
  大数据的特点可以概括为 4V+1C,即数量(Volume)、速度(Velocity)和种类(Variety)、价值性(Value)、复杂(complexity)[5].
  
  Volume 指的是数据巨大的数据量以及其规模的完整性。大数据聚合在一起的数据量是十分庞大的,根据 IDC 的定义至少要有超过 100T 的可供分析的数据,更多的也认为大数据至少应到达 PB 的规模。大的数据量,是大数据的基本属性。
  
  Velocity 所指的有两个层面,其一是数据的获取速度快,其二是在数据量庞大的情况下,数据的分析和处理速度的快速,即数据的实时分析。
  
  Variety 指数据的类别繁多,由于数据来源的多样化,数据的种类和格式也日渐丰富,除了结构化数据,非结构化和半结构数据大量存在,例如地理位置信息、视频信息、图片信息等。
  
  Value 可以从两个方面来讲,即数据的低价值密度和高价值性。就是通过整合分析大量数据才能得出有重要实际应用价值的信息。
  
  由于大数据“4V”特性的存在,使得针对大数据的处理和分析变得更加困难,传统的关系型数据库系统已经无法处理,需要根据不同的业务场景和业务需要,使用不同的分析处理方法,这样一来,其复杂度便大大增加了。
  
  2.2 大数据处理技术
  
  2.2.1 海量数据的存储
  
  正如前面所描述的,大数据时代的首要特点就是海量的数据,由于互联网的发展,不同应用特性的用户规模、数据存储规模也不尽相同,大数据时代的互联网应用的中海量数据我们可以归纳出以下特性:
  
  (1)用户群体大,增长速度快。eBay 的页面点击率在过去 10 年之内的平均增长率达到了日均 10 亿次,虽然页面的点击次数并不能同客户人数划等号,但是页面点击率同增长率也可以从一定程度上反应用户的增长规模[6].
  
  (2)数据总量大,增长速度快。这其中包括静态数据处理的图片和视频共享,大量信息互动服务的 SNS,数据的存储总量已达到 TB 级别甚至 PB 级别。随着互联网技术的迅速发展,使得这些数据量变得越来越大[6].
  
  (3)数据类型多样化。面对 Web2.0 时代,我们需要处理的不仅有大量用户分享的数据(图片、视屏、日志等),同时还需要处理大量交互型数据(邮件、消息、点击事件等)。这些数据大小不一,数据类型更是多种多样。这对于海量数据存储、管理提出了严峻的考验[6].
  
  基于以上特性,对于海量数据的处理和存储就有了许多的挑战,概括如下:
  
  (1)为了满足海量的数据需求,数据存储系统将会更大,往往达到 TB或者 PB 级别。
  
  (2)系统的良好扩展性能,能够使系统在正常运行的情况下能够适应不断增长和变换的用户群体及数据。
  
  (3)存储系统的吞吐量高且具有低延时性。
  
  (4)面对结构化、半结构化、非结构化等数据、都有相应的存储类型。
  
  (5)对于分布式环境下的数据分布和容错等问题使用并行编程模型灵活处理,使海量数据处理简单化。
  
  面对着大规模的数据分析需求,由于数据访问速度越来越快等因素,面向结构化的传统数据存储方式已经无法适应。最常见的三种解决数据存储的方式是直连式存储(DAS)、连接式存储(NAS)、存储式网络(SAN)[7],但是面对越来越多、越来越复杂的数据,这三种方式就有了各自明显的缺陷。低扩展性和低性能是直连式存储的主要缺陷。链接式存储在成本上虽然较低,使用也比较便捷,然而其存储性能很低。存储式网络的构建成本较高,虽然能提高数据的传输效率,然而由于其封闭式的构架使得其很难与其他系统整合。于是我们在此提出一种基于云计算的海量数据存储模型(如图 3.1),我们应用实现了 MapReduce 计算模式的开源分布式并行框架 Hadoop[8],从而实现海量数据的存储。
  
  用户的应用请求的接受和应答在主服务控制集群中进行,此处主要起到控制的作用。产生的数据经过数据流存储到由海量数据存储能力集群系统或者磁盘阵列组成的数据存储节点集群。主服务控制集群和存储节点集群之间通过 HDFS 和 Hbase 来实现,它们能够将数据库部署到各个节点之上。通过Hadoop 构架,用户可以在给主服务控制集群传递信息后,直接通过存储节点进行数据的读取和操作,这样就避免了由于大量的数据读取操作造成的系统拥塞。
  
  用户的存储数据信息通过主服务控制集群传递到 Hadoop 构架,数据通过MapReduce 中的 Map 函数被进行切割计算[9],从而分割成若干数据块,数据块通过 HDFS 和 Hbase 分配到各个存储节点之中,之后在将存储节点地址和数据块信息返回给主服务控制集群,用户在通过主服务控制集群获得这些信息。
  
  通过这一过程,用户从而完成数据的存储操作。在某一节点失效时,会立刻将正在处理的数据块进行重新分配[10].用户提取数据的时候,主服务控制集群接收到用户的提取数据信息,HDFS和 Hbase 查找到相关数据块信息并将其传送给主服务控制集群,在接收到反馈信息之后,主服务控制集群在将其传回给用户。用户接收到信息之后,根据信息创建每个节点的下载线程,将文件块下载到本地计算机中然后利用MapReduce 的 Reduce 函数将其整合成一个完整的信息文件之后除文件块[11].
  
  当 Hadoop 发现某个节点失效时,立即将正在取出的文件交由另一空闲的节点来重新进行下载,从而保证下载顺利完成。通过利用分布式文件系统、分布式数据库、Hadoop 框架和云计算的核心MapReduce 技术,从而实现数据的并行计算和分布式存储,使得存储模块能够更好的适用于海量数据的存储。
  
  2.2.2 数据安全和隐私保护
  
  大数据时代最显着的一个问题便是面对越发开放的网络环境,那么要如何保证数据的安全性,如何使隐私得到最大的保护。上面我已经解释了云计算是解决大数据下新型管理模式的方法,那么在此,我们就探讨基于云计算的的数据安全防护。由于数据和应用都存储和运营在远端的云计算中心这一有异于传统的数据中心存储这一模式的特性,以至有人觉得云计算对于数据安全完全是一场恶梦,然而相对于传统的安全系统的高成本、高复杂度而言,云计算通过云系统统一提供服务,大大简化了管理的复杂度,从而降低了缺陷和漏洞存在的几率,云计算在构架上的同质化使得安全方面的审计、评估和测试更加简单和方便。由大型云供应商提供的的云计算服务在服务质量方面的保证也更加确立了其安全性;多数据中心的存在也保证了服务稳定地运行。云计算安全构架主要包括 3 大部分(如图 3.2):云客户端、云端和第三方机构。云客户端通过访问云端来得到服务,第三方机构对云端的安全机制进行审核,并进行监控[12].
  
  为了使云客户端在病毒、木马和间谍软件等侵害的时候能够得到保护,防火墙、打补丁和安装杀毒软件等手段被我们使用在此处。除此之外,为了实现云模式下的安全监测和防护,我们还充分利用了云端的超强计算能力。
  
  面对可疑的数据流量,任何一个客户端都可以在第一时间将其送到后台的云检测中心进行安全解析,如果发现安全威胁,则快速将解析的结果推送到全部的安全网关和客户端,这样一来,整个云中的客户端和安全网关就能够检测到这种未知的威胁从而到达防护的作用。
  
  为了使云客户端在病毒、木马和间谍软件等侵害的时候能够得到保护,防火墙、打补丁和安装杀毒软件等手段被我们使用在此处。除此之外,为了1面对可疑的数据流量,任何一个客户端都可以在第一时间将其送到后台的云检测中心进行安全解析,如果发现安全威胁,则快速将解析的结果推送到全部的安全网关和客户端,这样一来,整个云中的客户端和安全网关就能够检测到这种未知的威胁从而到达防护的作用。
  
  云端的安全构架最顶层是整体监管和合规性模块,它主要用于观测整个云计算体系的安全状况,使管理人员对于整个云计算中心能够实施有效的监管,避免恶性事件的发生,从而保护整个系统的安全。通过对于云端构架的整体设计和一些相关流程的审计与合规性的定义,使整个体系所必须遵从一定的协议,以提高在整个云构架的可信度。
  
  安全通信模块通过使用安全套接层(SSL)和传输层安全(TLS)等安全技术使云端和云客户端之间通信的完整性和私密性。它具有强大的防火墙功能和巨大的网络处理能力[12].
  
  系统的数据访问权限授予由用户管理模块负责,用户通过其获得数据访问权限,同时非授权的非法访问在此得到阻止。用户只能根据被授予的权限进行数据的访问操作,在确保用户基本访问权限的同时,对于用户的访问行为进行记录进而检测,从而发现用户的越权行为。通过集中的账号管理机制,认证管理的过程得到了简化的同时,用户的体验也能得到提高,用户的安全需求也得到了满足,在避免了风险的同时提高了效率[12].
  
  数据在数据管理模块会根据其所属组织和类型被进行分类,并通过设置相应的监管和保护机制对数据进行处理。为了防止数据外露或被窃取,数据管理模块会对数据进行加密处理并进行备份,这样,即使是在由于硬盘故障或者管理失当的情况下,也不会造成数据的丢失。数据管理模块还会视情况选定数据的存放地点,这也是其很重要的功能之一。
  
  在应用保护模块,往往会使用电子证书或安全密匙等机制来确保应用发布的 API 和 Web 服务等对外接口的安全性,虚拟机的安全性通过虚拟镜像的方式来确保。
  
  系统与网络模块分为两个方面,在系统方面,不仅要做到处于不同主机的不同数据和事件之间的相互隔离,还要做到与服务器的隔离,为了实现这一目标,我们可以通过提虚拟区域和减少服务器监听端口这些方法来实现。
  
  在网络方面,我们通常将其分成可信和不可信这两部分来分别对待[12].对于物理设施模块,我们在确保数据中心人员安全意识和素质的同时,更加需要考虑的是各种设备在云计算环境下的永续性和可靠性,注意其冗余的同时,重视诸如配置同步、链路捆绑聚合和硬件旁路等高级特性。从而使得系统在大流量汇聚的情况之下能够得到真正的防护。
  
  第三方机构具有成熟的技术和丰富的经验,因此它能够对云计算服务提供商的相关服务进行检测,通过使用标准化的技术手段找出服务的安全漏洞,评估其安全级别,进而使用户对于服务提供商有一定程度上的认识。在安全认证的同时,第三方机构还起到监管的作用,它会对云服务提供商的云端运行状况进行监控,确保其在安全范围内运行。
相关标签:
  • 报警平台
  • 网络监察
  • 备案信息
  • 举报中心
  • 传播文明
  • 诚信网站