第 2 章 相关基础理论
2.1 大数据理论。
2.1.1 大数据的概念。
大数据、云计算等作为新一代信息技术,已经广泛地应用于人们的日常生活中,随着人类社会的数据积累量越来越大,这些数据表现出爆发式的增长趋势,Nature 杂志于 2008 年 9 月首次发表了以"Big Data"为主题的专辑。时隔三年,Science 杂志也于 2011 年推出了以"大数据"为主题的专刊。国内学者也早就在大数据领域开展了一系列系统的研究,研究领域包括技术创新、商业管理以及交叉学科等[22]. 目前,作为热点研究问题,大数据得到了社会各行各业的广泛关注。本章对大数据的介绍主要从三个方面入手,这三个方面分别为大数据的概念、大数据的特征和大数据的数据处理流程。
大数据(Big data),或称巨量资料,它的概念并不是凭空出现的,它的是海量数据前身。但是大数据和海量数据之间还有所区别。海量数据只是从数据量的角度强调数据量之大,并没有定义数据的特性。而大数据的概念包含了大数据的体积、传播速率。特征等内容。截止目前,大数据被广泛接受的定义为:大数据是无法再一定时间内用通常的软件工具进行收集、分析、管理的大量数据的集合。
需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产[23].了解大数据,不仅仅局限于掌握这些海量的数据,更要利用先进的科学技术对这些数据进行整合和利用。
根据数据来源的不同,可将大数据的主要种类分为以下三种。首先是传感器数据(sensor data),传感器数据指的是在不同地理位置上分布的传感器,感知自身所处的环境,生成实时的数据。第二是网站点击流数据(click streamdata),网站点击流数据指的是系统对用户在互联网上进行有效的操作行为及其时间进行记录,最后形成数据。最后是移动设备数据(mobile device data),移动设备数据主要是指信息服务机构通过用户使用的移动通讯设备、PDA(Personal Digital Assistant 个人数字助手)和导航设备等移动电子设备来获得该设备和人员的位置、移动、用户行为等信息[24].
2.1.2 大数据的特点。
目前,我们将大数据归纳起来可以分为五个主要特点,大数据拥有"5V"的特点:分别是 Volume,Variety,Value,Velocity 和 Veracity.大数据的第一个特点 Volume 指的是数据量大,现在的数据量的级别已经跃升为 PB 级别,非结构化的数据在这其中占了很大一部分比例。现在,大数据的最小单位被认为是10-20TB.大数据的第二个特点 Variety 指的是数据种类,大数据的数据种类纷繁多样。例如在本研究中,用户的驾驶行为、常用交通路线,或者导航位置和资讯查询等等都属于大数据的种类范围。大数据的第三个特点 Value 是指大数据的价值密度,比如,在一段连续的视频文件里,不断对其进行监察就会发现,这其中真正具有价值的数据其实并不多。第四个特点 Velocity 主要指的是处理速度,需要更快的进程来对数据进行处理,即一气呵成地完成数据输入到数据处理整个过程,只用极短的时间就可以完成中间复杂的运算过程。最后 Veracity 指的是数据的真实性和准确性。综上所示,我们可以发现,大数据是无法用传统的数据工具进行储存、分析和处理的[25].
2.1.3 大数据的处理流程。
车联网信息服务平台为车联网用户提供个性化信息服务,需要及时、准确的对行驶车辆的车身数据、行驶状态、位置信息等进行数据采集。分析并合理利用这些数据,在这些数据中挖掘出更深入的信息,再进一步的利用和分析这些信息,最后在信息服务应用上完成反馈[26].
大数据的来源渠道有很多,多渠道的数据来源导致了多种的处理数据的方式。对于大数据的基本处理过程大致可以分为以下的 4 个步。
2.1.4 大数据的主要技术。
大数据的主要有 HadoopMapReduce、NoSQL 数据库和 MPP 三种主要的技术。
首先是 Hadoop,Hadoop 作为一个软件框架,它可以对大量的数据进行分布式的处理。处理数据的方式具有可靠、高效、可伸缩的特点。目前,Hadoop 在大数据平台中的应用率是最高的,其中,HDFS 和 MapReduce 作为 Hadoop 框架最核心的设计,前者可以储存海量的数据,后者则为储存的海量数据提供了相应的计算。
第二种技术是 NoSQL 数据库,NoSQL 数据库泛指非关系型的数据库,它在一个广义上的派系基础之上,其本身就包含了多种技术,NoSQL 数据库与关系型数据库的管理系有着截然不同的区别[27].为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用难题,NoSQL 数据库应运而生。
最后是 MPP(Massive Parallel Processor)即大规模并行处理计算机,由大量通用微处理器构成的多处理机系统,适合多指令流多数据流处理。
2.2 个性化信息服务理论。
2.2.1 个性化信息服务的概念。
过去,由于环境的限制,信息服务只能倾向于服务于大多数人,其服务的中心主要是群体用户,对于个别用户的个人信息需求是顾及不到的。虽然一些信息服务机构为了特定用户的信息需求达到满足而提供相应的信息服务,例如代理查询、定题服务等,但并不是每一个用户都可以得到这种服务,我们称这样的信息服务为"个别服务"[29].而现在,在互联网的环境下,提供信息服务的机构和享受信息服务的用户直接建立起联系,二者之间由原来点对面式的服务方式变成了点对点的服务方式,这也奠定了在网络信息服务中引入个性化概念的基础,相应的个性化信息服务的概念也产生了。目前,对于个性化信息服务的定义不同视角给出的定义也有所不同,其中最具有代表性的个性化信息服务的定义为:个性化信息服务首先是要满足用户的个体信息需求的一种服务,即针对用户提出的明确的信息要求,传递和提供相应的信息和服务,通过分析用户的个性特点、使用习惯,寻找用户的潜在需求,主动的向用户提供其可能需要的信息服务。
2.2.2 个性化信息服务的特征。
以用户为核心一直是个性化信息服务的宗旨,用户的兴趣、行为、习惯和爱好的都是个性化信息服务所要研究的对象,通过对用户的个人信息的研究与挖掘为用户提供诸如搜索、选择、组织或者推荐等更具有针对性的信息服务[29].由于个性化信息服务具有多样性和针对性的特点,因此用户对信息服务的满意程度也有所提高。总结个性化信息服务的特征主要有以下几点。
第一,个性化信息服务具有针对性,个性化信息服务的针对性是指可以有针对性地检索、加工和传送信息来满足用户特定的信息需求,并且为用户量身打造个性化的界面,满足其个性化的信息需求。所以,针对性是个性化信息服务的主要特征之一。
第二,个性化信息服务具有主动性,主动性是指提供信息服务的一方主动地将向用户传送数据,用户无需主动提出请求,这种主动服务和被动服务之间的反差是强烈的。所以,主动性第三,个性化信息服务具有更加灵活的特性,主要体现在用户可以根据自己的需要,按照自己的想法自主地设置连接方法和连接时间,满足自己的需求。所以,灵活性也是个性化信息服务的主要特征之一。
第四,个性化信息服务是具有智能性的,为保证信息服务的时效性,收集更新的信息发送给用户,信息服务平台会自动预设信息资源,并对预设的信息资源进行搜索,从而为用户提供更加优质的信息服务。信息服务平台也可以通过对用户的需求进行数据挖掘,掌握其可能感兴趣的信息并定期的传送给用户。
2.2.3 个性化信息服务理论。
个性化是在现代营销学理念的基础上产生的一种思想,而个性化的信息服务则包含个性化信息供给和个性化信息需求两个方面[28].以经济学的视角对个性化信息服务进行分析,可以发现在信息的需求和供给之间是存在着互相影响的关系的。所以,我们在强调信息需求者影响的同时,也不能忽视信息供给者的作用,要将信息需求和信息供给结合起来进行综合考虑分析。首先,信息供给决定于信息需求,个性化信息服务要将满足用户的个性化信息需求为核心宗旨,提供不同的信息内容,用以满足不同用户的多样化的信息需求。相反的,信息供给者也会对信息需求产生作用,一个好的信息供给可以刺激用户产生更多的信息需求。所以,在信息提供者提供个性化信息服务的过程中,要在提供信息服务的同时,积极的利用用户的信息挖掘出其潜在的信息需求,并对用户可能提出的更深层次的信息需求做出相应的引导,提高供给信息的价值,提升信息服务的质量。最后信息的供需之间是一直保持着动态平衡的关系。怎样的信息需求被提出,相对的出现怎样的信息服务;怎样的信息服务被提供,又会相对的出现怎样的信息需求。
信息服务不止在于满足用户需求,要在这个基础上不断完善用户更高层次的信息需求,同时在得到信息服务的基础上,用户也会提出更高的信息需求,最终两者之间达成一种动态的平衡。
2.3 个性化信息服务平台。
大数据环境下的信息服务活动,逐渐呈现出移动化、本地化以及社交化的发展趋势。信息服务活动的主要模式是通过网络信息平台,实现本地化的信息服务模式。通过网络信息平台,为用户提供的本地化服务更具有针对性,也更加高效、更加便捷,从而可以为企业和用户创造更大的价值[30].个性化信息服务平台的完善,离不开其包含在其中的各个要素之间的互相配合、互相依存、互相促进。个性化信息服务平台中的构成要素包含信息服务提供平台、移动网络运营商和信息服务提供者。首先,信息服务平台在大数据环境下扮演着个性化信息服务核心组织者的角色。信息服务平台要为内容提供商提供信息服务内容的运营平台,还需要差异归类各个不同领域的特征,使用户获取相关信息变得高效而便捷。而且,社交性也是信息服务平台所具有的特性之一,通过信息服务平台,用户之间的互动与交流可以得到实现,用户还可以更方便的对服务信息进行探讨与评论。作为个性化信息服务体系的核心组织者,信息服务平台不但要与不同的内容提供商建立广泛合作,还要承担起组织协调整个服务平台的运转的责任,最大限度的实现共同价值。其次,移动网络运营商作为网络联接的基础,对整个体系的互联互通提供保障作用。信息服务平台离不开移动网络运营商的支持。其中移动网络运营商的移动通讯网络技术,更是在大数据环境下的个性化信息服务平台运营中不可或缺的必要条件,而且移动通讯网络的质量将对信息服务的效果产生直接的影响。在信息传递与交流的过程中,网络通讯服务的稳定是基础。最后,信息服务内容提供者也是个性化信息服务体系中的重要组成部分,其在个性化信息服务中处于核心的位置。它将直接提供给用户相应的产品和服务。另一方面,内容提供商也可以通过信息服务平台获得用户的信息数据,从而有针对性地改善服务质量,并通过对海量的数据挖掘,及时更新发展策略。