大数据的理论及特征
胡春明:大数据在今天已经不是一个新鲜的词汇。 不管以前是不是叫大数据,人们都是在用数据看世界。数据分析方法往往采用了统计学上的采样法。 只要采样方法在一些情况下足够好,样本数据就能足够反应真实世界的特点。 从得到的样本数据里面获得知识, 采用的办法是基于统计的分布, 或是假设检验等方法得到一些支持, 通过支持获得预测。
大数据依赖的基础是大量被记录下来的数据。如买东西的记录、订房间的数据、摄像头等传感设备采集到的信息, 甚至人本身就是一种传感设备。人们把看到的信息放在微博、微信上,让这些信息被刻画和传播,如果这些数据不是采样,而是全样记录,数据足够大,就得到了多源的大数据集。 真实世界的“总体”我们无从制造,但在大数据时代,我们认为多源的大数据集合就代表了这个总体,这是大数据的“大”和原来的“小”之间是最根本的方面。
处理问题还是要回到现实可操作的层面,所以同样对多元的大数据做预处理和重新采样,得到特定问题相关的采样。 通过以前数据挖掘的技术和学习方法, 可以在相关采样数据集里发挥作用,得到基于模型的预测。
这个过程中可能面临一系列问题。
第一个问题, 如何找到多源大数据集来代表总体。 在大数据中,我们觉得多源大数据集就代表了真实的世界, 但是在实际采样的过程中,日志和数据可能有偏差。 例如,许多人经常用对网民的调查来代表社会大众的态度,但是网民不一定能代表大众群体,还有一群人不上网。 从这个角度来看,数据是不是真正接近全样本、数据本身会不会在采样中产生结构性的偏差,都是一个不容忽视的问题。
第二个问题,大数据大到我们处理不了,计算过程中就需要“把大数据变小”,这需要针对具体问题,在算法设计上更仔细地考虑。 降维可能面临丢失重要维度的风险,如何降维是我们要考虑的问题。
第三个问题,如何从数据中寻找知识和进行预测。 预测的方法比之前的数据挖掘更进一步,尽管对问题做了重采样, 得到了一个相对小的数据,但是这个小数据相对于以前做分析的数据还是很大,因此,需要在新的统计理论、数学工具、计算理论、设计方法和大数据分布式计算机基础设施方面做一些工作,这就是今天为什么大数据得到学术界和产业界共同关注的原因。
目前普遍认为, 大数据具有 4 “V” 的特点,即Volume (大量 )、Variety (多样 )、Velocity ( 高速 )、Value(价值)。 通过进一步研究,我们认为,从对大数据进行计算的角度来看,大数据计算还存在三个特征,我们称为大数据计算的 3“I”特征。
第一个“I”是 Inexact(非精确),包括两个层面:
第一个层面是今天做的很多计算本身并不需要那么精确,往往需要知道一个大的方向和态势;另一个层面是我们面临的环境没有办法做得那么精确,数据在不断变化,新的数据不断产生,没有办法得到稳定的视图。 在满足应用需求的前提下,放松结果的精度, 可能换取更快的处理速度、更小的计算开销。 但在计算里坚持非精确的思路并不意味着随便去做,仍然需要对质量做最基本的保证。
第二个“I”是 Incremental(增量性)。这个特征和大数据里的动态持续变化紧密相关。 因为数据是持续变化的,可能新来的数据占到历史上所有数据积累的比例很小。 如果能够把计算变得增量化,只针对新到来的、比较小的数据做计算,然后以可接受的计算代价, 把计算的结果融合到已有的计算结果里,这在一定程度上能实现“将大数据变小”,增强我们进行大数据计算的能力。 但增量不仅要求计算框架有特殊的支持,可能对算法本身也有一些要求,有一些问题是适合增量处理的,而有一些算法并不一定适合。 从这个角度看,可能要运用一些新的思想和方法来设计支持增量的算法, 同时, 在大规模的分布式计算系统中支持增量计算的处理。
第三个“I”是 Inductive(归纳性)。 大数据是多源融合的数据, 这些数据代表了现实世界,代表了统计学上所谓的 “总体”. 从这个角度看, 如果能够把来自不同源的数据相互参照,不 但 可 以 弥 补 在 所 关 心 的 维 度 上 数 据 稀 疏 的问 题 ,同 时 还 可 以 通 过 多 源 数 据 的 参 照 ,在 一定程度上控制因为非精确计算带来的误差,帮助控制解的质量。
这就是从大数据计算角度总结的一些内容。 非精确性、增量性和多源数据之间的归纳性成为大数据设计系统和算法设计的重要参考。 大数据本身是一个交叉学科,是应用驱动的垂直整合,也是理论算法、分布式系统、数据挖掘和机器学习方法等诸多方面的整合。 从数据开放和标准化角度看,数据开放是构成大数据整个产业生态链的重要起点,开放数据有一些好的平台。 开放数据、数据格式、数据语义的标准化将有助于我们建造一个更加丰富的大数据应用生态环境。
大数据的新应用
陶海亮:百度是中国重要的互联网公司,其本身是一个大数据公司,因为做搜索引擎业务,因此必须要掌握大数据技术。 通过与很多行业、企业和政府的接触, 我们发现大数据对一些行业的应用提出了很多挑战,主要有三个方面:一是最底层数据存储和计算的规模面临挑战;二是在大部分的传统企业中,在数据的管理和挖掘技术方面比较缺乏;三是在大部分的传统企业中, 机器学习和人工智能技术并不被 IT 人员所掌握。
百度在 4 月发布了百度大数据引擎战略。 这个战略是把百度多年积累的、 在大数据应用方面的技术能力开放出来,让各行各业都可以使用。 大数据引擎包括了三个部分,最底层是开放云,可以理解为云计算,但是百度的云规模更大一些,因为有一些独有的技术,包括低能耗的数据中心、分布式架构和智能化运维。开放云上层有数据工厂。数据工厂是新一代数据库管理技术和挖掘方法。 数据工厂上层有一个最核心的百度技术,叫作“百度大脑”. 百度大脑已经达到了非常先进的程度,把深度学习的技术、超大规模学习能力和平台都开放了出来。
百度管理的数据超过了 EB 级别。 每天新增的数据是 PB 级别,整体服务器超过了几十万台,单集群达到上万台。 数据工厂提供了超大规模的数据查询能力,单次查询可以快速扫描上百个 TB数据。 数据库在不同的应用场景下对性能的要求不一样。 在大查询、低并发的情况下强调数据的扫描速度,在高并发、小查询的情况下强调并行服务能力,可以达到十万的 QPS 指标。百度利用大数据的技术和能力开发了新的应用产品。 在搜索和广告的业务外,还做了新的尝试。
主要有以下几个产品。
(1)旅游预测旅游预测有两个部分:一是包括景点的预测,这是与旅游局和各地的旅游管理机构合作,基于他们的数据和百度的数据,可以对未来一周每一个旅游景点的人流情况进行预测;二是还可以基于旅游数据对城市旅游的出发地和目的地进行预测,这个预测结果对于旅行社和管理部门都很有价值。
(2)疾病预测通过中国疾病控制中心提供的数据,将这些数据与百度的数据相结合, 可以对全国 330 个地级市、2 800 个县区的多种疾病发病态势进行预测。 甚至在北、上、广可以做到商圈级别,如在王府井某一种级别发病的态势可以给出预测。
(3)指标预测百度每年有 50 万的活跃企业客户,遍布了 27个行业和所有省份。 百度每个季度、每个月都会发布一些相关的新的统计数据。 百度与中科院进行合作,通过中科院和百度数据的统计分析,可以预测中国的经济走势, 与统计局相关数据的指数相比较,得出宏观数据的指标误差很低,且时间比统计局提前了 3 个月。 这对于很多做经济研究的学者来说会非常有帮助。 另外,目前中国统计中小工业企业的数据指标较少。 百度基于数据推出了中小企业的指标, 填补了国内中小企业景气分析的空白,并做到了可以区分行业和不同的地域。
(4)百度司南百度司南是基于大数据的商业决策平台, 能够对市场格局进行定量研究,对消费者动态进行洞察,还可以直观地给出媒体投放的策略, 为广告主/代理商的广告投放决策提供了非常有价值的量化数据。