2014年9月北京大学成立了社会科学大数据研究院,2015 年 5 月 29 日邱泽奇教授发表了《大数据给社会学带来什么挑战?》的演讲,讨论了大数据和社会学的关系以及大数据给社会学带来的挑战。2015 年 5 月复旦大学举办了第三届“中国调查”学术研讨会,将“大数据时代的现代方法研究”作为一个重要的板块加以讨论。这说明社会学家们开始集体审视大数据给社会科学研究带来的影响。实际上大数据被应用到社会研究中已经有几年的历史,而现状是国内学术界还没有对此进行专门的探讨,本研究尝试对这一问题做出回答。
一、大数据的概念及其发展历程
(一)大数据的定义
迄今为止有关大数据的定义还处于争论之中,维基百科给出的定义是“大数据(Big data 或Megadata)或称巨量数据、海量数据,指的是所涉及的数据量规模巨大到无法通过人工在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息”.这是从数量的级别(PB或ZB)来定义大数据,主要讲的是数据量之大使得用常规的数据分析技术无法处理。另外一种讲法是从数据的特性来定义大数据,埃德·顿姆比尔(Edd Dumbill)认为大数据有大量(Volume)、髙速(Velocity)与多样(Variety)的特征.后来又加了一个特征,国际数据公司IDC(International Data Corporation)认为大数据应当具有价值性(Value),而 IBM(International BusinessMa-Chines Corporation)等认为大数据必然具有真实性(Veracity)。在 IDC 和 IBM 的说法中选择 1 个“V”再加上前面的“3V”,合起来就被称为“4V”,这是学术界广泛采用的说法。
(二)大数据的发展历程
最早运用大数据这一术语的是着名未来学家阿尔文·托夫勒,他在 19 世纪 80 年代出版的《第三次浪潮》一书中称赞大数据是“第三次浪潮的华彩乐章”.英国着名的大数据研究学者维克托·迈尔-舍恩伯格(Viktor Mayer-Sch?nberger)及肯尼斯·库克耶(Kenneth Cukier)在其合着的《大数据时代:生活、工作与思维的大变革》一书开篇中讲到了 Google 用搜索记录预测流感爆发的经典案例,并评论说这是“以一种前所未有的方式,通过对海量数据进行分析获得有巨大价值的产品和服务或深刻的洞见”[2].这一流感预测案例和沃尔玛“啤酒+尿不湿”的组合营销案例成为了大数据传播最广为人知的经典案例。2008年Nature也出了大数据专刊[3].2010年英国《经济学家》(The Economist)“The data deluge”一文,分析了健康管理、在线广告和政府管理带来的数据巨增,以及面临的风险。[4]
《科学》(Science)于2011 年也推出了“Dealing data online”专刊,说明大数据对于科学研究的重要性[5].麦肯锡全球研究院(MGI)2011 年 5 月发表“Big data:The next frontierfor innovation,competition and producticity”[6]. 2012年 3 月美国国家科学基金会发布报告“Big data research and development initiative”,涉及到环境、健康、应急管理、研究范式转变、大数据研究和发展的管理等方面的内容[7].2012 年世界经济论坛发布了“Big data,big impact:New possibilities for internationaldevelopment”,从金融服务、健康、教育、农业等领域分析了大数据给世界经济带来的发展机会[8].
国内关于大数据的概念大多引用美国学者的观点,徐子沛的《大数据:正在到来的数据革命》一书最先对美国数据运用的历史进行解读,对国民进行了大数据知识的普及,其最近出版的《数据之巅》一书着重强调数据文化。随后国内出版并翻译了一批大数据方面的着作,例如埃里克·托普(EricTopol)的《颠覆医疗:大数据时代的个人健康革命》、李军的《大数据:从海量到精准》、阿里巴巴副总裁车品觉的《决战大数据:驾驭未来商业的利器》等。
这些国内外的开创性研究通过互联网和传统媒体传播开来,使得学术界和普通民众日益认识到大数据的重要性。
二、社会研究中已经运用大数据方法的学科
大数据产生和发展的担纲者是互联网公司和数据科学家,无论是通过搜索关键词预测流感发生的研究,还是沃尔玛“啤酒+尿不湿”的营销都不是由社会科学家完成的。但是当大数据的概念传播开来后,立刻被社会科学家们引入自己的研究领域中。
大数据为语言学添上了翅膀,除了庞大的图书资料数据库之外,还有 Facebook、Twitter、新浪微博、腾讯 QQ 和微信朋友圈等诸多网络文本内容。美国学者米歇尔(Michel)等对 500 万本 Google 图书的内容进行挖掘,探讨了“Salvery(奴隶)”、“Apple(苹果)”等词汇在1800年-2000年出现的频率变化、语法演变、集体意识改变和技术适应等方面的内容[9].我国 2014 年度国家社会科学基金的重大委托项目“语言大数据挖掘与文化价值现”的成果《基于大数椐的汉语表达智能模型及其理论基础》探讨了构建汉语表达智能模型,提出了建立用于汉语机器表达的专门语料库的设想,讨论了该模型的理论基础[10].梅德明在《大数据时代语言生态研究》一文中讨论了大数据时代语言生态研究者的思维模式和研究方法[11].刘国辉运用语料库分析了英语“X-able”形态的文体分布与历时演变[12].这些研究意味着语言学家开始以大型语料库为基础,运用大数据的方法来研究语言现象,这和大数据的内容挖掘技术是一致的。
新闻传播学是运用大数据方法比较早的一个学科。国外已经出现了通过大数据自动编写新闻的软件。2015 年中山大学成立了我国第一个大数据传播实验室,同时也举办了“大数据与传播”的圆桌论坛。中国人民大学喻国明教授等也于 2015 年出版了《新闻传播的大数据时代》,该书涉及大数据时代的新闻生产、广告营销、舆情分析和新闻传播等方面的内容[13].喻国明教授特别强调大数据时代新闻传播学的范式转变,主要体现在从“随机样本”到“总体”的转变,从“理论”向“算法”与“规则”的转换[14].除此之外,大数据也对整个新闻产业产生了很大影响,主要体现在生产信息提供者层面、媒体层面和用户层面的深刻变化上[15].这种变化原因是大数据带来的新闻价值的改变,陈雪奇等就撰文分析了大数据给新闻“有用性”、“时效性”和“异常性”带来的改变[16].数据可视化给大数据新闻展示带来了很大变化,郎劲松等认为数据新闻通过挖掘和展示庞杂数据背后的关联与模式,能够通过可视化方式丰富新闻报道的方式[17].舆情监督和分析领域已经采用了很多大数据的方法,清华大学沈阳教授的团队在这个方面做了很多研究,其典型研究成果有《微博意见活跃群体分析报告》、《2013年中国县域网络形象分析报告》和《2013年中国地级市网络形象分析报告》等,都采用了大数据信息挖掘技术。总体来看,新闻传播学对大数据的运用已经有了范式、理论和方法方面的讨论,并有一些比较成熟的案例。
大数据方法也延伸到政治学研究领域。美国政治学的一个重要板块是研究政治选举,邦德(Bond R. M.)等依据 2010 年美国国会大选投票期间的 6100 万 Facebook 用户的发帖内容,分析了自我表达、信息搜寻和真实世界的投票行为之间的关系[18].托马斯·沙德福(Thomas Chadefaux)运用文本分析技术,分析了1990年到2013年间166个国家的报纸文章,来分析预测是否会发生战争[19].另外大数据在公共政策制定和分析中具有重要作用,而且已经用于突发事件处理和减少犯罪等方面[20].
国外的政治学研究已经有一些运用大数据方法的实证研究,而非仅仅是理论上的探讨。国内的孟天广等直接提出了“大数据政治学”概念,认为数据分析学新方法的引入、定量与定性方法的整合、政治学与计算科学、信息科学等跨学科研究、数据民主化所推进的政治知识平民化的传播和普及革新了我国的政治学研究方法[21].国内在政治学领域对 大 数 据 方 法 的 探 讨 主 要 集 中 于 理 念 和 理 论方面。
经济学领域,特别是营销领域,是大数据应用的重要发源地,比如亚马逊网站的图书推荐系统,就是根据用户的搜索习惯为其推荐可能感兴趣的图书,这种技术已经被阿里巴巴的淘宝网,京东和当当网等国内购物网站广泛采用,甚至一些博彩公司也采用了大数据的分析方法。国内学者俞立平提出了大数据经济学,分析了大数据经济学的研究内容和方法以及同其他学科之间的关系[22].刘涛雄和徐晓飞在《大数据与宏观经济分析研究综述》一文中认为,大数据在宏观经济分析应用中应用最为活跃的四个领域是宏观经济数据挖掘、宏观经济预测、宏观经济分析技术和宏观经济政策,探讨了大数据分析技术如何将机器学习算法引入到宏观经济分析[23].总体来看,当下经济学领域的大数据运用主要在营销领域。
大数据在教育学领域的应用,主要体现在大数据对于个性化教育的影响以及在线教育研究方面。张燕南等在探讨了大数据的基本概念和思维特征之后,探讨了大数据对于个性化教育、教育决策和教育效果评价的作用[24].吴刚在《大数据时代的个性化教育:策略与实践》一文中重点谈到可以通过学习分析学(Learning Analytics),借助技术平台将每个学生学习过程的数据进行智能分析,进而转化成教师的课堂决策及反馈[25].张羽和李越在《基于MOOCs大数据的学习分析和教育测量介绍》一文中利用慕课(Massive open onlie courses)等网络课堂的大数据,很好地发展了学习分析和教育测量[26].郑燕林和柳海民分析了美国运用大数据进行教育评价的路径[27].总体来看,教育学中运用大数据方法进行研究的成熟案例还不多。
美国的心理学是一个庞大的学术共同体,当然少不了大数据方法的应用和探讨。Kramer A.D.I.通过 Facebook 做了一项实验,将 70 万户的 Facebook 分成两组,一组接收积极的信息,另一组接收消极的信息,结果发现用户会表现出和刺激信息类似的情绪[28].换句话说,这是把心理学实验,从实验室搬到了互联网上。国内的心理学家也进行了相关研究。中国社科院心理学所的朱廷劭研究员等发表了《论大数据时代的心理学研究变革》一文,总结了大数据对心理学研究逻辑和研究方法产生的影响,认为有必要将大数据同心理学问题和心理学研究范式有机结合[29].朱廷劭还通过微博的帖子内容--客观“微博”行为记录(digital records of micro-blogging behaviors)预测其人格特征[30].在这一思路的引导之下,中科院心理所展开了一系列研究。目前,无论美国还是中国,心理学界都出现了不少运用大数据进行研究的成熟案例。
2014 年 8 月,美国社会学界提出了新计算社会学(new computational sociology)的概念[31],武汉大学的罗玮和罗教讲在《新计算社会学:大数据时代的社会学研究》一文中作了详细介绍,其中新计算社会学的五个主要内容之一就是“大数据的获取与分析”[31].范德里特等(Arnout van de Rijt)分析了美国从 2004 年-2009 年间的 2200 多种报纸周刊,10 万多个姓名,进而分析了名声的结构变迁[32],并将该文发表在《美国社会学评论》上。康奈尔大学社会学系的学者古德等人(Scott A.Golder et al.)2013年在《科学》上发表了论文,利用推特(Twitter)上从 2008年 2 月到 2010 年 1 月 240 万个用户的 5.09 亿条信息,分析人们的情绪变化[33].国内南京大学的学者陈云松运用谷歌图书的最新语料库(811万种书籍,8613 亿词汇)分析了社会学的学科轨迹、领域热点、理论流派等方面的内容[34].可见无论是美国还是中国都已经出现了社会学学者运用大数据进行研究的案例。
除了语义学、新闻传播学、政治学、教育学、经济学、心理学和社会学之外,管理学、营销学、历史研究、影视分析等学科也都将大数据的理念引入进来。比如,通过学籍卡等格式化资料构建大规模历史资料数据库来开展历史研究[35].而影视行业依据大数据来选择演员和剧情已经不是新鲜事。国内有学者提出,基于云计算和互联网基础构建电影大数据深度分析平台,并使之服务于电影产业发展和科学决策的设想。[36]