摘 要: 针对用户画像学术研究文献开展计量分析,使用Citespace可视化工具对用户画像的时序分布、作者分布、科研机构分布、期刊分布等用户画像的研究现状进行了具体的描述分析,并对关键词进行共词和聚类分析以发现研究热点。归纳了用户画像领域的主要研究方向及研究状况,为下一步的研究工作提出了建议。
关键词: 用户画像; 文献计量; 聚类分析;
Abstract: Based on a quantitative analysis of the academic literature on user portrait,the paper uses the CiteSpace to analyze the progress on user portrait,such as time sequence distribution,author distribution,scientific research institution distribution,journal distribution,etc.,and to find the research hotspots by using the co-word and cluster analysis of key words. The paper summarizes the main research directions in the field of user portrait,and puts forward interesting topics for the future work.
Keyword: user profile; literature measurement; cluster analyze;
1 、引言
2018年8月,中国互联网络信息中心(CNNIC)发布了第42次《中国互联网络发展状况统计报告》,据报告中显示,截至2018年6月,我国上网用户人数已超过8亿,互联网普及率达到57.7%;18年上半年新增的网民数量为2968万人,同比上一年增长了3.8%;而我国使用手机上网的用户规模已达7.88亿,上网用户通过手机连接互联网的比例高达98.3%[1]。如此大规模的用户使用网络,并不断在网络上留下他们所生成的评论、留言、点赞,以及上网过程中留下的浏览记录、搜索痕迹等,造成了大量的数据残留,从而导致用户无法迅速便捷的在网络上查找到所需信息。因此,学者开始思考如何有效从大规模的数据中挖掘它所隐藏的价值,从而缓解甚至消除这些问题。用户画像在这时逐渐被学者们所关注,相关的研究文献也在不断增多。
用户画像是一种建立在用户数据之上的数学模型,它也是一种数据分析工具。通过对收集到的用户数据进行统计分析,将用户的属性特征分为自然属性、社会属性、心理属性等,从而以标签的形式表示出用户的“全貌”。正是由于用户画像能展示出用户的特征偏好,使得目前对于用户画像的研究不断深入,且将其应用于各种环境当中,以实现精准营销[2]、个性化推荐[3,4,5,6]、行为预测[7,8,9,10]、异常检测[11,12]等。本文以中国知网的中国学术文献网络出版总库作为数据源,利用文献计量的方法,对用户画像相关的文献进行统计分析,对其文献特征进行分析,主要从时序分布、期刊来源、作者分布、科研机构分布几方面进行介绍,对关键词进行共词和聚类分析发现研究的热点问题,总结出现有研究存在的问题与挑战,并提出了相关建议。
2、 数据来源与研究方法
2.1 、数据来源
本文是以中国知网的中国学术文献网络出版总库作为数据源,以“用户画像”为检索词,并以“主题”为检索范围,时间跨度2010年1月1日到2018年8月31日,共检索出470篇相关文献,去除报纸、学术辑刊等非学术文献后,最终得到466篇文献。利用中国知网的文献管理中心输出相关字段,主要包括“作者、题名、文献来源、摘要、引文、关键词”等(检索时间为2018年12月20日)。
2.2 、研究方法
文献计量法是通过使用统计学、数学等计量方法,统计分析文献的分布情况、数量特点等,从而通过数据的形式来分析文献的变化规律的一种研究方法[13]。本文利用Excel和citespace对所得到的相关研究文献的文献特征和研究热点进行深入分析。对于用户画像的发文时间、作者分布、期刊分布以及科研机构分布等文献特征,采用一般的统计分析的方法实现,以揭示目前我国用户画像整体的发展现状。对用户画像研究中的关键词进行共词分析以及聚类分析方法,以分析并发现我国用户画像的研究热点及发展趋势,并描述了用户画像现有研究中的主要问题以及未来的研究趋势[14]。共词分析是由Callon M于1986年提出的,其基本原理是通过统计文献中词汇对同时出现在同一篇文献的次数,以此来展示出这些关键词之间的关联度,进而反映出此领域的研究热点问题,分析学科领域的发展过程和结构演化[15]。聚类分析是根据关键词之间的关联强度,将最相关的一组词聚类成簇,从而实现相关的词聚在一起,实现研究热点主题的发现。
3 、用户画像研究的文献特征分析
3.1、 时序分布
发文数量作为对某一研究领域中直观的显示文献数量变化的一个重要指标,可反应出其研究的热门程度[14]。对中国知网的中国学术文献网络出版总库得到的466篇文献进行统计分析,逐年变化情况见图1。由图1可以看到国内最早正式提出“用户画像”一词是在2010年,而2011年到2015年之间,相关研究文献还是很少,加起来仅有37篇,说明此阶段用户画像一词仍未引起学者的注意。直到2016年开始至今,研究文献数量持续增加,2016年一年就有72篇,2017年已达到180篇,而2018年9月前达到177篇,数量增长迅速,说明用户画像一词逐渐开始被学者关注,越来越多的学者开始进行这一方面的研究。
图1 用户画像研究文献发文数量分布
3.2、 作者分布
通过对所检索到的466篇文献进行统计,它们共包含724位作者。实际研究中较核心的作者通常是群体合作的,毕竟单个学者成为核心作者在发文数量较群体研究来说处于弱势。美国着名的学者普莱斯(PriceD.S.)提出的普莱斯定律是目前对于核心作者分析中应用较广的一种方法[16]。因此,本文用此方法确定核心研究学者团体。经过对用户画像中相关学者的发文数量的统计,最多的是张慧敏和李雅坤两位学者,都发表了3篇,据此得发文数量在2篇及以上的作者是用户画像研究中的核心作者。
用户画像研究领域中的49位核心作者共发表了论文100篇,占发表的论文总数的21.46%,远远低于了普莱斯定律50%的标准要求。这显示出我国目前对于用户画像的研究虽已经开展了不少时间,但仍然未形成重点的核心研究团队,此领域的大多学者都只是潜在的提及了用户画像这一名词,而并没有专门的去研究这一主题,因此,未来学者可针对此领域展开大量研究,使研究更加深入进行,促进用户画像研究的进一步开展。
通过使用citespace软件对作者的合作情况进行分析,如图2所示。字体大小代表发表的论文数量的多少,其中,字体越大,代表发布的论文越多,反之字体越小,代表发表的论文数量越少。节点间的连线的粗细代表合作的次数,合作的次数越多,连线越粗。由图2可以看出由4人组成的团队有3个,2人组成的团队也有3个,其余均为单人。第1个是以大连理工大学林鸿飞为中心,杨亮、徐博以及古丽孜热·艾尼外围绕其周围形成的团队;第2个是燕山大学的刘海鸥为中心,张亚明、孙晶晶、苏妍嫄形成的团队;第3个是北京大学的黄文彬,吴家辉、徐山川、王军围绕其周围构成团队。此外,还包括3个2人组成的团队。
图2 作者合作分布
3.3、 科研机构分布
通过对检索的466篇文献的第一作者所属的机构进行分析发现,发文量最高的是高等院系的作者,共有332篇论文,达到论文总数的71.24%;其次是企业作者,论文数量为45篇,占论文总数的9.66%;研究所作者论文数量为32篇,占比6.87%;高校图书馆作者论文数量为15篇,占比3.22%。具体统计数据见表1。
表1 文献作者机构分布情况
从表1可知高校院系是撰写论文的主要力量,绝大多数文献均是由高校院系提供的,其原因在于他们拥有大量的时间进行阅读和学习,专门研究各种算法模型,寻找用户画像这个领域的空白点,不断深入挖掘该领域。而企业、高校图书馆、研究所在这方面的文献相对较少,可以加强这方面的研究。同时,各个机构可以相互合作,这样可以弥补对方的不足,从而得到快速提升。
3.4 、期刊分布
表2 论文期刊分布情况
通过对466篇文献的来源期刊进行统计分析,可以发现,刊载了有关用户画像的期刊较为分散,有264种。其中刊载2篇及以下的文献有231种,因此,实际上有关用户画像研究的论文主要集中于33种期刊。而北京邮电大学、华南理工大学、北京交通大学、邮电设计技术、情报理论与实践、电脑知识与技术、电子科技大学、哈尔滨工业大学、图书馆学研究、现代情报、有线电视技术、浙江大学、中国科学技术大学是发表用户画像领域论文较多的期刊,排名前十的期刊发表论文104篇,占样本的比重为22.32%,如表2所示。这反映了目前国内并没有形成集中研究用户画像领域的期刊群。
4 、我国用户画像研究的热点分析
4.1、 关键词共现分析
一篇文献中阐述了整篇文章核心内容以及研究主题的正是文献的关键词,一般由几个核心词组组成。因此,当所研究领域中的一些关键词不断在文献中出现时,说明该关键词所反映的研究内容是该领域的研究热点问题。因此,通过对高频关键词共现关系分析,可以进一步明晰若干热点研究领域。本文通过使用citespace软件进行关键词共词分析,对关键词对在同一篇文章中出现的频次进行统计分析,以生成共词图谱直观展示出研究的重要主题。(如图3所示)[17]。
图3 关键词共现图谱
图3中的关键词出现的频次越高,则该节点越大;节点之间的连线越粗,则说明关键词之间的共现强度越大。从图中可以看出,在用户画像的研究领域中出现频次最多的关键词是“用户画像”,其次是“大数据”和“精准营销”,此外。还有“数据挖掘”“推荐系统”“个性化推荐”“协同过滤”“画像”“机器学习”“hadoop”“用户”等关键词提及频次也较高。这些关键词的内容显示了用户画像研究领域研究的主体内容。
4.2、 共现关键词聚类分析
共现聚类分析法是一种通过文献计量和聚类统计相结合的方法,计算关键词在同一篇文献共同出现的频率,将距离较近的关键词聚集在一起,形成一个个概念相互独立的类团,使得类团内属性相似性最大,类团间属性相似性最小。运用citespace软件,由于该软件提供了三种聚类算法,即TF-IDF、LLR以及MI三种。因此,比较聚类结果后最终选择了LLR算法对关键词进行聚类,得到8个类团(如表3所示)。
对数似然算法LLR是指当在类团Lj中,由词wi的频度(α)、集中度(β)和分散度(γ)等指标构成了向量Vij(α,β,γ),从而根据向量Vij选出能够代表类团Lj的特征词[18]。计算公式如下:
其中,LLR为对数似然比值;分别为Lj和的密度函数。
由这8个类团可以总结出用户画像主要集中在用户画像的构建和用户画像的应用两个方面。其中,集群4和5主要集中于用户画像的构建方法,它通过使用大数据分析技术,运用聚类、文本分类、随机森林、统计分析、主题模型、深度学习等方式,对采集到的与用户相关的各类数据进行处理和分析,挖掘用户的潜在特征和偏好,来实现用户画像建模。集群1、2、3、6、7和8主要集中在用户画像的应用方面,用户画像是基于用户在网络上生成的各种行为数据,运用各种数据挖掘方法,提取用户特征,并以标签的形式尽可能的勾勒出用户全貌。因此,用户画像被用于推荐系统、协同过滤,通过使用用户画像技术,基于表现出来的特征来对产品或服务进行匹配,寻找符合用户需求的产品或服务,并将最符合用户特征的推荐给用户,减少用户的查询时间,进而提高用户购买或使用率。也可以依据用户画像来对用户行为进行预测,判断用户的价值或潜在行为。用户画像的应用领域也在不断扩展,包括电子商务、移动运营商、教育、图书馆、互联网金融、社交网络等。
表3 共现关键词聚类分析
5、 结语
用户画像是一种数据分析工具,它相对于其他的数据分析工具更加深入与直观,主要基于用户在网络上的行为数据,运用各种数据分析与文本挖掘方法,以标签的形式将得到的用户特征表示出来,使得更加生动与直观,即使当你对一个你完全不相识的用户推荐商品,也能够快速依据用户画像,了解用户需求,并依据此需求寻找最符合的商品推荐给用户,而不需要通过询问用户来了解用户偏好,减少用户使用时间,提高用户使用满意度。然而,目前用户画像在国内的研究仍处于起步阶段,各方面的研究都相对浅显,本文通过对国内用户画像相关文献的梳理,利用文献计量的方法,对相关文献进行统计分析,主要从时序分布、期刊来源、作者分布、科研机构分布几方面进行介绍。并对关键词进行共词和聚类分析来发现研究热点。
未来对于用户画像的研究还存在一些难点以及重点。首先需要着重考虑用户的隐私问题,由于用户画像的构建完全是依赖于从网络上获取的数据以及其他一些数据,这就可能造成企业为了深入了解用户,运用一些违法行为来获取各种用户相关数据,这是一种可怕的现象。因此,对于如何合法的获取数据,保护用户的隐私安全,是一个重要问题。其次,目前用户画像的应用主要集中在电子商务、社交网络当中,未来可以将其推广到更多的应用场景中,如在线旅游领域、在线教育领域、医疗领域等等,以实现用户画像研究的普及和深入。然后,用户画像的构建目前只针对于某一具体领域构建,尚没有一个构建用户画像的统一框架,使得用户画像不易推广开来。因此,未来可将不同领域的用户数据进行数据融合,使其既能弥补用户数据稀疏的问题,也能构建一个更加全面细致的用户画像,使得用户画像能够应用于各个领域而不需制作专门的用户画像。最后,用户画像基于离线数据构建的,是一种静态画像,只能显示出用户短期内的一个用户特征与偏好,而实际生活中用户的兴趣随时间可能会发生改变。因此,变化后的兴趣无法通过过去的用户画像显示出来,造成画像使用时产生偏差,实时画像的构建显得尤为重要,未来可探讨用户兴趣的变化规律以及如何实现用户画像的实时更新。
参考文献
[1] 中国互联网络信息中心第42次《中国互联网络发展状况统计报告》http://www. cnnic. net. cn/gywm/xwzx/rdxw/20172017_7047/201808/t20180820-70486. htm
[2] 单晓红,张晓月,刘晓燕.基于在线评论的用户画像研究——以携程酒店为例[J].情报理论与实践,2018,41(4):99-104+149.
[3] 刘海鸥,孙晶晶,苏妍嫄,等.基于用户画像的旅游情境化推荐服务研究[J].情报理论与实践,2018,41(10):87-92.
[4] 齐会敏,刘群,戴大祥.面向兴趣主题的个性化好友推荐[J].计算机工程与科学,2018,40(2):348-353.
[5] 冯永,张备,强保华,等.MN-HDRM:长短兴趣多神经网络混合动态推荐模型[J/OL].计算机学报,2018:1-14.
[6] 曹斌,彭宏杰,侯晨煜,等.基于用户隐性反馈与协同过滤相结合的电子书籍推荐服务[J].小型微型计算机系统,2017,38(2):334-339.
[7] 高岭,高全力,王海,等.基于基准相似空间分布优化的偏好预测方法[J].计算机研究与发展,2018,55(5):977-985.
[8] 尚燕敏,曹亚男,韩毅,等.基于主题和大众影响的用户动态行为倾向预测[J].计算机学报,2018,41(7):1431-1447.
[9] 时聪,唐九阳,胡艳丽.融合用户行为与博文内容的微博用户影响力预测[J].小型微型计算机系统,2017,38(7):1495-1500.
[10] 王斌,陈琳,侯翔宇,等.透明计算中用户访问行为特征分析与预测[J].计算机工程与应用,2018,54(16):49-54+62.
[11] 蔡武越,王珂,郝玉洁,等.一种Hadoop集群下的行为异常检测方法[J].计算机工程与科学,2017,39(12):2185-2191.
[12] 李海斌,李琦,汤汝鸣,等.一种无监督的数据库用户行为异常检测方法[J].小型微型计算机系统,2018,39(11):2464-2472.
[13] 邱均平,苏金燕.我国竞争情报研究文献计量分析[J].情报科学,2008,26(12):1761-1765.
[14] 王晓红,任晓菲.基于CSSCI的我国隐性知识研究的文献计量分析[J].管理学报,2018,15(12):1854-1861.
[15] CALLON M,COURTIAL P J,LAVILLE F. Co-Word Analysis as a Tool for Describing the Network of Interactions between Basic and Technological Research:The Case of Polymer Chemsitry[J]. Scientometrics,1991,22(1):155-205.
[16] D·普赖斯,张季娅.洛特卡定律与普赖斯定律[J].科学学与科学技术管理,1984(9):17-22.
[17] 孙湘湘,周小亮.我国产业经济学研究热点和前沿的可视化分析[J].武汉理工大学学报(信息与管理工程版),2018,40(5):550-555+560.
[18] 何恺.商业模式研究热点与发展趋势[D].济南:山东师范大学,2018.