学术堂首页 | 文献求助论文范文 | 论文题目 | 参考文献 | 开题报告 | 论文格式 | 摘要提纲 | 论文致谢 | 论文查重 | 论文答辩 | 论文发表 | 期刊杂志 | 论文写作 | 论文PPT
学术堂专业论文学习平台您当前的位置:学术堂 > 毕业论文 > 在职硕士论文 > 专业硕士论文 > 旅游管理硕士论文

旅游景点推荐情感分析算法改进研究

来源:新疆大学 作者:何雪琴
发布于:2019-12-07 共5708字
  摘 要
  
  近年来,旅游产业发展迅速,旅游门户网站层出不穷。相关的数据信息以指数级的速度在增长,包括游客评论、景色趣味评分、个性化定制套餐等,海量的数据造成了信息过载,也催生了推荐研究。同时,游客评论是用户情感观点表达的形式,兼具价值密度高和开放性等特点。群体意见为其他游客在决定出行景点或套餐时提供了参考,形成一种动态的协同环境。
  
  大多数旅游景点的推荐研究针对用户个性化展开,旨在寻找社会网络里的关联用户,挖掘隐形的关联信息作出相似爱好推荐。一是未充分发挥旅游评论的多重价值,二是忽略群体推荐的重要性。针对上述现状,提出基于情感分析的旅游景点推荐,获取游客评论的情感倾向和情感状态,挖掘潜在的信息和问题,为用户出行决策做支撑。

旅游景点推荐情感分析算法改进研究
  
  为了提高旅游评论的情感分析准确率,针对旅游评论文本冗长且句式复杂,现有的旅游类情感分析算法较少考虑文本特点和句法变化规则,导致分类准确率降低的问题,对算法提出了改进。根据句法规则对文本进行直接分类词、总结句和转折句的初步提取,再通过CNN分类,有效提高了准确率。在保证评论情感分析的准确率的基础上,拟定情感因子来矫正正负面评论数量失衡比例,获取相应的情感分值并标准化。对于部分景点的结果偏差,忽略评论基数影响力的问题,利用区间指派方法调整系数,最终获取合理的景点情感分值并挖掘多维度数据综合进行推荐,辅助用户决策。验证和对比证明了本文提出的旅游景点推荐算法的合理性和有效性。
  
  关键词:旅游推荐;情感分析;CNN;情感因子;区间指派方法。
  
  Abstract。
  
  The renewal of new media technology has brought about changes in the marketing structure and mode of traditional tourism and opened up new development of tourism. Tourism portals emerge in an endless stream, and related data and information are growing exponentially, including visitor reviews, scenic interest ratings, personalized customized packages and so on. Massive data results in information overload and also leads to recommendation research. At the same time,tourists'comments are a form of expression of users' emotional views, which have the characteristics of openness and high value density. Group opinions provide a reference for other users when deciding on scenic spots or using services, and form a dynamic group collaborative environment.
  
  Most of the recommendation studies of tourist attractions focus on user personalization, aiming at finding relationships in social networks, mining related information of users and making similar hobby recommendation. First, the multiple value of tourism commentary has not been fully exploited, and second, the importance of group recommendation has been neglected. In view of the above situation, this paper proposes scenic spot recommendation based on emotional analysis, obtains the emotional tendency and emotional state of visitors'comments, excavates potential information and problems, and makes support for users' travel decisions.
  
  In order to improve the accuracy of emotional analysis of tourism reviews,aiming at the long and complex texts of tourism reviews, the existing algorithms for emotional analysis of tourism reviews seldom consider the characteristics of texts and the rules of syntactic changes, which lead to the reduction of classification accuracy,an improved algorithm is proposed. According to the syntactic rules, the text is directly classified into words, summary sentences and transitional sentences, which are extracted preliminarily, and then passed through the volume. The product CNN is used to classify, which effectively improves the classification accuracy. On the basis of guaranteeing the accuracy of emotional analysis of comments, emotional factors are designed to correct the imbalance proportion of negative comments, obtain the corresponding emotional scores and standardize them. For some scenic spots,ignoring the impact of the comment base, the interval assignment method is used to adjust the coefficients. Finally, reasonable emotional scores of scenic spots are obtained and multi-dimensional data are mined to synthesize recommendation to assist users in decision-making. The validity and rationality of the proposed recommendation algorithm are proved by verification and comparison.
  
  Key words: Tourism Recommendation; Sentiment Analysis; CNN; Affective Factor;Interval Assignment Method。
  
  第一章 绪论。
  
  1.1 研究背景及意义。
  

  2018年文旅融合顺利开局,公布了近年来旅游市场基本情况,2018年图示为上半年的数据,旅游人数持续稳步上升,全年国内旅游人数55.39亿人次,同比增长10.8%。经估算,2018年旅游业对GDP的贡献值占总量的11.04%,计9.94万亿元。旅游蓬勃发展的旅游业不仅改变了人们的生活结构,还直接和间接的带动了7991万人就业,占全国就业总人口的10.29%,意义重大。
  
  
  
  旅游业的迅速发展,旅游门户网站如携程旅行、飞猪、途牛网站等功不可没。
  
  这些网站的大量推广,让人们对旅行有了更多的向往和追求,出行的人越来越多。
  
  而在旅游业高速发展的同时,相关的数据信息也以指数级的速度在增长,包括用户评论、出行路线、门票价格、季节特色、旅游套餐等,各大网站、各大平台等各类信息层层堆积,层层覆盖造成信息过载。与此同时,用户想在海量的信息里寻找和发现感兴趣的目标变得非常的吃力,耗费大量的时间且信息的可信度无法保障,考验用户的耐心和分辨力,使得网络潜在旅游用户难以通过全局统计作出合适的决策,决定最终的旅游目的地。
  
  在这种情况下,推荐系统应运而生,建立过滤机制,向用户推荐有价值的信息,且避免了长时间的浏览查阅。近年来,围绕电子商务的推荐方法研究层出不穷,旅游景点的推荐研究较少,理论和应用都不够完善,且各大旅游网站关于旅游产品的图片和介绍修饰成分经常过重,实际情况可能跟描述的大相径庭,且基于评分和销量等统计进行推荐的结果仅能说明一部分情况。因此,如何有效合理的挖掘和利用这些评论信息,辅助用户决策成为我们新的挑战。如何快速准确的找到合适的旅游景点是我们现在需要追求的。
  
  此时,含有大量信息的游客评论成了其他用户判断的重要依据,但用户的时间和精力总是有限的,通常不会浏览完所有的评论,因此也无法形成全局观念。
  
  且即使全部通读也不一定每次都获得完备的信息。
  
  在上述情况下,本文提出了基于情感分析的旅游景点推荐方法,通过自动挖掘游客评论获得情感倾向,辅助景点推荐,将用户从繁重的搜索和阅读中脱离出来,加强推荐的可信度。并且通过细化情感分析结果结合其他指标向用户提供多维度推荐。
  
  本文的实验数据是在携程网上爬取的新疆5A、4A景区的最新评论。针对新疆的形势环境,直观的给游客提供更准确的推荐,具有现实的意义,对新疆旅游业的发展起也起到促进作用。
  
  1.2国内外研究现状.
  
  1.2.1推荐算法的研究现状.

  
  推荐系统的目的就是有效过滤无关信息,根据历史记录做出符合用户的物品和服务推荐。协同过滤算法是使用频率最高的推荐方法[1-2],有针对用户[3]和物品[4]的两种方式。其手段就是通过计算评分和相似度来找寻相似的用户或物品,但存在高维数据稀疏问题。同样有效且具有相同局限的还有基于内容的推荐方法[5],其依靠内容的相似性来找寻。传统算法还有基于知识、效应和关联规则等[6-8],在此基础上,各种衍生和组合算法在某种程度上改变了不足之处。
  
  借鉴LDA对文档推荐的知识,文献[9-10使用LDA或与矩阵分解技术分解用户对物品的评分,通过降维提高相似度的计算精度。但由于同时减少了用户信息,因此有效性难以保证。文献[11]
  
  通过分析游客评论,挖掘情感倾向,来预测用户针对某产品的综合评分,借助协同过滤的进行最终的个性化推荐。
  
  另外还有许多利用用户和项目之间的社会网络关系来建模的社会化推荐,和基于上下文环境(用户情绪、时间、地理位置等)获得项目评分来达到推荐的目的。郭磊等在用户的社会关系基础上,挖掘推荐对象之间的关联关系对最终结果的影响,取得了良好的反响[12]。在广告推荐中,涂丹丹等人基于矩阵分解技术通过联合用户、广告、网页进行上下文推荐,解决数据稀疏和冷启动问题[13]。刘妙根据用户评论做特征级的情感分析,利用情感词、程度副词、否定副词等几种常见的组合语义模式,计算出不同组合下的情感值,利用D-S证据理论对其进行情感词融合,做出不同维度、不同需求的产品可信推荐[14]。
  
  1.2.2情感分析的研究现状.
  
  情感分析已经不是一个陌生的话题了,是文本分类研究的热点问题,近年来国内外的相关工作也很多。通常人们通过评论来表达内心的感受,可以最真实的表达体验值。比如商家分析用户评论,获得用户对产品的反映、意见,从而提供更符合需求和使用习惯的产品。另外在推荐、市场营销和提升平台服务质量等方面情感分析具有重要使用价值。
  
  情感分析传统方法分为基于语义词典的和机器学习等。
  
  Turkey[15]在十几年前以PMIJR算法为基础提出了语义分析思想,主要将PMI与UR相结合,以文本的语义倾向来建模分类。江腾蛟[16]结合扩展词典和语义规则对微博文本进行情感倾向性分析。张玉芳等[17]在原有TF-IDF的基础上改进了特征提取方式来进行分类。Bo Pang等[18]最早提出了机器学习的分类方法,分别用贝叶斯分类器、最大摘模型,以及支持向量机SVM等方法对电影评论进行分类,实验结果表明支持向量机取得了最佳分类效果(82.9%)。万源[19]通过仔细分析潜在语义分析方法的局限性,提出了基于SVM和相关度结合的分类方法。
  
  这些分类算法一般都是利用语义词典或人工提取特征的方式来进行分类,效率高且取得不错的分类效果。不过基于语义词典的方法有许多局限之处,如特征维度高、忽略了上下文的信息且不能够保存词语的语法信息和相关的语义信息。
  
  基于机器学习的算法具有良好的领域移植性,但这种有监督学习的方法要求利用已知情感状况的数据作为训练集,虽然改进了之前的方法,但仍然忽略了上下文的信息以及数据集的规模情况。为了完善知识获取,深度学习算法被提出并被广泛应用。陈翠平[20]在文本分类中引入了深度信念网络的概念。张春云等[21]使用卷积神经网络自适应学习multi-gram特征的权重。Zhang等[22]通过卷积神经网络抽象出的文本概念特征来表示文本。王汝娇等[23]提出基于卷积神经网络与多特征融合的Twitter情感分类方法。李平[24]等通过构建词向量与字向量双通道CNN来提取更高层次抽象的特征。殷亚博等[25]提出基于卷积神经网络和KNN的短文本分类算法,准确率、召回率和F1值都有较大提升,达到了93%。深度学习算法利用神经网络和词向量来捕捉上下文的信息,完善了前期分类的不足,分类效果非常显着,但同时也存在学习训练时间过长的缺点。
  
  旅游景点的推荐大多是针对用户个性化的,群体推荐很少且基于评分来推荐,而商家出于商业方面的考虑,往往会通过虐佣人来刷分,同样,每个人的标准不一样,给的分值具有随意性等特点。因此,分数的高低并不能很好的帮助用户进行推荐。而评论往往是个人情感细粒度的表达,更能反映用户的意见。
  
  【由于本篇文章为硕士论文,如需全文请点击底部下载全文链接】
 
  
  1.3  论文研究内容
  1.4  论文组织结构
  
  第二章 相关理论概述
  
  2.1    数据来源
  2.1.1  数据爬取过程
  2.1.2  数据爬取结果
  2.1.3  数据清洗和标注
  2.2  文本预处理
  2.3  推荐方法介绍
  2.3.1  传统推荐方法的优缺点
  2.3.2  旅游景点推荐方法
  2.4  文本情感分析算法
  2.4.1  支持向量机
  2.4.2 K最近邻算法
  2.4.3  卷积神经网络
  2.5  本章小结
  
  第三章 融合规则和CNN的旅游评论情感分析
  
  3.1  旅游评论情感分析问题描述
  3.2  融合规则和CNN的旅游评论情感分析模型构建
  3.2.1  问题描述
  3.2.2  模型设计
  3.3  实验结果与分析
  3.3.1  实验环境和数
  3.3.2  实验结果和分
  3.4  本章小结
  
  第四章 基于情感分析的旅游景点推荐
  
  4.1  旅游景点推荐问题描述
  4.1.1  个性化推
  4.1.2  旅游门户网站推荐
  4.2  基于情感分析的旅游景点推荐模型构建
  4.2.1  获取旅游评论情感分值
  4.2.2  情感分值标准化与系数调整
  4.2.3  模型校验
  4.2.4  多维度推荐
  4.2.5  综合推荐
  4.3  本章小结

  第五章 总结

  旅游市场蓬勃发展,旅游门户网站大力宣传,出行人数节节攀升,应运而生的旅游评论以指数级的速度在增长,但未得到充分的挖掘利用。电子商务、旅游领域等将目光聚集在个性化推荐市场,忽略了群体性推荐,而百度搜索引擎等数据、推荐方式未公开,是否可靠也未知。因此,对景点推荐的研究具有现实的意义和应用价值。

  针对上述现状,本文对基于情感分析的旅游景点推荐进行研究。主要工作总结如下:

  (1)由于缺乏新疆旅游景点评论数据集,且网络爬取数据存在优势,分景点爬取了新疆区域12115条评论数据,经过清洗标注后,有效数据为10875条,并将文本表示成词向量。

  (2)在对旅游评论文本预处理的过程中,发现旅游评论文本冗长且句式复杂,现有的旅游类情感分析算法较少考虑文本特点和句法变化规则,导致分类准确率降低。旅游评论情感分类准确率低,将会导致景点推荐的可信度不高。基于此,本文提出融合句法规则和CNN的旅游评论情感分析算法,建立四个词典,根据词典对文本进行直接分类词、总结句和转折句的初步提取,最后通过CNN进行分类,将分类准确率提高到94.3%。

  (3)各景点依据算法将非结构化数据结构化,获取评论情感分析结果,存在正负面评论数量比例失衡的问题。借助情感乘数概念,本文提出情感因子,矫正正负面评论数量比例,获得相应的情感分值并标准化。对于部分景点的结果偏差,利用区间指派方法调整系数,最终获取合理的景点推荐。

  (4)利用获取的资源,充分利用,从情感分析、景色、趣味、性价比四个维度对景点综合评价,并可视化。

  参考文献

作者单位:新疆大学
原文出处:何雪琴. 基于情感分析的旅游景点推荐[D]. 新疆大学 2019
相关标签:
  • 报警平台
  • 网络监察
  • 备案信息
  • 举报中心
  • 传播文明
  • 诚信网站