随着我国旅游业和互联网电子商务的迅猛发展,互联网上的旅游电子商务网站成百上千,而这些网站提供的旅游相关信息堪称海量。这为普通游客设计自己的旅游计划提供了丰富的选择和参考,但同时也大大增加了 信 息 筛 选 和 比 对 的 难 度。例 如,使 用“百 度”搜 索 引 擎 检 索 关 键 字“九 寨 沟 三 日 游”,检 索 结 果 获 得23 800 000个页面。为此,建立一个第三方网站,通过“推荐系统”向游客提供旅游计划个性化服务具有很高的实用价值和商业价值。传统的“推荐系统”一般基于用户的历史记录(例如网页浏览记录、产品购买记录、对产品的评价或评分等)设计推荐算法,但旅游活动不同于一般的产品消费,即游客一般不会重复地旅游或者频繁地旅游。因此,旅游电子商务网站的“推荐系统”有必要选择其他 理论和技术作为基础。比较普遍的情况是,游客对于自己将进行的旅游活动仅有一些初步的想法(例如时间、费用、旅游地点等),对于具体行程安排不太了解,所以在制定旅游计划的过程中往往喜欢参考别人的旅游计划或者经验,并以此作为自己旅游计划的基础和依据,修改这些例子以形成自己的旅行计划。有鉴于此,范例推理(Case-based Reasoning)理论和技术可运用到旅游电子商务网站的“推荐系统”设置中。范例推理理论和技术起源于美国,是人工智能领域中较新颖和成熟的一种问题求解和学习方法。它的基本思路是在新问题的解决过程中,通过寻找与之相似的历史范例,挖掘历史范例中可资借鉴的信息和知识,进而形成新问题的对应解决方案。基于范例推理的问题求解过程的可以分为4个阶段:范例检索(Retrieve)、范例重用(Reuse)、范例修正(Revise)和范例保存(Retain)。
1 机构框架
基于范例推理的旅游计划推荐系统由三个层次构成,即游客应用层、Web服务层和数据源层,见图1.
(1)游客应用层。该层为游客访问推荐系统提供一个的良好的交互操作界面,游客可输入文字、数字等信息,浏览、修改和保存旅游计划推荐系统的输出结果。(2)Web服务层。该层负责从数据源中检索、更新数据。旅游计划推荐系统运行在该层。该层主要模块包括管理模块(负责和“游客应用层”相互作用,管理其他模块、维护“数据源层”、检索模块(负责CBR技术中的检索、匹配功能)。(3)数据源层。该层包括旅游计划收集库、旅游计划范例库和游客资料库等。其中,旅游计划收集库包含大量采集自各网站的、未经整理的旅游信息资料;旅游计划范例库包含大量的标准化的旅游计划范例;游客资料数据库包含着登陆游客的相关历史记录。
2 关键技术与方法
基于范例推理理论和技术,本文将范例推理系统作为旅游计划推荐系统的核心组成部分。为了保证旅游计划推荐系统正常运作,该范例推理系统必须解决3个关键问题,即旅游计划采集系统、旅游计划范例库和旅游计划范例检索设计。
(1)旅游计划采集系统。旅游计划范例的搜集工作主要依赖旅游计划自动采集系统进行。该系统通过“URL模板匹配库”过滤出可以解析的网页,然后将可解析的HTML文档进行网页结构化处理,生成XML文档。最后结合DOM4J和XPath语言建立页面解析模板,从XML文档中抽取指定节点信息,并将其存储进入旅游计划收集库。旅游计划采集系统工作流程参见图二。需要说明的是,笔者将XML语言应用在网页信息自动抽取过程中。XML是一种元标记语言,它将结构、内容和表现分离,提供描述结构化资料的格式,有着较好的数据存储格式,可扩展性,高度结构化,语义性强、能够解决HTML网页的数据的异构性和半结构化问题。URL模板匹配库是一个包含了旅游电子商务网站URL特征的XML文件,与待抽取网页的URL进行模板匹配,判断页面是否可以被解析并确定其网页解析模板。XPath(XML Path Language)是一种在XML文档中查找信息的语言,可用来在XML文档中对元素和属性进行遍历。用DOM4J解析器可以从指定的XML文档中自动抽取出所需信息。
(2)旅游计划范例库。各旅游商务网站提供的旅游计划包含大量信息,内容侧重点和格式等大相径庭,因此必须将这些旅游计划进行标准化处理,即将一个个旅游计划依据需要事先确立旅游计划范例模板转化为旅游计划。该范例模版既能够最大限度地反应普通游客对旅游计划的诸多关注要点,而且信息应该言简意赅,一目了然。为了更好的了解普通游客对旅行计划的关注要点,笔者与Phuket ABC Tour合 作 进 行 了 旅 游 计 划 网络问卷调查,历时30天,获得“旅游计划问卷调查表”100份(该问卷调查表调研对象为普通游客,调研主要内容为对旅游计划的关注要点进行排序和打分)“旅游计 划问卷调查表”统计结果显示,普通游客对旅游计划的关注要点由强到弱排序为景点、时间、费用、住宿、餐饮、交通。为此,笔者设计了一个旅游计划范例模版(以成都国旅的九寨沟三日游为例),见表1.旅游计划范例库存储有大量旅游计划范例,并且能够不断补充的新的旅游计划范例。
(3)旅游计划范例检索。与旅游计划范例模板相匹配,笔者设计了新旅游计划模版,游客可根据自身需要选填各项。新旅游计划模版见表2.表2中,“关注程度排序”可理解为游客赋予各“关注要点”的权重;“时间”和“费用”两项为数值,“地点”、“住宿”、“餐 饮”、“景 点”、“交通”和“旅游对象”项为字符。假设新旅游计划与旅游计划范例分别表示为t和s,fti和fsi分别表示新 旅 游 计 划 和 旅 游 计 划 范 例 的 第i个“关注要点”的数值或字符。
对于旅游活动的“时间”和“费用”而言,如果新旅游计划设定的数值与旅游计划范例的数值之间差距过大,则游客 一般 难 以 接 受,例 如5 000元与50 000元之间的差距,5天与10天之间的差距。故根据生活常识设定两者差距介于0.5和1.5倍之间为有效相似度,否则为无效相似度。
地点“、”住宿“、”餐饮“、”景点“、”交通“和”旅游对象“等字符项目相似性计算公式为
将单个关注要点的相似度与其权重相乘(w{1,2,3…7}),其结果再相加得到新旅游计划与旅游计划范例的总体相似度。总体相似度越大,说明新旅游计划与旅游计划范例越相似。旅游计划范例按照总体相似度降序输出。
3 结语
为了帮助游客从海量网络旅游信息中解脱出来,快速、有效地制定个性化的旅游计划,笔者尝试提出了基于范例推理的旅游计划推荐系统的系统框架。该系统在实际运用过程中还存在一些难题,需要大量关键技术与方法的支撑,笔者仅进行了简要的探讨,未来还有待于进一步研究。
参考文献:
[1] 张曌,夏国平,李雪峰。基于案例推理的电子商务个性化推荐系统[J].计算机工程,2007(20):187-189.
[2] 杨健,赵秦怡。基于案例的推理技术研究进展及应用[J].计算机工程与设计,2008(3):710-712.
[3] 胡少荣,孟嗣仪,刘云,等。网页信息自动抽取技术的研究[J].铁路计算机应用,2010(9):37-40.
[4] 李施施,叶柏龙。基于案例推理的电子商务推荐系统研究[J].计算机光盘软件与应用,2013(3):14-15.