论文部分内容阅读
在信息技术高度发达的今天,面对数量和种类日益丰富的旅游资源,人们可以方便的通过旅游资源搜索引擎、旅游电子商务网站等旅游信息系统获取旅游信息,进行旅游决策。但随着旅游数据的爆炸性增长,人们日益被淹没在数字的海洋,需要花费大量的时间和精力去筛选真正感兴趣的旅游信息。面对这种现象,如何通过旅游数据挖掘,发现用户旅游偏好,进而对其进行个性化推荐成为目前旅游信息系统建设的研究重点。在分析已有研究的基础上,本文认为用户的旅游决策受到自身条件和景点特征的综合影响,因此提出了一种利用用户-景点空间向量模型来进行用户兴趣景点刻画的方法。在该模型的基础上,本文利用基于互信息可信度加权的贝叶斯分类器预测用户对特定景点的评分情况,并以评分的高低和概率大小对用户进行景点推荐。在基于贝叶斯分类的偏好推荐的基础上,本文继续研究了利用关联规则的景点推荐算法。本文通过汇集一个用户游览过的所有景点得到旅游事务数据库,在最小支持度、最小置信度和最小提升度的条件下,利用FP-Growth算法进行频繁模式挖掘,得到景点之间的有趣的强关联规则。结合偏好推荐结果和发现的关联规则,本文将关联规则后件对应的景点也加入到待推荐景点列表。利用基于Scrapy框架的网络爬虫技术和基于BeautifuISoup的网页信息提取技术,本文从蚂蜂窝旅游网抓取了武汉市所有的景点数据,游览过这些景点的用户数据,以及这些用户对景点的评论数据。针对无法自动抓取的用户个人信息,本文设计了个人信息网络调查问卷,通过蚂蜂窝后台私信Api进行发放。在对有效用户过滤的基础上,使用部分用户的数据作为贝叶斯分类样本数据,剩余用户的数据作为测试数据,利用推荐结果的准确率和召回率指标评价推荐算法的有效性。实验结果表明,本文提出的结合了贝叶斯分类推荐和关联规则推荐的混合推荐算法具有较好的推荐准确率和覆盖度,能够满足对用户对景点推荐的需求。