论文部分内容阅读
互联网中积累的海量图书标签、摘要为分析阅读兴趣和构建个性化图书推荐系统提供了新的数据来源。因此本文主要研究如何整合标签、摘要等文本数据,构建个性化图书推荐系统,提升系统性能。本文工作可以分为基于语义的兴趣偏好模型、推荐算法的设计和基于Spark平台的并行化实现三个部分。首先提出基于词向量和共现频次计算标签语义相似度的算法,并针对具体场景设计优化方式。然后分别使用PIC算法和LDA算法建立基于标签和图书摘要的语义偏好模型,并采用基于语义偏好的协同过滤扩展算法生成图书推荐列表。最后,在Spark分布式计算平台上并行化实现推荐系统。本文首先介绍了课题的研究背景与意义,在相关文献的基础上,总结了影响个性化推荐系统性能的关键问题,明确了本文的具体研究内容。其次,本文研究了语义分析、聚类、推荐算法等课题关键技术,指出各种技术的优缺点,是后续研究的理论基础。再者,建立基于文本语义的兴趣偏好模型。其中,引入衰减函数作为权重,解决标签偏好的时间效应问题;提出基于词向量和共现频次计算标签相似度的算法,并针对本课题的具体场景设计优化方式,提升相关性计算的准确度;基于PIC算法实现标签聚类,建立基于标签语义的兴趣偏好模型,解决了标签的稀疏问题;利用LDA算法分析图书摘要潜在主题分布,建立摘要语义偏好模型,解决标签过少引起的冷启动问题。本文使用基于语义偏好的协同过滤扩展算法生成推荐结果,并设计实验测试系统性能。实验结果表明:(1)基于文本语义的阅读兴趣偏好特征能够正确地反映用户兴趣偏好;(2)推荐算法在准确率、多样性等指标上表现良好。最后设计实现基于Spark分布式计算平台的推荐系统。实现的主要模块有词向量训练、LDA主题分析、标签聚类和协同过滤扩展算法。前三者基于Spark机器学习库MLlib提供的接口实现。协同过滤扩展算法包括基于项目和基于用户两种模式,本文针对具体模块设计了实现流程。实测证明各种算法加速性能显著。