基于文本语义的个性化图书推荐

来源 :东南大学 | 被引量 : 6次 | 上传用户:amexiao428
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
互联网中积累的海量图书标签、摘要为分析阅读兴趣和构建个性化图书推荐系统提供了新的数据来源。因此本文主要研究如何整合标签、摘要等文本数据,构建个性化图书推荐系统,提升系统性能。本文工作可以分为基于语义的兴趣偏好模型、推荐算法的设计和基于Spark平台的并行化实现三个部分。首先提出基于词向量和共现频次计算标签语义相似度的算法,并针对具体场景设计优化方式。然后分别使用PIC算法和LDA算法建立基于标签和图书摘要的语义偏好模型,并采用基于语义偏好的协同过滤扩展算法生成图书推荐列表。最后,在Spark分布式计算平台上并行化实现推荐系统。本文首先介绍了课题的研究背景与意义,在相关文献的基础上,总结了影响个性化推荐系统性能的关键问题,明确了本文的具体研究内容。其次,本文研究了语义分析、聚类、推荐算法等课题关键技术,指出各种技术的优缺点,是后续研究的理论基础。再者,建立基于文本语义的兴趣偏好模型。其中,引入衰减函数作为权重,解决标签偏好的时间效应问题;提出基于词向量和共现频次计算标签相似度的算法,并针对本课题的具体场景设计优化方式,提升相关性计算的准确度;基于PIC算法实现标签聚类,建立基于标签语义的兴趣偏好模型,解决了标签的稀疏问题;利用LDA算法分析图书摘要潜在主题分布,建立摘要语义偏好模型,解决标签过少引起的冷启动问题。本文使用基于语义偏好的协同过滤扩展算法生成推荐结果,并设计实验测试系统性能。实验结果表明:(1)基于文本语义的阅读兴趣偏好特征能够正确地反映用户兴趣偏好;(2)推荐算法在准确率、多样性等指标上表现良好。最后设计实现基于Spark分布式计算平台的推荐系统。实现的主要模块有词向量训练、LDA主题分析、标签聚类和协同过滤扩展算法。前三者基于Spark机器学习库MLlib提供的接口实现。协同过滤扩展算法包括基于项目和基于用户两种模式,本文针对具体模块设计了实现流程。实测证明各种算法加速性能显著。
其他文献
随着社会的快速发展,人们越来越关注早教教师的专业化发展。由于幼儿的特殊性,社会对早教教师的专业化发展提出了更好的要求。何谓早教教师专业化的概念?影响早教教师专业发
随着我国城市化的迅速发展,建筑工程逐渐增多,在建筑竣工后的投入使用中,建筑的消防设施是其首要问题。采用防火分隔技术,可以对该建筑使用人员的生命安全做出有效的保障。本
分析了造成471QE发动机排气温度高的原因,提出对471QE发动机气缸盖改进设计的技术措施,并进行有针对性的试验研究。通过试验分析得出了燃烧室容积、点火提前角、燃烧室结构和气
设计了一种基于神经网络推理的汽车空调压缩机故障诊断专家系统。此系统将传统专家系统与神经网络技术科学地加以综合,弥补了传统专家系统的诸多缺陷。专家系统的知识库由两部
煤炭接续资源多在深部和优质资源多在西部并存的现状使得深部与西部开采成为煤炭资源开发的新常态,绿色矿山建设、绿色矿业发展与绿色化开采推进已势在必行。本文提出了煤炭
《从文自传》是沈从文自我剖白之作,写作传记时,他在文坛已小试牛刀,写下《萧潇》、《三三》等文章,但尚未创作艺术水平更高的《边城》《湘西散记》,有学者指出《从文自传》
主要收集并分析了黄岩汇煤矿职工澡堂洗浴热水年用水量、水源热泵年耗电量、稳定情况等指标,在此基础上,研究了余热锅炉汽水分离器产生的蒸汽输往矿井过程中的能量变化情况,
以Wistar大鼠为实验动物 ,进行了氟吗啉 (SYP -L1 90 )原药对该品系大鼠的致畸性毒性研究。设计剂量为 30mg/kg、1 32mg/kg、30 0mg/kg 3个剂量组和 1个阴性对照组 (食用油 )
在衡量电能质量好坏的众多指标中,电压具有非常重要的地位,而利用无功补偿,则可以提高电能质量、平衡系统无功功率、降低线损,当前已普遍应用到不同电压等级的电网之中。在电网自