基于LDA主题模型的微博推荐系统的应用与实现

来源 :浙江工业大学 | 被引量 : 0次 | 上传用户:hellosunday
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,各种各样的网络应用不断涌现,微博为典型代表。伴随着微博的迅猛发展,微博短文本信息呈现爆炸式的增长。微博短文本数据异常庞大,如何对这些短文本进行分类是进一步挖掘短文本价值的关键,同时也是进行微博个性化推荐的关键。然而由于微博文本长度短、内容少、特征稀疏,使得微博短文本分类面临着巨大的挑战。传统的针对长文本的文本分类方法并不能很好的作用于微博短文本,所以研究针对微博短文本的分类方法势在必行。短文本分类方法的研究主要体现在对短文本的特征扩展上,现如今对短文本进行特征扩展的方法分为两种:一种是基于知识库的特征扩展方法,另一种是基于搜索引擎的特征扩展方法。这两种方法在短文本分类领域有着广泛的应用,但是也存在一定的问题。基于知识库的特征扩展方法对未收录在知识库的词汇不起任何作用,使用范围有限。基于搜索引擎的特征扩展方法在特征扩展的同时不可避免的会引入噪声数据且非常耗时。针对微博短文本所存在的特征稀疏等问题,经过分析和研究,提出了一种短文本特征扩展方法,并且结合LDA主题模型对微博短文本进行分类和推荐。主要贡献如下:1.提出了一种基于词汇链特征扩展和LDA模型的微博短文本分类算法即“词汇链扩展+LDA”算法。针对微博短文本分类过程中存在的特征较为稀疏、分类效果不好的问题,提出了在《同义词词林》基础上的词汇链特征扩展的方法。词汇链不仅能够涵盖到被《同义词词林》收录的词汇,还能涵盖到未被《同义词词林》收录的其他词汇,并且在扩展微博文本的同时还能不断丰富词汇链。针对VSM在微博文本分类中高维数、语义特征不明显的问题,使用LDA主题模型处理得到的主题概率向量作为微博文本的向量表示。与VSM相比,LDA有效降低了相似度计算的维度,还融合了一定的语义特征。2.在“词汇链扩展+LDA”分类算法的基础上,设计实现了微博推荐系统。该系统包括四个功能模块:数据导入模块、预处理模块、特征扩展模块以及LDA推荐模块。数据导入模块的功能是将获取的微博数据导入到系统当中并且按照随机比例划分训练集和测试集。预处理模块主要包括文本清理、中文分词、去停用词以及查看预处理结果四个功能。特征扩展模块主要包括生成词汇链、词汇链扩展、查看生成的词汇链以及查看特征扩展的结果四个功能。LDA推荐模块主要包括LDA建模、分类处理、查看分类结果以及微博推荐四个功能。该推荐系统根据微博短文本分类中相似度计算的情况,选取每个微博类别中相似度最大的前三条微博进行推荐。最后将“词汇链扩展+LDA”算法与现有算法进行对比实验,实验结果表明,本文提出的算法在有些微博类别的分类效果略差,但是总体上“词汇链扩展+LDA”算法有效地改善了微博短文本分类的效果。
其他文献
缆索吊装系统具有起吊能力大、运输快捷、易于操作等优点,特别适用于峡谷、河流等特殊地形上拱桥、斜拉桥和悬索桥的施工。国内已建和在建的钢管混凝土拱桥,钢管拱肋大多采用缆索吊装悬臂拼装法施工。贵州江凯河特大桥因受到两岸地形条件的限制,在钢管拱肋安装中采用了吊扣塔合一和在塔顶设压塔索的整体型缆吊系统及节段带重横移的施工方法。整体型缆索吊装系统中塔架在施工过程中变形与受力复杂,节段带重横移又进一步增大了塔架
在本土生态环境中,乡土植物经过长时间的发展演变,在自然选择和历史选择的共同作用下,逐渐成为本地生态系统中的有力竞争者。它们表现出明显的民族文化特点,有着丰富的文化内涵,是地域性城市景观中不可缺少的重要成分。长治市作为山西省重要的旅游城市之一,园林绿化是其城市建设的重要内容之一。但是近一阶段,国内过于重视对外来植物物种的引入,而没有充分挖掘乡土植物的绿化价值,不利于建立稳定的城市生态系统,同时也是对
在经济全球化的今天,随着中国“一带一路”战略的深入推进,中国的企业与世界经济的联系越来越密切,因此市场竞争越来越激烈。为了在激烈的市场竞争中立于不败之地,加强财务成
随着社会经济的发展和人们生活水平的提高,国内的金融市场逐渐成熟。本文既着眼于此,着重研究了金融工作中行为经济学的概念,分析了行为经济学的方法,并阐述了行为经济学在金
<正>儿童多动综合征是儿童时期一种常见的行为异常性疾病,又称“轻微脑功能障碍”。患儿智力正常或接近正常。以难以控制的动作过多注意力不集中,情绪不稳,任性冲动,并有不同
我国《著作权法》第十条第四款对保护作品完整权进行了规定,在研读了我国《著作权法》中关于保护作品完整权的相关内容后发现,因为我国《著作权法》对保护作品完整权的规定尚有不明确之处,导致法官的裁判标准各异,有的遵循主观标准,有的遵循客观标准,存在同案异判现象。因此对保护作品完整权的立法内容应予以完善。保护作品完整权的价值在于:确保作者表达信息的完整性和思想与表达的一致性,保护作品的同一性是保护作者思想完
<正>在朗读训练中加强对比,通过比较语句、段落、篇章之间的异同,能够发展学生的语感,加深学生对文本的感悟,使得学生在朗读过程中眼光更深邃,思考更深刻,见解更独特,从而提
车载自组织网络是一种由移动的车辆节点组成的特殊的无线移动自组织网络,是未来5G通信中的一个重要应用场景。与传统的移动自组织网络相比,车载自组织网络具有网络拓扑变化快、车辆节点高速移动等特点,传统的移动自组织网络中的信道接入协议和信息分发方式并不适用。因此,车载自组织网络中的信息分发策略成为了当前的研究热点。本文主要对车载自组织网络中车辆的信息分发策略进行了研究。首先,针对车载自组织网络中不同的车辆