基于多源数据融合的微博用户兴趣挖掘方法

来源 :哈尔滨工业大学 | 被引量 : 0次 | 上传用户:jbhjyh12345678
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网的快速发展,社交网络得到人们的广泛认可。在国内社交网络方面,越来越多的人开始通过微博发布信息,而微博网站也成为主流海量信息的发布体,对微博的研究也从显性的兴趣标签到微博本身潜在的内容进行主题挖掘。LDA(latent Dirichlet allocation)模型是近几年比较流行的一种非监督的主题模型,已经有一些研究通过在Twitter数据集上对LDA模型进行主题挖掘,但在中文微博的主题挖掘上的研究并不多。基于微博内容的用户兴趣挖掘可以获得较为精准的挖掘结果,但会面临冷启动和数据稀疏问题。基于交互关系的用户兴趣挖掘方法和基于交互信息的用户兴趣挖掘方法可以从两个不同的角度弥补基于微博内容的用户兴趣挖掘方法的缺陷。本文爬取新浪微博用户不同层次的数据用于进行多源数据融合微博用户兴趣建模研究。主要研究成果包括以下几个方面:首先,结合传统LDA模型提出一种适合中文微博的有监督的兴趣主题挖掘模型,即基于内容主题挖掘微博生成模型CTM-LDA。该模型有效的利用了先验主题信息,根据微博用户信息及用户原创内容相融合挖掘微博用户兴趣主题。其次,利用基于交互关系和交互信息的等信息源分别构建兴趣模型,利用交互关系矩阵和关注人兴趣标签以及词语间相似度生成关注人兴趣主题。最后,针对微博自定义内容,话题微博,交互信息,以及用户自定义标签等不同数据进行实验,构建微博用户兴趣模型,研究并设计了多源数据融合的用户兴趣模型,利用空间向量构建出用户最终的兴趣主题。本文提出了不同数据源的微博用户兴趣融合模型,通过研究发现可以有效利用用户之间的交互关联关系的信息对微博用户进行兴趣主题挖掘,且融合模型的效果要更优。未来通过用户的兴趣模型可有针对性的对微博用户进行个性化推荐,该模型可推广到其他社会媒体网站平台,对于企业而言具有一定商业研究价值。
其他文献
检验是解决问题中重要的一个环节,是确保解题正确的重要关卡,是培养学生责任心的有效载体.让检验成为一种习惯,应是学生解决问题的一个目标,可以从以下几个方面加以培养:晓之
本文作者从找好论述角度、写好每个段落、谋划中心论点等三个方面,简要论述了问题引领在高中议论文写作指导中的运用,纯属一家之言,有任何不足之处,还望诸位批评指正.
随着我国社会经济的不断发展,越来越多的人开始出现了亚健康的状态,而我国学生更是由于生活和课业压力的繁重而屡屡出现健康问题.据有关数据统计,我国中学生出现体重和视力问
党的十九大报告提出,"激发和保护企业家精神,鼓励更多社会主体投身创新创业.建设知识型、技能型、创新型劳动者大军
思想政治教育获得感是教育对象在思想政治教育实践过程中基于一定客观获得而产生的积极心理感受,其生成的根源是现实的人的需要。思想政治教育获得感的生成是一个循序渐进、
苏霍姆林斯基说过:热烈的学习愿望、明确的学习目的,是学生学习活动时最重要的动因.培养这种愿望的工作,是跟学校的全部教学和教育工作的安排紧密联系的,首先是在课堂教学中
在小学语文的教学阶段,诗歌是一项能够充分调动学生们情感,并培养学生审美观念的重要内容之一.小学语文教师必须要将诗歌教学存在的情感价值充分挖掘出来,让学生们能够充分地
教学过Step 1. GreetingGood ming, boys and girls. Im your new English teacher now. Today well have an English class together. Now Ill introduce myself to you. Lo
期刊