基于MB-LDA模型的微博主题挖掘

来源 :第28届中国数据库学术会议 | 被引量 : 0次 | 上传用户:haicang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
  随着微博的日趋流行,Twitter等微博网站已成为海量信息的发布体,对微博的研究也需要从单一的用户关系分析向微博本身内容的挖掘进行转变。在数据挖掘领域,尽管传统文本的主题挖掘已经得到了广泛的研究,但对于微博这种特殊的文本,因其本身带有一些结构化的社会网络方面的信息,传统的文本挖掘算法不能很好地对它进行建模。提出了一个基于LDA的微博生成模型MB-LDA,综合考虑了微博的联系人关联关系和文本关联关系,来辅助进行微博的主题挖掘。采用吉布斯抽样法对模型进行推导,不仅能挖掘出微博的主题,还能挖掘出联系人关注的主题。此外,模型还能推广到许多带有社交网络性质的文本中。在真实数据集上的实验表明,MB-LDA模型能有效地对微博进行主题挖掘。
其他文献
【案情介绍】(一)“最牛股东”的浮与沉“四川省纪委、监察厅机关服务中心”(以下简称“机关服务中心”)是四川省纪委、监察厅下属的一家事业单位,负责为主管部门提供办公后
本文基于新的历史时期背景,探索政府部门行政工作中存在的问题,并结合新的历史任务分析提高行政效率的有效对策,以期为相关部门提供一些改革的思路,减少群众的等待时间,从而
本文研究建筑节能的社会经济效益分析及应对措施,研究节能对经济效益的影响,分析如何采取有效的措施加强应对,帮助建设单位和施工单位解决建筑工程的效益问题.
  文中对可能导致小儿患先天性心脏病的原因进行了分析,对胎儿心脏超声筛查的重要性进行阐述,并对筛选情况及筛选结果进行分析。介绍了先心病的治疗方法。
  在现实中的许多领域产生大量不确定的图结构的数据,例如分子化合物、蛋白质交互网络等。同时现实中有很多应用例如推荐系统中的推荐过滤、欺诈检测和社会网络的链接预测等
会议
本文以信息谱分析方法,对高海拔病的基础、临床、现代科学、中医、营养与微量元素等多方面研究结果,进行了纵向及横向比较,认为微量元素与高海拔病具有密切关系。微量元素谱对诊
  首先定义了多时间序列的支配关系,然后在此基础上给出多时间序列k'/k-支配Skyline查询的定义,并提出了GMS和GMI两种查询算法,对算法的正确性和复杂性也进行了证明和分析。合
慈爱“是儒家家庭伦理中的重要维度,特指父母在物质、精神、感情各方面对子女的关爱。随着现代核心家庭生活模式的确立,年轻父母的重心越来越由向上行孝悌之道转变为向下行慈
大数据时代的到来,赋予数据信息全新的价值意义,对于事业单位而言,只有真正把握住各方数据信息,才能够实现科学可持续化发展.财务管理作为事业单位内部管理工作中的重点,对数
随着工业的发展以及城市进程的加快,人们在发展经济的同时也造成了大气污染,为此做好大气的污染治理工作是环境保护的重要环节,为此本文提出有效的措施来做好城市环境管理工