微博热点事件子话题的可视分析方法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:XPTRY
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的飞速发展,社交网络成为了信息发布、信息共享的重要途径,海量的微博数据中包含着丰富的信息,记录着社会上发生的热点事件和人们的评论。如何从中挖掘出有意义的信息,理解热点事件发生的全过程,并发现其中的拐点事件显得越来越重要。  微博包含了海量的针对各种话题的数据,微博会对每个话题跟踪,当用户点击某个话题想要了解该话题的详情时,微博返回给用户的却总是确定的几篇微博,究其原因是因为热度高的微博排在前面,从而更容易让更多用户看到,并更多地参与转发、评论和点赞,这样热度就越高,导致对事件的关注点越来越集中,而用户对于该事件内部涉及到的不同方面没有系统全面的了解。传统的对于拐点事件的检测大多是基于词频的,即统计一段时间内频繁出现的词语并进行归纳总结。但是这些方法存在一些问题,文档中出现的高频词不一定能说明有拐点事件产生,同样有些拐点事件的产生也并不会被广泛热议,或不能由几个高频词代表,不会引起词频的激增。因此,基于词频的频繁出现进行拐点事件的检测具有一定的局限性。并且现有的关于子话题的提取方法大多采用的是固定的时间粒度,但是对于不同类型的事件而言,时间粒度很难一次性选择合适。  针对以上问题,结合主题提取和词频统计的技术,我们提出了一种交互式可视分析方法,通过对热点事件子话题演化过程进行不同粒度的展示,比较相邻时间区间子话题词分布的变化,发现关于某些子话题的拐点事件,进而利用词项共现图在微博原文中找到具体信息。其中,用户可以在交互过程中发现更优的参数配置,从而更加有效地分析拐点事件,并理解热点事件发生的全过程。在真实的数据集上进行了试验,并与传统的基于词频的方法和Leadline的方法做比较,验证了此方法的有效性。
其他文献
数据仓库是当今发展迅速的数据重组技术,它可以非常方便地构建OLAP、DataMining等高级数据分析应用,这些典型的数据仓库系统为现代企业的经营决策提供了良好支持,已成为企业
随着无线网络的逐步普及,用户可移动性成为信息安全领域的一个研究热点,并由此引入了许多新的安全课题.其中之一就是移动用户在认证过程中的真实身份的暴露.用户真实身份的暴
该论文的研究工作主要集中在两个方面,一个是延续朱伟勇教授的课题组成员的关于复映射M-J分形图谱及标度不变性的计算机数学实验和理论分析,另一个就是关于分形维数应用的几
学位
随着计算机技术和WWW(World Wide Web)的快速发展,企业和个人需要迅速及时地掌握市场信息,快速地响应市场变化,同时还要不断地降低实现新型电子商务解决方案的复杂性,以便在飞速
随着数字信息技术的迅猛发展,网络上的信息安全问题日益突出,密码学是解决信息安全问题的基础。尽管各种加密设备得到了广泛的应用,但不同开发商的安全产品的体系结构和接口却不
随着黑客技术发展,rootkits对操作系统安全造成了巨大威胁。借助虚拟机监控器可以有效检测rootkits攻击,虽然rootkits可以获得操作系统内核级别权限,但是虚拟机监控器权限要高于
本文对软件度量学、Agent及其技术和面向Agent的软件度量进行了分析和研究,提出了一套适合面向Agent软件的度量指标和理论,给出了一个度量面向Agent软件的度量模型:MA(Metric Ag
为了进一步深化行政审批制度改革,加快转变政府职能,提高办事效率,我们设计开发了这套集中审批办证管理信息系统(MIS)。本文首先分析了行政审批管理系统国内国外的发展情况,针对
嵌入式计算机正迅速向在各种各样的电子设备中“弥漫”。随着设备复杂度提高,嵌入式应用程序也越来越复杂。设备开发商希望应用软件能摆脱下层操作系统的限制,在多种系统平台上