论文部分内容阅读
社交网络服务的快速发展,为用户分享和传播信息提供了极大的便利,由此产生了海量丰富的数据。而这些海量信息也为人们带来了信息过载问题。微内容以短小精悍的表达方式,对其背后完整、复杂的内容进行了描述,从而提高了人们获取信息的快捷性。如今,微内容的形式已经非常多样化,但文本形式的微内容仍然是最主流的一种形式,也是本文的主要研究对象。 微内容具有社交性、特征多样性、实时性、更新快速性等诸多新特性,给面向海量丰富的微内容的信息获取领域带来了全新的挑战。本文从用户对信息获取的需求出发,研究基于文本微内容的信息提取和推荐技术。 首先,由于传统的文档摘要方法无法处理动态、快速到达、大规模的微博流数据,我们提出一种叫做连续摘要的新方法,并设计了Sumblr系统来支持连续摘要。该系统由两个模块组成,在微博流聚类模块中,我们提出在线的微博流聚类算法,增量式地将海量的微博数据浓缩为微博类,将重要的统计信息存储在微博类向量结构中,并动态更新该结构。同时,采用金字塔型时间帧结构每隔一定时间对微博类向量的快照信息进行存储和组织,以支持获取历史微博信息。在高层次摘要模块中,提出TCV-Rank算法生成实时摘要和任意时间段的历史摘要。在大规模Twitter数据集上的充分实验验证了Sumblr系统的有效性和高效性。 其次,面对海量实时的话题相关微博流,用户需要一种自动地、在线地生成时间轴的技术,以方便他们更直观地了解话题的来龙去脉。而现有的方法无法自动地、在线地生成时间轴,因此无法处理实时的微博信息。为解决这个问题,我们提出了面向实时微博流的时间轴自动生成方法。首先提出话题演变检测算法以发现时间轴上的关键节点。然后,定义和量化了基于摘要内容的波动、基于微博量的波动和基于融合信息的波动,并分别设计其相应的检测机制。在实验中,利用真实的Twitter数据集对三种方法进行了比较和分析。 最后,我们研究基于微内容来解决个性化推荐中的新对象问题。我们提出上下文环境增强的事件推荐方法,深入挖掘事件社交网络中丰富的环境信息,整合了用户和事件的微内容信息、用户之间的线上和线下社交关系,以及用户和事件的地理位置信息。基于这些信息,提取出用户偏好、线上/线下社交影响、当地流行度等多项特征。将事件推荐问题转化为学习排序问题,聚合以上特征来对事件进行排序。基于真实的Meetup数据集的实验结果证明了方法的有效性。