微博环境下实时检索技术研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:thinkthinkthink
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
作为一种新兴的社交媒体服务,微博为人们提供了一个分享简短实时信息的广播式的社交网络平台。随着微博的流行,实时环境下的信息检索需求急剧增长。与传统网页内容相比,微博具有文本长度短、互动性强等特点。微博的这些新特点使得微博环境下的信息检索行为与传统的Web信息检索有所区别。为此,本文提出了LMMR(Language Model based Microblog Retrieval)模型以及RankingFM(Ranking Factorization Machine)模型,解决了微博实时检索中实时性问题以及词汇稀疏性问题,并实现了微博实时检索的原型系统。  LMMR模型以统计语言模型为基础,从语义属性和时间属性上对微博检索行为进行建模。该模型由三部分组成:查询语言建模、文档语言建模和时间因素扩展。对于查询语言建模,我们提出了一种新颖的二阶段伪相关反馈查询扩展来克服微博检索中严重的词汇不匹配问题;对于文档语言建模,我们提出了两种基于外部短链接的微博文本语义扩展方法;对于时间因素扩展模块,我们应用了多种方法对文档的时间属性进行估计。在TREC Tweet11数据集上的实验结果证明,我们的方法相比于基线方法有了很大的提高。值得一提的是,我们的模型相比于TREC11微博评测中表现最好的系统,在P@30和MAP评价指标上分别有26.37%和9.94%的提高。  为了对特征之间的相互影响进行建模,我们在排序学习模型框架下提出了Ranking FM模型,并采用了三类特征:内容相关性特征、语义扩展特征和微博博文质量特征。在Ranking FM模型下,同类的特征之间存在一定的相互影响而不同类的特征之间则相对独立。我们提出了两种优化方法用于Ranking FM模型的学习:随机梯度下降算法和自适应正则化算法。实验结果表明我们的算法在TREC Tweet12数据集上表现要优于基线模型。与此同时,我们提出的Ranking FM模型的检索性能优于TREC12微博评测中表现最好的系统。
其他文献
研究人员的主要任务是学习本领域的知识与研究状况,并寻求有效的方法来解决研究中的难题。对于大部分研究人员,尤其对于一些缺乏研究经验的研究人员来说,这并非易事。现有的学术
人体跟踪是计算机视觉中的重要研究课题,在安全监控、智能交通和军事等领域具有广泛的应用。目前,大部分人体跟踪系统和方法是基于单个视频图像序列的跟踪,其跟踪结果易受光照变
博客作为一种网络媒介,是用户进行信息分享、传播以及获取的平台,微博作为一种受欢迎的博客形式最近几年发展迅速。博客和微博网站用户数量巨大、每天产生海量文本数据,其中大部
近年来,随着智能终端的快速发展,无线网使用者也越来越多。无线网用户与有线用户主要区别在于其移动特性,所以对校园无线网用户移动行为进行聚类研究有助于提取具有相似行为的用
设备驱动是特定硬件设备或架构平台与操作系统交互的关键支持性软件部件,对硬件设备或架构平台的操作系统兼容性具有决定性影响。PKUnity86系统芯片独特的AMBA-x86架构使得针
EAST装置是我国自行设计研制的国际首个全超导托卡马克装置,EAST是一个近堆芯高参数和稳态先进等离子体运行科学问题的重要实验平台,它将是在ITER之前国际上最重要的稳态偏滤器
本课题对鲜花拍卖系统中拍卖通信和语音通信的原型系统展开研究与设计,利用FPGA技术实现语音网络通信,在SOPC系统中集成以实现拍卖系统的通信过程。主要内容是满足不少于五百位
在模式识别和计算机视觉领域中,人脸识别是一个被广泛研究的前沿课题。由于其具有隐蔽性、非现场操作性、便于理解等优点,使人脸识别技术被越来越多地应用于安全监控领域、人机
物联网被誉为21世纪人类第三次技术革命的代表。从技术架构上来看,物联网可分为三层:感知层、接入层和应用层。其中接入层负责接收感知层传来的信息并将其接入到各种私有网络
微博客作为一种新兴的网络多媒体形式,在最近两年里得到了迅速发展与广泛应用,已经成为普通民众分享、关注、获取自己所关心信息的主要平台。然而微博的信息量太大,导致用户根本