论文部分内容阅读
作为一种新兴的社交媒体服务,微博为人们提供了一个分享简短实时信息的广播式的社交网络平台。随着微博的流行,实时环境下的信息检索需求急剧增长。与传统网页内容相比,微博具有文本长度短、互动性强等特点。微博的这些新特点使得微博环境下的信息检索行为与传统的Web信息检索有所区别。为此,本文提出了LMMR(Language Model based Microblog Retrieval)模型以及RankingFM(Ranking Factorization Machine)模型,解决了微博实时检索中实时性问题以及词汇稀疏性问题,并实现了微博实时检索的原型系统。 LMMR模型以统计语言模型为基础,从语义属性和时间属性上对微博检索行为进行建模。该模型由三部分组成:查询语言建模、文档语言建模和时间因素扩展。对于查询语言建模,我们提出了一种新颖的二阶段伪相关反馈查询扩展来克服微博检索中严重的词汇不匹配问题;对于文档语言建模,我们提出了两种基于外部短链接的微博文本语义扩展方法;对于时间因素扩展模块,我们应用了多种方法对文档的时间属性进行估计。在TREC Tweet11数据集上的实验结果证明,我们的方法相比于基线方法有了很大的提高。值得一提的是,我们的模型相比于TREC11微博评测中表现最好的系统,在P@30和MAP评价指标上分别有26.37%和9.94%的提高。 为了对特征之间的相互影响进行建模,我们在排序学习模型框架下提出了Ranking FM模型,并采用了三类特征:内容相关性特征、语义扩展特征和微博博文质量特征。在Ranking FM模型下,同类的特征之间存在一定的相互影响而不同类的特征之间则相对独立。我们提出了两种优化方法用于Ranking FM模型的学习:随机梯度下降算法和自适应正则化算法。实验结果表明我们的算法在TREC Tweet12数据集上表现要优于基线模型。与此同时,我们提出的Ranking FM模型的检索性能优于TREC12微博评测中表现最好的系统。