论文部分内容阅读
关键词检索是互联网中使用最广泛的检索技术之一,也是世界上一些著名互联网站点比如谷歌、维基百科、亚马逊和IMDB等的默认检索方式。传统的关键词检索技术主要是针对无结构化文本的检索,所基于的方法也偏向于单纯的关键词匹配,这些方法只强调了关键词的出现频次而忽略了关键词每次出现时所具有的语义。随着结构化数据的使用和推广,识别文本中关键词所属的语义也变得更加方便。 在本文中,我们利用XML等结构化文档中的“语义—关键词”的结构来记录文档中所有关键词出现时所属的语义。同时,我们还根据语义与语义在数据集中的共现关系,以及他们在语义词典中的相似度来综合衡量不同语义之间的关联度。然后,我们通过一个综合考虑关键词—语义之间的对应,以及语义与语义之间的关联度的语义反演图模型,来推测用户给定查询的查询意图,也即每个关键词的目标语义。我们把语义反演图模型运用到基于XML文档的关键词检索系统SEEK中,并通过对比试验证明了SEEK的检索效果要优于大部分传统的关键词检索算法。此外,我们还利用SEEK检索系统参加了国际检索比赛INEX2010年和2011年的比赛,均取得了优异的成绩。