基于查询分析和相关反馈的个性化检索技术研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:shizex
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在当前互联网时代,如何便捷地从海量文本数据中获取有效信息是我们面临的巨大挑战。文本信息检索的主要任务是根据用户输入的查询语句,为用户找到最相关的文档。然而,由于用户的知识背景以及对检索系统的熟悉程度不同等原因,用户的查询构造能力往往有很大差别。已有研究表明有些用户输入的查询存在较大的歧义,并不能反映用户的真实需求,因此影响了检索结果的性能。通过分析用户输入的查询,更新查询模型,可以在一定程度上解决该问题。本文围绕查询分析问题,主要开展了以下几个方面的工作:   第一、基于用户查询日志开展了查询分析研究。通过对用户连续输入的查询语句进行分析,判断当前查询与上一个查询是否同属一个查询意图,根据查询语句之间的相似度,以及从查询日志中挖掘的用户点击信息,判断相邻的查询语句是否同属一个查询意图。进一步,通过挖掘查询语句中的子话题,以更准确地分析用户的信息需求。   第二、提出了一种基于语义图的查询重构方法。利用原始查询语句对应的伪相关反馈文档,结合外部语义资源,构建了一个两层的语义图,通过迭代更新计算词的权重,然后对原始的查询模型进行更新,并使用更新后的查询模型对结果文档进行重排序。   第三、开发了一个个性化检索工具,利用用户的查询历史和伪相关反馈文档,对用户当前提交的查询语句进行相应的模型更新,使用更新后的查询语句进行重排序。同时挖掘该查询语句的子话题,根据子话题对结果文档进行分类展示,保证结果的多样性。
其他文献
最小顶点覆盖问题是经典的NP难组合优化问题,有着重要的理论恿义和广泛的应用。给定一个无向图,顶点覆盖是指该图的一个顶点子集,使得图中每一条边都至少有一个点属于该集合
随着互联网技术的快速发展及应用范围的不断拓宽,网络已成为人们生产、生活必不可少的一部分。网络安全不仅影响着人民财产和个人隐私,甚至影响到国家安全。僵尸网络作为一种
随着“低碳生活,绿色出行”概念的提出以及北京市各种公交优惠政策和私家车限行政策的出台,公交车成为了越来越人的出行代步工具,而北京市的交通路况复杂,公交车出行存在很多
学位
心脏疾病一直严重威胁着人们的生命,心电图广泛应用于心脏疾病诊断中。但是心电波形中的畸异波大大增加了计算机自动识别心电波形的难度和识别的准确性。本文提出了心电畸异
当今社会是一个信息爆炸的社会。一方面,由于离散的数据源的数量的增加,比如标签、博客、传感技术等等的发展,使得信息处理系统所需要进行处理的数据量大大增加。另外一方面,
伴随着数字控制技术、控制理论的发展以及伺服驱动器大规模的应用,伺服驱动器的使用、开发、调试技术已经成为伺服驱动器非常重要的研究问题,伺服驱动器是否具有较强的易用性、
晶体硅作为一种半导体材料,无论是工业生产还是日常生活都具有重要地位。在能源应用方面,晶体硅是生产太阳能电池的主要原料之一。太阳能作为一种清洁无污染的能源,很受人们欢迎
随着数码相机与智能手机的普及,以及社交网络的快速发展,图像与人们生活的联系越来越紧密。图像的快速传播与普及在给人们生活带来便利的同时,也给图像的处理、分析与理解带了巨
近年来,随着各种富因特网应用(Rich Internet Application, RIA)技术及工具的兴起,Web应用程序中的用户界面正由传统的超文本语义型向丰富多彩的桌面型转变。本论文就是采用