基于查询分析和相关反馈的个性化检索技术研究

来源 :中国科学院研究生院中国科学院大学 | 被引量 : 0次 | 上传用户：shizex

【摘要】

：

在当前互联网时代，如何便捷地从海量文本数据中获取有效信息是我们面临的巨大挑战。文本信息检索的主要任务是根据用户输入的查询语句，为用户找到最相关的文档。然而，由于用户的

【作者】

：

江雪

【机构】

：

中国科学院大学

【出处】

：

中国科学院研究生院中国科学院大学

【发表日期】

：

2012年期

【关键词】

：

文本信息检索查询分析语义图模型个性化检索技术

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

在当前互联网时代，如何便捷地从海量文本数据中获取有效信息是我们面临的巨大挑战。文本信息检索的主要任务是根据用户输入的查询语句，为用户找到最相关的文档。然而，由于用户的知识背景以及对检索系统的熟悉程度不同等原因，用户的查询构造能力往往有很大差别。已有研究表明有些用户输入的查询存在较大的歧义，并不能反映用户的真实需求，因此影响了检索结果的性能。通过分析用户输入的查询，更新查询模型，可以在一定程度上解决该问题。本文围绕查询分析问题，主要开展了以下几个方面的工作:　　第一、基于用户查询日志开展了查询分析研究。通过对用户连续输入的查询语句进行分析，判断当前查询与上一个查询是否同属一个查询意图，根据查询语句之间的相似度，以及从查询日志中挖掘的用户点击信息，判断相邻的查询语句是否同属一个查询意图。进一步，通过挖掘查询语句中的子话题，以更准确地分析用户的信息需求。　　第二、提出了一种基于语义图的查询重构方法。利用原始查询语句对应的伪相关反馈文档，结合外部语义资源，构建了一个两层的语义图，通过迭代更新计算词的权重，然后对原始的查询模型进行更新，并使用更新后的查询模型对结果文档进行重排序。　　第三、开发了一个个性化检索工具，利用用户的查询历史和伪相关反馈文档，对用户当前提交的查询语句进行相应的模型更新，使用更新后的查询语句进行重排序。同时挖掘该查询语句的子话题，根据子话题对结果文档进行分类展示，保证结果的多样性。

其他文献

最小顶点覆盖的局部搜索算法

最小顶点覆盖问题是经典的NP难组合优化问题,有着重要的理论恿义和广泛的应用。给定一个无向图,顶点覆盖是指该图的一个顶点子集,使得图中每一条边都至少有一个点属于该集合

学位

局部搜索最小顶点覆盖格局检测边加权组合优化无向图

僵尸网络命令控制信道研究

随着互联网技术的快速发展及应用范围的不断拓宽,网络已成为人们生产、生活必不可少的一部分。网络安全不仅影响着人民财产和个人隐私,甚至影响到国家安全。僵尸网络作为一种

学位

僵尸网络命令控制信道健壮性抗Sybil攻击抗路由表污染

实时公交信息查询系统无线移动客户端的设计与实现

随着“低碳生活,绿色出行”概念的提出以及北京市各种公交优惠政策和私家车限行政策的出台,公交车成为了越来越人的出行代步工具,而北京市的交通路况复杂,公交车出行存在很多

学位

GPS定位技术无线移动通信QT实时公交系统Symbian

基于机器学习的域名信用评价方法研究

学位

心电畸异波智能识别方法的研究

心脏疾病一直严重威胁着人们的生命,心电图广泛应用于心脏疾病诊断中。但是心电波形中的畸异波大大增加了计算机自动识别心电波形的难度和识别的准确性。本文提出了心电畸异

学位

畸异波小波分析曲线拟合定位识别

基于S4框架的并行复杂事件处理系统

当今社会是一个信息爆炸的社会。一方面,由于离散的数据源的数量的增加,比如标签、博客、传感技术等等的发展,使得信息处理系统所需要进行处理的数据量大大增加。另外一方面,

学位

海量信息操作符并行计算负载分流S4框架复杂事件处理系统

高性能可重构伺服驱动器平台的设计与实现

伴随着数字控制技术、控制理论的发展以及伺服驱动器大规模的应用，伺服驱动器的使用、开发、调试技术已经成为伺服驱动器非常重要的研究问题，伺服驱动器是否具有较强的易用性、

学位

系统架构伺服驱动器嵌入式组件通用串行总线硬件平台体系结构

基于粒子系统的晶体硅熔化仿真的研究与应用

晶体硅作为一种半导体材料，无论是工业生产还是日常生活都具有重要地位。在能源应用方面，晶体硅是生产太阳能电池的主要原料之一。太阳能作为一种清洁无污染的能源，很受人们欢迎

学位

固体熔化计算机仿真粒子系统程序设计

图像显著物体检测算法与应用

随着数码相机与智能手机的普及，以及社交网络的快速发展，图像与人们生活的联系越来越紧密。图像的快速传播与普及在给人们生活带来便利的同时，也给图像的处理、分析与理解带了巨

学位

物体检测图像处理图像压缩人机交互视频分析

基于Flex+Red5的实时语音交流平台的研究与实现

近年来,随着各种富因特网应用(Rich Internet Application, RIA)技术及工具的兴起,Web应用程序中的用户界面正由传统的超文本语义型向丰富多彩的桌面型转变。本论文就是采用

学位

FlexRed5实时语音交流麦克风抢占

基于查询分析和相关反馈的个性化检索技术研究

其他学术论文