基于语义关联的查询扩展方法研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:WSLBCW
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Internet的迅猛发展,造就了人类历史上最大规模的分布式海量信息资源库。搜索引擎应运而生,为人们利用网络资源提供了有效的工具,但其自身的不足之处也显露无遗。用户常常无法准确、全面地将自己的信息需求转化为查询表达式,而主流搜索引擎普遍采用基于用户输入的检索词进行匹配的检索方式,这就造成了检索效率的低下。查询扩展技术能根据用户的初始查询进行扩展,帮助用户认清自己的信息需求,构造合适的查询表达式,提高检索效率。 本文对查询扩展的方式、主要实现算法和扩展后的排序算法进行介绍,在此基础上设计并实现了基于语义关联的查询扩展系统(SBQES)。 本文完成的主要工作包括: 1.提出了计算HowNet中概念相关度的算法 根据HowNet本身概念描述的结构特点,针对性地提出了概念相关度的计算方法。通过对概念之间相关度的计算,得到了SBQES的基础相关检索词库。 2.实现了相关检索词库的学习功能 用户日志中含有丰富的知识,体现出用户对检索词之间关系的认识。对用户日志进行学习,通过检索词的共现关系以及反馈集之间的重复程度,从中找到具有紧密关联的检索词组,按照一定规则加入到相关检索词库中,或提高已存在的检索词组的相关度,使得相关检索词库更加合理充实。 统计检索词组的重现次数,如果在一段时间内没有重现,则降低这个检索词组的相关度。以此来减少短期词汇对系统的影响。 3、实现了人工干预的功能 找出最容易出现问题的检索词组进行人工干预,使系统更合理稳定。 4、实现基于语义的查询扩展 在构建的相关检索词库中进行查询,发现其中的相关检索词,作为扩展后的检索词提交给用户。 经过测试,SBQES达到了预期的目标,能有效地提供查询扩展服务。
其他文献
随着近些年计算机在各行各业的普及应用,我们生成和收集数据的能力在迅速提高,因此人们经常说我们处于信息爆炸的时代,但是面对庞杂的数据,我们经常无法能够直接准确地获取我们真
本论文对号码技术在若干领域中的应用进行了研究,主要有如下三个领域:纸币号码识别、汽车牌照定位和水表读数识别。同时开发了相应的软件程序,实现了实际应用的功能。 纸
本文从传统的数据约简和关联规则挖掘的国内外的研究现状和常用算法入手,深入分析和研究了常用算法在空间数据方面存在的问题。在数据约简方面,针对HORAFA算法在空间数据方面存
市场经济的快速发展和竞争的不断加剧,使得正确及时预测和由此产生的可靠的决策,成为现代企业成功的关键要素,并对国民经济的发展起到了越来越大的作用。人们只有更准确地揭示出
本论文中主要讨论用户端的安全控制和主机用户的网络行为。讨论了在IP网络中对用户网络行为进行规范和对网络中的合法、非法数据包的鉴别。如果IP网中的每个用户都能规范自己
词义排歧在机器翻译、信息检索、句子分析和语音识别等许多领域有重要的作用.因此词义排歧方法的研究具有重要的理论和实践意义.本文主要研究在标注语料库支持下的基于有指导
随着现代教育技术的发展,对教学方式的多样化以及教学辅助技术都提出了更高的要求,多媒体教学课件作为计算机信息技术、网络技术在教育领域的一类应用,为教学形式、教学手段、教
随着WWW发展和地理信息系统技术在几乎所有领域的应用,WebGIS得到快速发展。无数的组织、机构拥有数量巨大的地理数据,然而这些数据却以不同格式存在。目前大多数的商用数据格
网格是继传统因特网、万维网之后的第三代互联网应用,它是集成的计算与资源环境,其核心是网格消除信息孤岛,实现资源共享(包括计算资源、存储资源、通信资源、软件资源、信息资
继瑞典于1989年建立世界上第一个国家顾客满意度指数测评体系之后,世界各发达国家也纷纷建立了具有自己特色的顾客满意度指数评价体系,作为衡量经济增长质量的客观经济指标。基