论文部分内容阅读
Internet的迅猛发展,造就了人类历史上最大规模的分布式海量信息资源库。搜索引擎应运而生,为人们利用网络资源提供了有效的工具,但其自身的不足之处也显露无遗。用户常常无法准确、全面地将自己的信息需求转化为查询表达式,而主流搜索引擎普遍采用基于用户输入的检索词进行匹配的检索方式,这就造成了检索效率的低下。查询扩展技术能根据用户的初始查询进行扩展,帮助用户认清自己的信息需求,构造合适的查询表达式,提高检索效率。
本文对查询扩展的方式、主要实现算法和扩展后的排序算法进行介绍,在此基础上设计并实现了基于语义关联的查询扩展系统(SBQES)。
本文完成的主要工作包括:
1.提出了计算HowNet中概念相关度的算法
根据HowNet本身概念描述的结构特点,针对性地提出了概念相关度的计算方法。通过对概念之间相关度的计算,得到了SBQES的基础相关检索词库。
2.实现了相关检索词库的学习功能
用户日志中含有丰富的知识,体现出用户对检索词之间关系的认识。对用户日志进行学习,通过检索词的共现关系以及反馈集之间的重复程度,从中找到具有紧密关联的检索词组,按照一定规则加入到相关检索词库中,或提高已存在的检索词组的相关度,使得相关检索词库更加合理充实。
统计检索词组的重现次数,如果在一段时间内没有重现,则降低这个检索词组的相关度。以此来减少短期词汇对系统的影响。
3、实现了人工干预的功能
找出最容易出现问题的检索词组进行人工干预,使系统更合理稳定。
4、实现基于语义的查询扩展
在构建的相关检索词库中进行查询,发现其中的相关检索词,作为扩展后的检索词提交给用户。
经过测试,SBQES达到了预期的目标,能有效地提供查询扩展服务。