论文部分内容阅读
Internet自诞生以来不断成长,尤其是最近几年更是得到长足发展,功能不断扩展,信息容量呈爆炸性趋势增长,然而在信息极大丰富的同时,用户也面临着信息过载和资源迷向的问题,Internet网络环境下的信息检索于是成了一个新的研究热点。根据专家评测,目前主要搜索引擎返回的相关结果比率不足45%,用户要想获得一个比较全面、准确的结果,就必须反复调用多个搜索引擎。元搜索引擎的出现,在一定程度上解决了这些问题。 元搜索引擎技术是一种集成搜索引擎技术,它主要通过成员搜索引擎选择、文本选择、结果融合三个主要步骤来完成信息检索任务,如果系统策略设计得当,成员搜索引擎选择方法合适,那么相对于独立的传统搜索引擎来说,元搜索引擎一般可以达到更高的搜索覆盖率和更好的查询效果。但是元搜索引擎也会面临与传统搜索引擎一样的问题,就是不能对用户进行个性化分析和提供相应的有针对性的服务,而且如果系统的集成策略设计地过于简单和机械化,则元搜索引擎多数情况下并不会取得更好的信息检索效果。 本文试图通过设计一个个性化智能元搜索引擎模型来改善传统元搜索引擎所面临的不足。个性化是指模型可以针对不同的用户建立不同的用户兴趣模型,采用兴趣模型将查询定位到用户兴趣领域中并扩展用户查询,能更清晰、准确的表达用户查询;通过用户兴趣模型来过滤和筛选搜索结果,使结果的返回更有针对性。智能是指成员搜索引擎的选择,可以根据成员搜索引擎以往性能表现动态的决定每次的调度策略,选出那些可能对某个特定的领域有良好检索效果的子引擎来参与最终的搜索任务。本文取得了如下研究成果: 1.基于Ontology技术的用户兴趣模型构建 用户兴趣模型的构建对元搜索引擎的性能表现起着至关重要的作用,本论文研究了现有用户兴趣模型的构建方法,元搜索引擎中采用的兴趣模型大多使用传统的词频法来衡量某个用户的兴趣,用二元组(兴趣词条,兴趣权重)或三元组(兴趣词条,兴趣权重,词条新鲜度)表示,主要通过从用户访问记录中抽取部分主题词作为用户感兴趣的词条,同时计算其出现的概率表达用户对该词条的感兴趣程度,即:兴趣权重。 但单使用词条作为用户感兴趣的模型可能会出现用户的兴趣领域相当分散,使用该分散的兴趣模型指导用户查询的针对性不强;同时用该分散的用户兴趣模型过滤出的结果可能仍然存在不少不相关结果。为使用户模型能比较集中的反映用户对某领域的兴趣,本文提出用领域Ontology来表示用户兴趣,建立的模型包括用户感兴趣的领域以及反映对该领域感兴趣程度的主题词。建立好基于领域Ontology的用户兴趣模型后,用户的查询请求可与主题词相匹配,映射到最相关的领域主题中,使得用户的兴趣范围更明确。 2.成员搜索引擎的调度策略 本论文首先研究了现有的几种基于定性、基于定量、基于学习法的成员引擎(也称成员数据库)调度策略,基于定性、定量的调度策略需要成员搜索引擎的数据库描述信息,但很