论文部分内容阅读
随着电子政务的发展,各政府部门纷纷建立了独立的电子政务系统。由于这些系统缺乏统一标准,不同部门对政务信息资源基于不同的规则进行采集和整理,因此产生了“信息孤岛”现象。为了减少资源的重复采集和多方建设,实现政府部门间业务高效协同和信息共享,需要为社会公众提供“一站式”政务信息资源服务。政务信息资源目录服务体系通过国家标准,对资源进行分类和编码,通过目录共享和交换体系形成各种政府资源共享与关联机制。统一目录的建立可打破政府部门间“各自为营”的局面,实现资源的“全流通和全共享”。本文对政务信息资源利用的国内建设情况进行总结,提出了基于元数据管理的电子政务信息资源目录服务系统模型,包括共享信息服务系统、编目系统、目录注册系统、目录管理系统五个组成部分,并设计基于混合检索模式(分类检索、高级检索和关键字检索)的目录服务检索模型,为不同用户提供高效便捷的检索服务。在政务信息资源目录服务检索模型中,关键字检索方式相对于Xquery等结构化查询语言而言,不需要用户学习复杂的查询语言,也不需要对XML文档底层的数据结构有深入的了解,用户仅需输入感兴趣的关键字就可完成查询。现有的主流XML关键字查询方法通常只考虑节点间的空间结构信息,以包含关键字匹配节点的片段作为查询结果,而忽视了节点间的语义相关性,因此导致返回结果中普遍含有大量与语义无关的冗余信息。本文以《政务信息资源目录体系》国家标准中的核心元数据规范为依据,在分析核心元数据及其特殊性后,提出了一种基于语义相关度排序的政务信息资源检索算法RF-MT。该算法将政务信息资源XML元数据的TF+IDF、关键词依赖度等作为语义相关度衡量因素,通过语义相关度打分算法对检索结果集进行语义相关度排序。为了提高检索效率,通过改进原有的关键词倒排索引结构来提高检索效率。实验表明该算法在检索结果排序精确度和时间效率上均有较大改善,可有效提高政务信息资源利用的数据共享服务能力。最后,分别介绍了三种检索模式的实现方法,并将RF-MT算法运用到混合检索模式中,实现了基于语义相关度排序的目录服务检索系统的应用。