论文部分内容阅读
在信息爆炸时代,信息检索工具,例如Web搜索引擎,是人们寻找信息资源的重要工具。人们的日常信息中包含了大量的地理空间信息,例如网页及考古、环境报告等。然而传统的信息检索技术不能满足人们的地理信息检索需求,即通过主题和地理约束条件进行检索。地理信息系统(GeographicalInformation System,GIS)技术,由于基于地图观点的、定量的地理信息表达方式,与人们日常生活中所熟用的基于地名和空间关系定性描述的方法不同,因此也无法直接用于解决人们的地理信息检索需求。地理信息检索技术(GeographicalInformation Retrieval,GIR)的出现将地理信息科学、地理信息系统技术与现代信息检索技术相结合,形成了新兴的跨学科研究领域,其主要关注与地理位置相关(geo-referenced)的信息源的信息提取、存储、索引、查询、排序和浏览问题。目前主流的地理信息检索技术普遍采用基于定量化的地理信息表达方式和匹配方法,可认为是一种“黑盒”方法,实际上是对人们用自然语言表述的地理信息的一种简化,忽略了人们自然语言中丰富的地理语义,造成了一定的信息流失和理解错误。主题相关度的评价方法沿用了传统信息检索技术中基于关键字频率和共现程度的方法,忽略了关键字之间的语义相似度,导致检索性能的降低(如高漏检率等)。更严重的是,目前主流的地理信息检索技术将文档中的主题信息和地理信息分开,破坏了信息的完整性,会产生大量的虚假信息,从而导致检索过程中的错误匹配。
如果一个信息检索系统可以按照与人工判读过程类似的方法进行检索,那么它应该可具备较高的检索精度。基于这个原则,针对现代基于定量化思想的地理信息检索技术中存在的问题,在研究人对地理信息检索问题的决策过程基础上,本文提出一种基于“白盒”思想的解决方法,即“以语义匹配为原则,以定性表达为基础,以推理方法为手段”的新的地理信息检索方法(称为定性地理信息检索方法)。该方法融合了命题逻辑,模糊集推理,D-S证据理论推理等多种理论和方法,对地理信息检索问题的解决过程进行了探索性研究,提出了新的思路和方法,为实现可进行精确匹配的地理信息检索系统提供了理论和方法基础。本文主要研究内容及取得的成果主要有以下几个方面:
(1)提出了主题与地理信息一体化的文档和查询信息定性表达方法。该方法将文档中的信息内容按照其内在逻辑联系分解成若干个信息单元,每个信息单元均传递了一个完整的信息内容;每个信息单元均包含主题和地理信息片段,采用定性描述的方式表达其中主题信息和地理信息,这与传统的、基于定量化思想的地理信息检索系统中的地理信息表达方法不同。
(2)建立了基于命题逻辑和定性表达的文档和查询信息形式化模型。文档或查询请求均可表达为若干个信息单元(Information Units)的集合;每个信息单元都包含主题和地理信息两个部分;主题信息由若干个关键词组成的集合,每个关键字视为一个主题命题(Thematic Proposition);地理信息信息由若干个表达地理位置或范围的表达式组成,每个表达式视为一个地理空间命题(Geo-Spatial Proposition)。
(3)建立了基于模糊集推理和Dempster-Shafer证据理论的定性地理信息检索模型,使得地理信息检索过程可以符合人们的检索期望,以达到提高检索精度的目的。此外,新模型还是一个开放的通用框架,传统的定量化地理信息检索方法也可以被运用到该框架中,实现定性方法和定量方法的紧密结合。本文对定性与定量方法的具体结合方法也进行了相应的探讨。
(4)对定性和定量地理信息检索方法中的共性问题-主题相关度和地理相关度之间的融合方法进行了研究,提出了顾及查询特指性(包括主题特指性和地理局地性)、基于对数回归模型的融合方法。
(5)在相关理论研究的基础上开发了GIR原型系统SASεIC,并在其平台之上开展了初步的验证实验,通过实证研究评估本文提出的定性地理信息检索方法与传统的定量地理信息检索方法之间在检索性能上的优劣。
通过本文的研究。我们可以得出这样的结论:基于定性表达和语义匹配的地理信息检索方法可以更好的满足人们的地理信息检索需求。然而,在目前的计算模式和基础下,采用定性和定量相结合的方法有着重要的实际意义。本文的研究内容和成果奠定了定性地理检索方法的理论基础,并为其在实际中的应用提供了具体的操作指引。