地理信息检索中的定性信息表达方法和检索模型研究

来源 :北京大学 | 被引量 : 0次 | 上传用户:lonlychanging
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
在信息爆炸时代,信息检索工具,例如Web搜索引擎,是人们寻找信息资源的重要工具。人们的日常信息中包含了大量的地理空间信息,例如网页及考古、环境报告等。然而传统的信息检索技术不能满足人们的地理信息检索需求,即通过主题和地理约束条件进行检索。地理信息系统(GeographicalInformation System,GIS)技术,由于基于地图观点的、定量的地理信息表达方式,与人们日常生活中所熟用的基于地名和空间关系定性描述的方法不同,因此也无法直接用于解决人们的地理信息检索需求。地理信息检索技术(GeographicalInformation Retrieval,GIR)的出现将地理信息科学、地理信息系统技术与现代信息检索技术相结合,形成了新兴的跨学科研究领域,其主要关注与地理位置相关(geo-referenced)的信息源的信息提取、存储、索引、查询、排序和浏览问题。目前主流的地理信息检索技术普遍采用基于定量化的地理信息表达方式和匹配方法,可认为是一种“黑盒”方法,实际上是对人们用自然语言表述的地理信息的一种简化,忽略了人们自然语言中丰富的地理语义,造成了一定的信息流失和理解错误。主题相关度的评价方法沿用了传统信息检索技术中基于关键字频率和共现程度的方法,忽略了关键字之间的语义相似度,导致检索性能的降低(如高漏检率等)。更严重的是,目前主流的地理信息检索技术将文档中的主题信息和地理信息分开,破坏了信息的完整性,会产生大量的虚假信息,从而导致检索过程中的错误匹配。   如果一个信息检索系统可以按照与人工判读过程类似的方法进行检索,那么它应该可具备较高的检索精度。基于这个原则,针对现代基于定量化思想的地理信息检索技术中存在的问题,在研究人对地理信息检索问题的决策过程基础上,本文提出一种基于“白盒”思想的解决方法,即“以语义匹配为原则,以定性表达为基础,以推理方法为手段”的新的地理信息检索方法(称为定性地理信息检索方法)。该方法融合了命题逻辑,模糊集推理,D-S证据理论推理等多种理论和方法,对地理信息检索问题的解决过程进行了探索性研究,提出了新的思路和方法,为实现可进行精确匹配的地理信息检索系统提供了理论和方法基础。本文主要研究内容及取得的成果主要有以下几个方面:   (1)提出了主题与地理信息一体化的文档和查询信息定性表达方法。该方法将文档中的信息内容按照其内在逻辑联系分解成若干个信息单元,每个信息单元均传递了一个完整的信息内容;每个信息单元均包含主题和地理信息片段,采用定性描述的方式表达其中主题信息和地理信息,这与传统的、基于定量化思想的地理信息检索系统中的地理信息表达方法不同。   (2)建立了基于命题逻辑和定性表达的文档和查询信息形式化模型。文档或查询请求均可表达为若干个信息单元(Information Units)的集合;每个信息单元都包含主题和地理信息两个部分;主题信息由若干个关键词组成的集合,每个关键字视为一个主题命题(Thematic Proposition);地理信息信息由若干个表达地理位置或范围的表达式组成,每个表达式视为一个地理空间命题(Geo-Spatial Proposition)。   (3)建立了基于模糊集推理和Dempster-Shafer证据理论的定性地理信息检索模型,使得地理信息检索过程可以符合人们的检索期望,以达到提高检索精度的目的。此外,新模型还是一个开放的通用框架,传统的定量化地理信息检索方法也可以被运用到该框架中,实现定性方法和定量方法的紧密结合。本文对定性与定量方法的具体结合方法也进行了相应的探讨。   (4)对定性和定量地理信息检索方法中的共性问题-主题相关度和地理相关度之间的融合方法进行了研究,提出了顾及查询特指性(包括主题特指性和地理局地性)、基于对数回归模型的融合方法。   (5)在相关理论研究的基础上开发了GIR原型系统SASεIC,并在其平台之上开展了初步的验证实验,通过实证研究评估本文提出的定性地理信息检索方法与传统的定量地理信息检索方法之间在检索性能上的优劣。   通过本文的研究。我们可以得出这样的结论:基于定性表达和语义匹配的地理信息检索方法可以更好的满足人们的地理信息检索需求。然而,在目前的计算模式和基础下,采用定性和定量相结合的方法有着重要的实际意义。本文的研究内容和成果奠定了定性地理检索方法的理论基础,并为其在实际中的应用提供了具体的操作指引。  
其他文献
作为表征地表能量平衡和气候变化的重要指标,地表温度是研究区域和全球尺度陆地表面生物、物理和化学过程的关键参数之一,卫星遥感技术为实时快速获取大尺度地表温度提供了新的
阅读、讨论田卫作品.不谈“水墨”、“抽象”几乎是不可能的,尽管他从未置身于上世纪90年代中期开始的“抽象水墨”运动中,也未曾受到过这些艺术现象的直接影响,但这依然构成
土地由于其特殊的自然、社会、经济特性成为要素市场中争夺的关键,在城市快速增长过程中土地价格的波动成为社会关注的敏感问题之一。土地价格快速攀升必然会引发多种问题,对社
地貌类型空间分布特征与地貌区划是地貌学研究的重要内容。地貌格局可表达不同地貌类型在空间上的分布特征及其组合配置等信息,在一定程度上可反映地貌的成因机制、演化过程
全球变化和人类活动的双重影响下,青藏高原生态问题日益严峻。本研究在青藏高原的半干旱区和半湿润区(下文简称:两区)多年冻土区,分别选择了一个典型流域,即疏勒河上游和冬珂玛底
对于书法,我是一名十分虔诚的热爱者。只要被告知有书法展览,我一定满怀着欣喜前去观看,因为这是难得的享受和美的陶冶,徜徉其间的我总是久久不愿离去。每次看了书展,总是激
土壤水分是农业、生态、环境等领域研究中的重要生态参数,是地球生物赖以生存的重要物质源泉,在全球水循环、碳循环中发挥着关键作用。因此大范围监控土壤水分在农业、气象等领
新媒体时代下的舆论公开化和政务透明化使得政府和媒体的关系日趋紧密,政府需要借助媒体来向公众发声;公众了解政务的一个重要途径就是媒体,媒体成为沟通政府和公众的桥梁和
煤炭资源一直是我国的主要能源来源,占能源消费的60%以上,但由于我国地质地形及气候条件复杂,煤矿自然灾害严重,水、火、瓦斯、煤、尘、地压、地热等多种灾害聚集,以及小煤矿众多,粗
泥石流是一种暴发于沟谷、坡地,含有大量泥沙、石块和巨砾等固体物质的特殊性洪流。我国地貌类型独特、地形条件复杂、气候特征多样、人类活动密集,造成山区地表呈现地势起伏大