论文部分内容阅读
地理国情监测是目前测绘地理信息领域的一项重要工作,地表覆盖作为地理国情监测的重要对象,为地理国情分析评价模型提供了可靠的数据源。高效的地表覆盖数据管理方法是挖掘地表覆盖数据潜在价值的前提。由于地表覆盖数据体量庞大、更新频繁,要素分布密集且不均匀,传统的空间数据管理方式出现了扩展困难、检索能力不足等问题。随着云计算技术的蓬勃发展,NoSQL数据库因其高可扩展性、可伸缩性和高性能在多个领域取得了广泛应用,HBase作为其中一种十分流行的列式数据库,能为Hadoop、Spark等分布式计算平台提供无缝的数据集成。为了满足在线地表覆盖普查成果的高并发访问和实时统计分析需求,本文针对基于HBase的地表覆盖数据存储与检索方法展开研究,主要完成了以下几项工作:1、设计了一种地表覆盖数据组织存储策略,按行政区划、地理国情普查内容和时间版本依次分区分类分时组织数据,实现了地表覆盖矢量要素空间、属性和时间信息的一体化管理。2、引入静态多级格网结构,面向地表覆盖数据特征设计了一种地表覆盖多级格网空间索引,并进一步提出了基于MapReduce的索引并行构建算法,提高了索引构建效率。3、提出地表覆盖时空数据模型,既实现了从宏观上提取各时间节点的地表覆盖数据历史版本,也可以从微观上追踪地表覆盖对象在连续时间段内的变更情况。4、针对列式存储环境下空间查询困难的问题,基于地表覆盖数据存储与索引方法,设计地表覆盖属性查询和空间查询算法,有效提高了地表覆盖数据检索效率。属性查询通过构造多线程查询子任务实现,空间查询借助地表覆盖空间索引的数据划分性能和HBase的随机数据访问能力,能快速定位到粗匹配查询范围的地表覆盖要素候选集,然后通过空间关系运算进行要素精确匹配。最后,通过地理国情发布原型系统的构建以及地表覆盖索引与检索方法效率对比实验,证明了本文理论研究的可行性和有效性。本文提出的地表覆盖数据存储与检索方法已经应用于浙江省地理国情数据发布系统中,实践表明,该方法能够满足大规模地表覆盖数据的高效管理、实时检索与统计分析需求,并具有良好的扩展性,为其他海量空间矢量数据管理模式提供了借鉴。