论文部分内容阅读
空间信息一般具有海量多维的特点,当使用可视化的方法研究其内在空间分布规律时,需要采用降维方法将多维信息转换到三维以内的空间来实现。传统的多维可视化技术由于数据维数和目标的增多,会呈现互相遮挡的现象,不利于揭示空间信息的数据内在规律,而基于降维的多维可视化技术可以较好的避免传统方法的缺点,因此本文的研究目标是通过降维来实现空间多维信息的可视化,从而揭示空间多维数据的时空分布规律。
不同降维技术由于其数学理论依据和适用范围不同,最终得到的可视化结果也有所差异。本论文首先分析了传统降维算法,即主成分分析、非线性映射和自组织特征映射的特点。作者以2007年四川省区县尺度为研究单元,运用上述算法对区县社会经济统计数据进行聚类分析,同时基于四川经济发展的实际状况,对成果的差异性展开了深入讨论,结果如下:主成分分析虽然能在整体上揭示经济发展趋势,但结果与实际情况差异较大;非线性映射算法能很好地展现四川经济发展的区域态势和核心区域,准确反映了四川经济发展现状;自组织特征映射的分类结果与发展现状较吻合,但局部地区存在一定的错分情况,且不能进行类内目标的比较。
针对非线性映射算法中运用欧式距离的缺点,作者研究和分析了近年来新盛行的流形学习算法等尺度映射和局部线性嵌入算法,并比较了两者和非线性映射及自组织特征映射的结果,结论如下:等尺度映射不仅能获取高维数据的本征维数,其降维结果也更能体现其空间格局;局部线性嵌入能体现全局分布模式,但算法本身的局限性导致部分区域的错分。
一般经济统计方法只是从属性数据来考察研究对象之间的相似性,而忽略了它们之间的空间距离关系,及地理位置相近的区域之间往往具有更多的相似特征;另外在采集数据过程中,很多信息不能定量化,这些缺失信息可以尝试引入空间关系加以补充。本论文的第三个内容是在自组织特征映射和非线性映射算法中引入空间距离,调整其权重来获取一系列结果,并基于实际情况进行分析,确定了权重的最佳区间,该过程是一个反复比较的过程,效率较低。
地理空间要素之间相互影响,各目标的统计属性之间亦存在空间自相关,在研究属性的空间分布和格局时,需要将空间自相关定量化以说明整体格局,以及局部相邻目标间的相似程度。本文的第四个内容是基于全局和局部Moran指数分析四川经济的空间格局。首先作者分析了各经济统计属性,结果说明所有经济统计属性都具有很强的空间自相关性;Moran指数只能针对单个属性,而未考虑多维属性的综合空间聚集效应,本文针对主成分分析和非线性映射的降维结果进行空间自相关分析,揭示出四川存在两个高空间聚集区域:成都周边和西北区域,而其他区域的聚集效应不显著,该结果也可以对上述分类结果进行很好的验证;针对空间距离权重确定过程的效率问题,作者基于空间自相关提出了一个简单的判别公式,通过分析,该公式能指导权重的取值过程,并具有一定的正确性。
支持向量机具有坚实的数学基础,但因其是监督分类,需要已知样本来训练高维数据。本文的第五个研究内容即是根据主成分分析和非线性映射的降维结果来提取已知样本,但该过程具有较大的主观性,而空间自相关能揭示典型的发展区域,运用该方法不仅能大量减少样本的选择范围,同时分类结果也很好的体现了经济发展格局。
对高维数据集降维后,可以直接对地图进行渲染以从总体上来说明其内在分布结构,但对原始数据进行比较分析以及对感兴趣的目标进行分析也是必要的。本文的第六个研究内容是多维可视化技术的实现和原型系统设计,作者实现了一个多维可视化技术系统以方便观察和比较多维属性;该系统整合了数据降维、算法改进、地图渲染、空间自相关分析和原始属性数据分析功能,并且原始数据分析具有邻域分析、统计图分析等便于观察和研究目标的技术方法。