论文部分内容阅读
人口空间分布直观反映了人类活动的范围和强度,是研究和表征人地关系的有效指标和必需数据。建国以来,县级人口数据是研究中国人口问题最常用的数据。进入21世纪,中国国家统计局连续公开发布了2000、2010年全国乡镇(街道)级人口普查数据,这为在较大范围开展乡镇(街道)级人口分布制图及空间格局分析提供了基础。与此同时,近年来的大数据热潮以及地理计算、高分遥感等技术的飞速发展使得地理学研究尺度不断精细化,乡镇(街道)尺度的人口空间数据应用需求不断扩大。在利用人口统计数据的同时,GIS和遥感支持下的人口数据空间化成为了表征人口空间分布的新型手段,广泛应用于资源环境、地理国情、灾害救援及公共卫生等相关科学研究和政策制定。近30年来,人口数据空间化一直是人口地理学的前沿研究领域,世界或区域尺度数据计划持续发布并更新多套数据集。然而,多源数据集的精度评价和对比以及人口时空分布高精度空间化一直是人口数据空间化研究的难点。 基于以上背景和问题,本文以乡镇(街道)尺度为主线,在GIS、遥感、统计分析和机器学习等技术的支持下,开展了中国乡镇(街道)人口时空数据库建库、中国乡镇(街道)级人口分布格局及影响因素分析、中国区域主要的空间化人口分布数据集在乡镇(街道)尺度的精度评价和对比、基于乡镇(街道)尺度的人口时空分布空间化等研究。具体地,本文主要开展了以下四方面工作: (1)收集、处理并集成了中国五普、六普乡镇(街道)级人口普查数据(国家统计局提供)和乡镇(街道)空间界线数据(国家地球系统科学数据共享平台提供),建立了2000年中国28省乡镇(街道)级人口空间数据库以及2010年黄土高原地区、川渝地区和北京市乡镇(街道)级人口空间数据库; (2)基于中国2000年28省区乡镇(街道)级人口空间数据库,采用样带分析及空间分析相结合的方法揭示了中国乡镇(街道)尺度的人口分布空间集聚度、人口密度结构、经向、纬向及高程向分布规律等空间分布格局;采用统计分析方法,分省量化了若干自然环境及社会经济因素对于人口分布的影响; (3)提出一套系统评价空间化人口分布数据集估计精度的指标和方法,并以本文构建的乡镇(街道)级人口空间数据为基准数据,对中国公里格网人口分布数据集(CnPop)、世界格网人口数据集(GPW)、全球城乡制图计划人口数据集(GRUMP)和世界人口计划数据集(Worldpop)等四套数据集2000、2010年在中国区域的估计精度进行了评价和对比,识别出若干空间化时易于出现低估或高估误差的区域,推断了误差来源,并综合评判了各数据集的质量及适用性; (4)以黄土高原地区2000-2010年人口时空分布为研究对象,利用土地覆盖、遥感夜间灯光、地形、气候、交通道路等多源因子作为人口分布指示因子,实现并对比了基于逐步回归法和随机森林算法的人口时空分布空间化方法,模拟了区域100m*100m格网尺度的人口分布,以发展乡镇(街道)尺度的人口时空分布空间化方法。 本文的主要研究结论如下: (1)较县级尺度,乡镇(街道)级人口数据对于中国人口分布东南密集、西北稀疏的趋势有更高的区分度,表现为在绝大多数县市内部划分出了人口分布疏密差异;乡镇(街道)级人口分布在经纬向和垂直方向上既受到中国三级阶梯地貌大势的影响,也受到局部地形及区域中心城市人口分布的影响,并和海岸线、交通干线及大江大河的分布具有一定的空间耦合关系;在垂直方向,乡镇(街道)级人口密度和平均海拔呈强烈的对数相关关系;分省来看,经济发展水平、路网密度、气候、地形、水系分布等因素对于乡镇(街道)级人口分布都有显著的影响作用,但省与省之间作用系数及主导因素存在明显差异;总体上,乡镇(街道)尺度下的社会经济因素比自然环境因素对于人口分布具有更强的影响。 (2)在2000年,四种数据集在中国28省乡镇(街道)尺度的估计精度由高到低排名为Worldpop、CnPop、GRUMP和GPW,其较准确估计的人口总数占比依次约为60%、50%、37%、30%。青藏高原、内蒙古高原、农牧交错带、横断山区、江南丘陵、浙闽丘陵地区是容易发生人口严重低估或高估的地区;在2010年,Worldpop数据集对于人口密集区的区分能力有所提高,但同时引入了较大范围的严重高估误差,其准确估计人口占比在20-40%之间;GPW数据集由于使用了乡镇点人口统计数据及模拟乡镇边界作为输入,估计精度明显提高,从典型研究区来看,其较准确估计人口比例在50%-65%之间;2010年CnPop数据集在延续2000年生产方法的同时,主要将人口再分布于城镇建设用地、农村居民点和工交用地,其较准确估计人口占比在20%-50%之间。 (3)基于随机森林算法构建的乡镇(街道)级人口空间化模型的决定系数达到了0.91以上,精度显著高于逐步回归法(决定系数约为0.75);同时,基于随机森林算法模拟的百米格网尺度人口分布更贴近于真实的人口分布,人口集疏层次明显,对于乡村和城镇区域均具有很好的适应性;分区在显著提高逐步回归法模拟精度的同时,也引入了亚区接边处人口密度“跳跃”变化的误差,且不同的分区方案模拟结果差别较大。对比之下,随机森林算法可较平稳地实现中国乡镇(街道)尺度的人口时空分布空间化。 预期本文可丰富对于中国人口分布规律乡镇(街道)尺度的认识,可为中国人口地理及资源环境研究提供本底性基准数据;本文在较大范围内定量评价并对比了中国区域格网化人口分布数据集的估计精度,可为相关数据集的选择、使用、再生产及不确定性分析提供参考;同时,本文从实证研究的角度发展了乡镇(街道)尺度人口时空分布较空间化方法,可直接为相关研究借鉴。