论文部分内容阅读
细颗粒物(Particulate Matter with aerodynamic diameter less than2.5μm,PM2.5)对人体健康和环境有重要影响,目前PM2.5的浓度数据获取渠道主要为地面监测站点。地面设站具有有效覆盖面积小、观测仪器/处理手段的差异造成异源数据的不可比性,以及各个地区数据时间覆盖不一致等特点,给基于连续时间/空间的PM2.5研究带来极大障碍。遥感卫星一般能够进行全球范围的连续观测,基于遥感影像反演的气溶胶产品具有较好的现时性和存档完整性,利用遥感影像反演地面PM2.5浓度在提高PM2.5浓度数据时空质量方面具有很大价值。当前基于遥感影像反演地面PM2.5浓度主要有统计类方法和构建物理/化学严密模型两大类方法。物理/化学严密模型法通常结构庞大复杂,要求较多的专业背景知识。而统计类方法则针对局部地区进行拟合,模型的跨区域适应性较差,且拟合精度仍有提升空间。 在分析比较各种统计拟合方法的基础上,本文构建了一种基于广义加性模型(GAM)和后向反馈神经网络的两阶段PM2.5浓度反演模型(GAM-BP模型),以遥感气溶胶产品和气象数据作为输入,利用GAM对多参数指数分布族变量的非线性响应能力和多层神经网络挖掘数据中的非线性关系,实现一种拟合精度较高且时空适应能力较强的PM2.5浓度反演模型。以美国为例,该模型对分散在全国151个站点连续3年的观测数据进行拟合,平均决定系数R2=0.72,证明该模型具有良好的拟合能力,且能适应不同的地理区域。在此基础上,设计实现了该模型的B/S架构高性能集群业务运行系统。GAM-BP模型具有I/O密集的特点,该系统利用Lustre集群文件系统实现文件的高速并发读写支持,利用MPI-IO的聚合I/O机制提高单次读写磁盘的有效数据利用率,综合二者实现模型的高性能I/O。同时模型计算包含大量线性代数运算和循环运算,系统利用R语言和Shark机器学习库的线性代数优化和多线程优化机制实现模型的高效解算。使用Karajan整合异构计算模块,实现模型的自动化计算,并采用Torque作业调度器进行系统资源的细粒度调度。测试表明,该系统能够正确的提供指定时间空间范围内的模型数据可视化分析和计算服务,对151个站点3年的数据)进行模型解算,耗时106s,对三年期所有站点进行模型解算,同时取得测试中的最大吞吐率147.2MB/s。