论文部分内容阅读
近年来,国内雾霾天气频发,范围广,时间长,严重影响民众的身体健康,同时也对交通、电力和农业造成的较大威胁,雾霾的治理已经引起了政府和社会的高度关注。但由于各大城市空气污染情况各异,且受到地理位置、气象条件、工业成分、城市格局等因素影响,因此治理环境污染必须对城市污染来源进行定性定量的科学研究,从而制定有明显针对性的防治措施。大气颗粒物的监测与分析是了解空气质量的重要手段,而传统的大气颗粒物分析主要依靠颗粒物总体分析技术、人工识别颗粒物类别和来源解析,这些技术手段有明显的缺陷:⑴传统的颗粒物总体分析法无法反映颗粒物内部特征,而现行基于单颗粒质谱仪的分析技术则更加科学;⑵单颗粒质谱仪每天可采集数GB数据,日积月累,数据量庞大,且颗粒物数据呈现半结构化特点,传统的关系型数据库不适用于本场景;⑶传统的人工分析手段耗时长、人工成本高、准确率低,在面临大数据量时无能为力,亟待一种颗粒物自动分析技术。本文针对传统大气颗粒物分析技术的缺陷,设计了一种基于实时存储技术的海量大气颗粒物在线分析系统,该系统由两个子系统组成,分别是基于Google levelDB存储引擎的海量数据存储子系统RyDB和基于数据挖掘的在线分析子系统。底层数据存储系统RyDB是一种KV型NoSQL数据库,采用levelDB存储引擎,支持主从复制和集群部署,用于存储实时采集或者离线收集的大气颗粒物数据;上层的在线分析系统采用自适应谐振理论(ART)网络聚类和逻辑回归分类等数据挖掘技术,实现对颗粒物数据的分类统计、来源解析等功能。经过实验测试,数据存储系统RyDB性能优异,在测试环境中每秒读写能达10万次,具有高吞吐、低时延的特点,能满足实时存储的需求;颗粒物在线分析系统的实验表明,系统时效性较强,32万组颗粒物能够在两小时内分析完毕,颗粒物分类的精确度为80%以上,满足系统需求,实现颗粒物数据的自动化分析。