论文部分内容阅读
单机运行环境难以满足海量空间数据的连接聚集操作对时空开销的需求,集群上的并行计算是高效处理海量空间数据的连接聚集操作的关键。Map-Reduce是云计算中—种应用于大规模集群进行大规模数据处理的分布式并行编程模型,作者分析发现Map-Reduce并不直接支持以既高效又自然的方式来处理具有二次归约特征的并行空间连接聚集操作.因此,提出了—种新的并行计算模型—Map-Reduce-Combine(MRC)来有效地处理大规模空间数据的连接聚集操作.MRC在Map-Reduce模型上增加一个Combine阶段,有效地合并分散在各个Reducer的部分聚集结果针对并行任务划分中空间对象的单分配问题,提出了过滤优化算法,更进—步提高了MRC下处理空间连接聚集查询的效率。实验验证本文提出的并行计算模型在处理空间连接聚集查询时具有良好的效率、有效性、可扩展性和简单性.