论文部分内容阅读
                            
                            
                                随着大数据应用的普及,分布式存储系统在工业界被广泛开发和使用。这些分布式系统往往采用较复杂的数据分区、多副本等机制,并在系统性能等方面进行了权衡设计,用于保证集群的可用性和数据可靠性。因此在实际应用中,这些系统往往需要用户根据业务需求进行大量的性能优化工作。在不了解系统原理的前提下,用户往往难以解释系统的运转情况、分析问题原因、进而优化系统配置。而分布式存储系统复杂的系统实现则加大了用户对系统理解的难度。本文从分布式存储系统的运行日志入手,提出分布式存储系统的着色Petri网建模框架以及基于着色Petri网模型的系统优化方法。论文主要内容及贡献如下:·针对分布式系统日志事件关系复杂、现有日志挖掘算法得到模型可读性差、规模大、弹性差等问题,提出了基于系统运行日志的“日志挖掘-模型转换”两阶段建模框架。第一阶段提出了“本地-全局”日志挖掘方法,通过对系统日志按照节点进行逐个挖掘,简化了事件关系,并使得模型清晰可读;通过分析模型之间的关系,将多节点间的模型进行了组合,最终自动生成正确描述分布式存储系统的基本网模型,解决了模型从无到有的问题。第二阶段提出了通过折叠、对称化的操作将基本网模型转换为着色Petri网模型的方法,并在此过程中提出了模型与真实系统的适配问题,解决了模型从有到优的问题。·针对采用一致性哈希的分布式存储系统中数据分区不均衡的问题,提出了采用着色Petri网可达状态概率描述数据分区的方法,在此基础上提出用于评估数据分区优劣的不平衡系数,并通过最优化模型和动态规划算法分别解决了集群初始化时和集群扩展节点时的数据分区优化问题。·针对分布式存储系统中副本一致性优化问题,采用着色Petri网的轨迹分析和排队理论对副本一致性的产生原因进行分析、度量,并提出通过调整排队顺序、改变队列并行度、改变法团参数设置等改进数据为中心和用户为中心的副本一致性的方法。