论文部分内容阅读
当前,随着大数据时代的到来,全球数据总量呈现爆炸性增长的态势,存储系统的规模也随之不断扩大。而系统规模的扩大势必会带来高故障频率问题,如何提高云存储系统的可靠性成为了一个亟待解决的问题。目前,云存储系统普遍采用传统“故障发生——数据重构”的被动容错机制,由于其本身的缺陷,被动容错机制很难从根本上解决系统可靠性的问题。因此,研究者提出了“故障预测——预警处理”的主动容错机制。硬盘故障预测模型虽然可以达到比较高的准确率和较低的误报率,甚至可以提前几天预测出将要发生故障的硬盘,但是很少有学者将预测模型应用到分布式系统上来提高系统的可靠性。本文提出了一种分布式主动容错机制,我们称之为自调度数据迁移机制(Self-Scheduling Migration,SSM),该机制不仅能够监控硬盘的健康状态、收集SMART(Self-Monitoring,Analysis and Reporting Technology)数据以获得训练预测模型所需要的数据,还能使用硬盘预测模型预测出将要发生故障的硬盘,基于预测结果提前迁移出危险的数据。我们使用分布式预警处理算法合理地从将要发生故障的硬盘迁移出数据,该算法不仅可以根据硬盘潜在故障的严重级别(即实时的预测结果)动态调整每个迁移任务的迁移速度,提前迁移更危险的数据;而且,在选择迁移源节点和迁移目的节点的时候,该算法能够充分地利用系统资源,达到比较好的负载均衡效果;在最小化减少迁移任务对系统正常读写服务的负面影响的同时,该算法还可以为不同严重级别的预警合理地分配迁移资源。本文在一个真实的分布式存储系统——sheepdog中实现了SSM。在加入主动容错机制后,系统的读、写性能虽然分别下降8%和13%,但相比于被动容错机制,SSM可以很大程度地提高系统的可靠性和可用性。