论文部分内容阅读
高能物理离线数据处理作业主要分为CPU密集型和I/O密集型两种。传统计算集群采用计算资源和数据存储相分离的架构,大量的数据传输对网络I/O造成了很大压力;而运行在Hadoop之上的MapReduce框架,可以充分利用计算节点本地磁盘的存储空间及其I/O资源,提供了“计算至数据”的新型计算模式,非常适合运行I/O密集型应用。本文深入分析了高能物理数据处理模式以及Torque/Maui和Hadoop集群的特点,提出了基于Mesos的资源统一管理框架集成了上述两个异构集群,实现了支持异构集群间资源动态共享的高能物理实验数据处理系统;同时改进了Mesos中的DRF(Dominant Resource Fairness)资源分配算法,使集群资源更加公平合理的进行分配。 本研究主要内容包括:⑴深入分析了Mesos的资源分配算法DRF在高能物理数据处理环境中的缺陷,提出了一种改进的DRF资源分配算法。该算法增加了机器性能评级和作业类型匹配两个因素,改进了原算法的资源分配流程。通过在计算资源份额时引入机器性能加权机制,实现了以机器性能作为集群资源分配的新模式,替代了原算法中单纯以资源数量作为分配单元的模式,同时对用户退回的资源进行再分配,新的机制充分保证了资源分配的公平性和资源使用效率。⑵对Torque/Maui集群的架构以及高能物理数据处理作业的调度与执行过程进行深入分析,在Mesos框架下提出了一种低耦合可扩展的集成方案,设计了信息交换协议和资源、作业的调度流程,构建了完整的信息系统和运行流程,实现了异构集群Torque/Maui与Hadoop的集成。该系统通过混合运行两个集群,使计算节点本地磁盘的存储能力和I/O资源得到充分利用,显著提升了系统的存储容量和I/O性能;并且利用集群间的错峰运行共享集群资源,提高了整个集群的资源利用率。⑶使用BESⅢ实验真实的物理数据处理及分析应用对原型系统进行了验证。测试结果表明,新系统不仅能够在两个集群之间动态的分配计算资源,还可以充分利用计算节点本地磁盘空间及I/O资源,显著降低网络I/O;改进后的DRF算法能够根据高能物理不同类型作业的特点选择合适的节点分配资源,系统运行效率提高大约19%。