论文部分内容阅读
基于深层网络处理海量数据的分布式深度学习成为了当今的研究热点,其对人工智能等领域抽象概念、的处理能力是其他算法模型所无法比拟的。现有的分布式深度学习模型的训练速率和学习效果极大地受到集群的规模性、系统计算能力的波动性和训练节点可靠性的影响,为保证模型在各种不稳定环境下的收敛速率和学习效果必须解决以下关键技术难题:①如何消除因训练节点性能差异导致的严重梯度过时问题;②如何降低训练单元不可靠性对整体学习效果的影响;③如何平衡训练域(G)内各节点计算能力的差异;④如何划分更新参数的任务使系统达到计算更新和训练域计算能力的平衡。 基于数据并行和参数服务器组件的分布式深度学习思想,本文提出了有效解决以上难题的反馈积累融合(FBAF)模型:①提出反馈融合算法以解决梯度过时问题;②提出反馈积累算法以保证节点不可靠情况下模型的训练效率;③提出问答式反馈法以有效缓解带宽瓶颈;④提出任务列表概念以平衡计算任务与训练域计算能力;⑤提出定向循环服务节点列表概念以实现系统的高效容灾。 为验证模型的有效性和训练的高效性,论文以网约车调度为研究目标,对基于FBAF模型的网约车调度问题进行了深入分析和研究。由于网约车行驶路线和运营时间的随机性、受到天气等外界因素影响的不确定性以及海量历史订单数据的高噪声特性,传统交通调度算法均无法有效处理网约车调度问题。为了问题的有效解决,做了以下工作:①利用高维数据挖掘技术捕获海量历史数据中的调度区位和调度周期信息以构建时空域数据集;②对外界影响因素进行了筛选并量化其影响因子;③引用Early Stopping法控制高噪声环境中的过拟合。 实验证明反馈积累融合模型在收敛速度和模型精确度方面均优于现有分布式深度学习模型,其对网约车的调度效果更是远远高于传统的调度算法。