论文部分内容阅读
在实际生产中,存在着这样一类重要的生产控制模型,即基于传送带服务的生产加工站(Conveyor-Serviced Production Station,简称CSPS)问题,其也是正(Industrial Engineering)/OR(Operations Research)领域的经典问题。随着流水线生产模式的普及,研究CSPS问题则具有比较重要的现实意义。根据CSPS问题的特点,其可以利用DEDS领域中的Markov决策过程(MDP)或半Markov决策过程(SMDP)建模,运用动态规划、强化学习等方法解决其优化控制问题。Markov性能势理论的提出,为MDP/SMDP优化提供了一种新的理论框架和途径。特别是性能势的样本轨道定义,使其可以自然地与强化学习、Rollout等方法相融合,丰富该类问题的优化求解算法。Look-ahead控制是研究CSPS问题的重要方法,即通过监控产品加工站以及传送带的相关信息,做出某些预先判断以便进行合理的行动选择。本文将以性能势理论为基础,研究CSPS基于学习的Look-ahead控制问题。首先,本文讨论的是考虑工件从传送带下载时间因素的CSPS问题,将其合理的建模为SMDP,建立了各种重要参数的推导公式。在SMDP模型参数已知情况下,讨论了基于性能势的策略迭代算法。其次,由性能势的样本轨道定义,建立了基于性能势的Q学习公式,给出了相关优化算法。同时,本文研究了CSPS基于平均准则和折扣准则统一的Rollout算法的优化问题,给出了相关学习公式以及优化算法。我们还采用了摄动分析的方法,结合系统运行的历史信息,给出了改进的Rollout算法。Q学习和Rollout算法不依赖模型参数的特点,使它们在解决这类实际生产问题具有潜在的优势。最后,本文考虑了一类实际生产例子,分别给出了三种算法的相关优化结果,分析了主要参数的变化对系统性能的影响。比较相关优化结果以及结合实际分析,说明三种优化算法是有效的。