行动者-评论家相关硕士博士期刊学术论文 - 搜论网

行动者-评论家相关论文

基于A3C的多功能雷达认知干扰决策方法

在多功能雷达对抗领域，目前基于强化学习理论的认知干扰决策方法难以满足雷达对抗高实时性要求。对此，本文将异步优势行动者评论家算......

期刊

干扰决策异步优势行动者-评论家时间效率决策准确度

基于连续控制任务的确定性策略梯度算法研究

无模型深度强化学习算法作为强化学习中的一种主要算法,其最大特点是在不对环境建模的情况下,通过与环境不断交互自主的进行学习。......

学位

深度强化学习连续控制任务行动者-评论家平滑确定性策略梯度

深度强化学习求解作业调度问题方法研究

作为研究最广泛的一类组合优化问题,作业调度问题是现实社会中交通、物流、工厂等领域实际问题的抽象模型。组合优化问题中约束条......

学位

行动者-评论家多头注意力机制同顺序流水作业深度强化学习

看过本文同时还关注