报酬函数相关论文
近几年来,强化学习和学徒学习作为机器学习的两个子领域得到了极大的发展。在目前的强化学习技术中,报酬函数的自动构建是迫切需要......
本文鉴于市场上同一行业内部囚徒困境博弈的广泛存在,采用博弈论的分析工具来剖析同一行业内的企业行为,主要关注企业背叛行为并证......
根据马尔科夫决策过程和Q-learning算法,通过简化处理求解电梯群控系统在上行峰值期间的最优配置问题.给出电梯群控系统最优配梯的......
研究基于部分可观测随机过程的最优停时问题,且此部分可观测随机过程可由Kalman-Bucy滤波方法进行估计。而最优停时问题的报酬函数......

