值函数相关论文
深度强化学习主要被用来处理感知-决策问题,已经成为人工智能领域重要的研究分支。概述了基于值函数和策略梯度的两类深度强化学习......
针对岛礁守备作战过程中涉及的对海、对陆、对空3类武器,根据岛礁守备作战过程建立模型,提出一种动态动作空间方法。设置敌方武器装......
深度强化学习作为机器学习的一个分支,其通过结合深度学习的感知能力与强化学习的决策能力实现了对从感知到行为端到端的学习。目......
过去的几十年里,最优分红问题一直是金融保险领域关注的热点问题。随着现代金融保险市场的快速发展,保险公司所涉及的策略由分红逐......
实际工程应用中,由于生产需要、工况变化或紧急的突发状况,系统包含着多种工作模式,既有随时间的状态连续演化,又有受离散时间驱动......
本文首先构造了带有广义方程约束的优化问题,对此问题的两种扰动形式进行了灵敏性分析,得到了扰动问题值函数的次微分关于满足Frit......
最优分红问题是金融保险中研究较多的问题之一,其中基于Cramer-Lundberg风险模型的研究也十分普遍.一般说来,要求得最优分红问题的......
强化学习的优化目标是寻找最优动作序列,解决复杂环境中的决策问题。结合了深度神经网络,深度Q学习(Deep Q-Network,DQN)是一种经典的......
直复营销即一种可以得到客户直接回应的营销模式。作为企业的一项长期性经营活动,直复营销贯穿于企业发展的整个过程,因此,通常将......
学位
强化学习是机器学习研究中一个重要的方向,是智能体通过与环境交互来学习如何行为的方法。强化学习过程是一个以寻找最优策略为最......
本文主要在没有Isaacs条件下,研究带有不对称信息和相关信息的两人零和微分博弈以下两类问题:即上值函数的上共轭的等价形式,以及......
随着目标的多样化和实际环境的复杂化,现代雷达的探测能力正在面临十分严峻的挑战,而微弱目标的检测与跟踪问题就是其中之一。检测......
本文运用随机控制理论研究连续时间复合二项模型带期望折现罚函数的最优分红问题。目的是得到使带期望折现罚函数的累积期望折现分......
微分对策是对策论在动态情况下的发展,故又称为动态对策。它在军事对抗、航天工程、经济与金融、资源配置领域等具有非常广泛而重要......
雍炯敏和周迅宇[9]十分完整和严密地介绍了随机最优控制的基本理论,主要是针对连续控制.1993年,汤善健和雍炯敏[7]讨论了一个比较一......
本文考虑具有Lipschitz非线性项的半线性热方程:的最优控制问题。我们将运用观测不等式,证明值函数(ψ)作为相应HamiltonJacobi方程......
随着保险市场的不断开放与发展,保险业的竞争越来越激烈,保险企业需要不断开发更具竞争性的产品,以及通过购买再保险等方法来增加......
我知道一些周期函数在定义域上存在最小正周期,如sinx,cosx,tanx,cotx等.但有些周期函数如常值函数、狄利克莱函数等均没有最小正......
进一步完善高校贫困生助学体制,切实解决高校贫困生问题,是我国高等教育面临的一个十分紧迫而重要的理论课题和现实课题.仅着眼于......
考虑具有Lipschitz非线性项,半线性热方程的最优控制问题.我们将运用观测不等式,证明值函数ψ作为相应Hamilton-Jacobi方程的唯一......
运用随机最优控制理论,研究了风险敏感性随机最优控制问题.给出了值函数和风险规避系数的定义,并通过对值函数进行非线性变换,证明......
利用次微分相关性质,并引入新的约束规范条件,对含参DC复合优化问题的值函数的Fréchet次微分进行了估计.......

