值函数相关硕士博士期刊学术论文

值函数相关论文

深度强化学习算法与应用研究现状综述

深度强化学习主要被用来处理感知-决策问题,已经成为人工智能领域重要的研究分支。概述了基于值函数和策略梯度的两类深度强化学习......

期刊

人工智能深度强化学习值函数策略梯度导航协作复杂环境泛化性鲁棒性

基于作战过程的岛礁兵力配置强化学习算法

针对岛礁守备作战过程中涉及的对海、对陆、对空3类武器，根据岛礁守备作战过程建立模型，提出一种动态动作空间方法。设置敌方武器装......

期刊

强化学习值函数岛礁守备动态动作空间

基于值函数的深度强化学习改进研究

深度强化学习作为机器学习的一个分支,其通过结合深度学习的感知能力与强化学习的决策能力实现了对从感知到行为端到端的学习。目......

学位

深度学习强化学习值函数序列决策

基于扩散风险模型的保险公司最优分红和风险控制策略研究

过去的几十年里,最优分红问题一直是金融保险领域关注的热点问题。随着现代金融保险市场的快速发展,保险公司所涉及的策略由分红逐......

学位

分红注资再保险破产终端值交易费用值函数最优策略扩散风险模型

复合二项模型中具有随机分红时刻的最优红利问题

本文主要在复合二项模型中研究具有随机分红时刻的最优分红问题.该研究是对周期性最优分红问题的进一步拓展,采取随机分红时刻的分......

学位

随机分红最优分红策略值函数压缩映射原理贝尔曼递归算法随机算子

基于时间差分学习的随机跳变系统鲁棒控制

实际工程应用中,由于生产需要、工况变化或紧急的突发状况,系统包含着多种工作模式,既有随时间的状态连续演化,又有受离散时间驱动......

学位

随机跳变系统时间差分学习鲁棒控制黎卡提方程值函数

带有广义方程约束的数学规划的灵敏性分析

本文首先构造了带有广义方程约束的优化问题,对此问题的两种扰动形式进行了灵敏性分析,得到了扰动问题值函数的次微分关于满足Frit......

学位

带有广义方程约束的数学规划值函数灵敏性分析次微分半定锥互补约束数学规划

Cramer-Lundberg模型下分红问题值函数与策略的迭代方法

最优分红问题是金融保险中研究较多的问题之一,其中基于Cramer-Lundberg风险模型的研究也十分普遍.一般说来,要求得最优分红问题的......

学位

最优分红问题值函数迭代策略 Cramer-Lundberg风险模型

深度强化学习中的动作值函数Q估计方法研究

强化学习的优化目标是寻找最优动作序列，解决复杂环境中的决策问题。结合了深度神经网络，深度Q学习(Deep Q-Network，DQN)是一种经典的......

学位

强化学习动作值函数正则化估计方法论文泛化能力学习问题神经网络实验偏差价值估计

分层强化学习的研究及其在多智能体环境中的应用

近年来，人们在强化学习领域的研究已经取得了令人瞩目的成就。然而在场景较为复杂时，传统的强化学习算法面临维度灾难以及长期信度分......

学位

分层强化学习多智能体环境强化学习算法分配问题学习框架维度灾难估计问题多智能体强化学习值函数有效性信度场景

基于值函数的强化学习在直复营销中的研究

直复营销即一种可以得到客户直接回应的营销模式。作为企业的一项长期性经营活动,直复营销贯穿于企业发展的整个过程,因此,通常将......

学位

强化学习值函数 Q-learning算法深度Q网络直复营销

基函数自适应的强化学习的神经网络实现的研究

强化学习是机器学习研究中一个重要的方向,是智能体通过与环境交互来学习如何行为的方法。强化学习过程是一个以寻找最优策略为最......

学位

强化学习策略评价策略迭代值函数函数逼近器基函数

一类微分博弈值函数的存在性

本文主要在没有Isaacs条件下,研究带有不对称信息和相关信息的两人零和微分博弈以下两类问题:即上值函数的上共轭的等价形式,以及......

学位

微分博弈不对称信息相关信息 Isaacs条件随机策略值函数

基于动态规划的雷达弱目标检测前跟踪算法研究

随着目标的多样化和实际环境的复杂化,现代雷达的探测能力正在面临十分严峻的挑战,而微弱目标的检测与跟踪问题就是其中之一。检测......

学位

雷达弱目标检测前跟踪动态规划值函数多目标检测跟踪

几类扩散过程的值函数

风险理论是金融数学和精算学中的重要组成部分,主要关注保险公司的商业运营,通过建立相关的风险模型,从而对保险公司经营中的风险......

学位

值函数强马尔可夫性 Dynkin公式首出时首中时

连续时间复合二项模型的带期望折现罚函数的最优分红问题

本文运用随机控制理论研究连续时间复合二项模型带期望折现罚函数的最优分红问题。目的是得到使带期望折现罚函数的累积期望折现分......

学位

连续时间复合二项模型值函数 HJB方程最优分红策略整数点索赔

微分对策及其在金融学中的应用

微分对策是对策论在动态情况下的发展，故又称为动态对策。它在军事对抗、航天工程、经济与金融、资源配置领域等具有非常广泛而重要......

学位

微分对策金融学投资策略值函数博弈模型

用随机转换控制的方法解决中国证券市场的两个投资问题

雍炯敏和周迅宇[9]十分完整和严密地介绍了随机最优控制的基本理论，主要是针对连续控制.1993年，汤善健和雍炯敏[7]讨论了一个比较一......

学位

最优投资问题值函数动态规划 HJB方程随机转换控制套利数学金融证券市场

半线性热方程的反馈零能控性

本文考虑具有Lipschitz非线性项的半线性热方程：的最优控制问题。我们将运用观测不等式，证明值函数(ψ)作为相应HamiltonJacobi方程......

学位

最优控制零能控性反馈控制值函数半线性热方程

带破产回收的最优风险控制和分红策略

本篇文章主要考虑的是如何最大化全部折现分红和最终的固定资产P的和。其中最终固定资产P表示保险公司在破产时所拥有的固定的可折......

学位

比例再保险最终资产扩散模型值函数分红策略风险控制

离散模型下最优红利再保策略

随着保险市场的不断开放与发展,保险业的竞争越来越激烈,保险企业需要不断开发更具竞争性的产品,以及通过购买再保险等方法来增加......

学位

复合二项模型最优支出策略最优红利策略最优自留额最优再保费比例 HJB方程压缩映射

关于周期函数的最小正周期的存在性

我知道一些周期函数在定义域上存在最小正周期,如sinx,cosx,tanx,cotx等.但有些周期函数如常值函数、狄利克莱函数等均没有最小正......

期刊

周期函数最小正周期函数连续充分条件值函数定义域

论心理账户理论对高校助学制度设计的启示

进一步完善高校贫困生助学体制,切实解决高校贫困生问题,是我国高等教育面临的一个十分紧迫而重要的理论课题和现实课题.仅着眼于......

期刊

心理账户非替代性值函数助学体制奖学金

半线性热方程的反馈零能控性

考虑具有Lipschitz非线性项,半线性热方程的最优控制问题.我们将运用观测不等式,证明值函数ψ作为相应Hamilton-Jacobi方程的唯一......

期刊

最优控制零能控性反馈控制值函数 Hamilton-Jacobi方程

带有风险规避的证券投资最优策略

运用随机最优控制理论,建立了带有风险规避的证券投资最优策略问题的数学模型;然后,给出了值函数和风险规避系数的定义,并通过对值......

期刊

证券投资风险规避随机最优控制值函数 HJB偏微分方程

风险敏感性最优控制问题研究

运用随机最优控制理论,研究了风险敏感性随机最优控制问题.给出了值函数和风险规避系数的定义,并通过对值函数进行非线性变换,证明......

期刊

随机最优控制风险敏感性值函数动态规划效用函数

含参DC复合优化问题值函数的Fréchet次微分

利用次微分相关性质,并引入新的约束规范条件,对含参DC复合优化问题的值函数的Fréchet次微分进行了估计.......

期刊

Fréchet次微分值函数 DC复合优化问题 Fréchet subdifferential the value function DC composi

看过本文同时还关注