基于信念点裁剪策略树的POMDP求解算法

来源 :信息与控制 | 被引量 : 0次 | 上传用户：dfsdfsafdsfds

【摘要】

：

针对大规模部分可观察马尔可夫决策过程(POMDP)算法中策略树规模指数级增长、已证信念点(witness point,WP)求解困难的问题,根据策略树值函数是分段线性凸函数的特点,提出一

【作者】

：

郑红燕仵博冯延蓬孟宪军

【机构】

：

深圳职业技术学院,中南大学,

【出处】

：

信息与控制

【发表日期】

：

2013年01期

【关键词】

：

部分可观察马尔科夫决策过程(POMDP) 策略树信念状态基于点增量裁剪

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

针对大规模部分可观察马尔可夫决策过程(POMDP)算法中策略树规模指数级增长、已证信念点(witness point,WP)求解困难的问题,根据策略树值函数是分段线性凸函数的特点,提出一种基于信念点的策略树增量裁剪和值迭代求解算法.在策略树生成过程中,利用边界点进行无损裁剪,利用中间点进行有损裁剪,并利用实时信念状态分布求取近似最优解.对比实验结果表明,该算法能快速收敛,以更少的时间获得相当精度的奖赏值. Aiming at the exponential growth of strategy tree in large-scale partial observable Markov decision process (POMDP) algorithm and the difficulty of solving the problem of witness point (WP), according to the strategy that the tree function is piecewise linear convex function This paper proposes a strategy tree incremental cropping and value iterative algorithm based on belief points.Using the boundary points for lossless cropping and the use of intermediate points for lossy cropping in the strategy tree generation process, Approximate optimal solution.Contrast experimental results show that the algorithm can quickly converge, with less time to obtain a fairly accurate reward value.

其他文献

粉末粒度对SPS固相烧结La0.6Eu0.4B6阴极材料的影响

采用高能球磨法制备出La0 6Eu0.4B6纳米粉体,将球磨后的纳米粉进行放电等离子(SPS)烧结,制备出了高致密的La0.6Eu0.4B6多晶块体材料.系统研究了烧结温度、烧结压力对样品致密

期刊

放电等离子烧结多晶La0.6Eu0.4B6球磨粉末粉末粒度

高举信念的火炬

2009年以来,在财政部党组的领导下,注册会计师行业全面加强和改进行业党的建设,积极探索社会组织党建工作有效路径,不断提高行业党建工作科学化水平。2011年6月27日,中国注册

期刊

财政部党组会计师行业党建科学化水平火炬党的建设路径来在

铅材在安塞姆·基弗绘画作品中的呈现

安塞姆·基弗(Anselm Kiefer)的绘画作品种类繁多,形式多样,且以深邃的精神性和强烈的物质感著称。其独特的生活经历和生活环境造就了他敏锐的艺术感受力和独特的艺术思想,他

期刊

基弗绘画作品媒介材料感受力艺术思想工业产品伊西斯洛佩斯艺术语言金属感

基于纳米压痕法分析无铅焊点内Cu6Sn5金属化合物的力学性能

采用纳米压痕技术对微电子封装中无铅焊点内界面化合物(IMC)Cu_6Sn_5的弹性模量和硬度进行了测试。根据实际工业工艺流程和服役工况,制备接近真实服役状态下的微电子封装中无

期刊

界面化合物(IMC)纳米压痕测试连续刚度测量蠕变应力指数

绿色走廊

吃止咳药何时最合适早春时节,阳气初升,但空气中依然夹杂着丝丝凉风,伤风咳嗽难免。出现咳嗽,很多人的第一反应就是吃止咳药,把咳嗽压下去,直到止咳药没效果了,才急急忙忙往

期刊

绿色走廊手部卫生呼吸道分泌物病毒感染传播模式产品安全不知道更年期女性氮基酸食物成分表

全面发展的人与“单向度的人”——马克思与马尔库塞人学理论之比较研究

马克思的一生都致力于人类解放的伟大事业,他专研人学也无非就是为了实现人的自由全面发展这一伟大目标。马克思在研究人时不只是单纯的研究人的现在,而是将对人类的历史存在

学位

马克思马尔库塞人学思想

耦合混沌系统自适应修正函数投影同步

针对一类含有模型不确定和外界扰动的混沌系统,通过构造合适的响应系统,提出了一种修正函数投影同步方法.基于李亚普诺夫稳定性定理和单向耦合同步原理,给出了2种混沌驱动的

期刊

混沌系统修正函数投影同步单向耦合自适应

泰安市手足口病流行病学特征分析

目的探讨泰安市手足口病流行病学特征,为有效控制手足口病流行,制定控制措施提供科学依据。方法利用描述流行病学方法对泰安市2011-2012年手足口病发病资料进行流行病学分析

期刊

流行病学手足口病流行特征描述流行病学监测分析发病人群发病资料特征分析综合性防治措施散居儿童

僎的“復古”與鄉飲酒禮流變

通過僎位的存廢及其地位之升降,可以審視古代鄉飲酒禮之流變.上古“三禮”文本中,對於鄉飲酒禮中是否設立“遵者”(即“僎”)一席,包括其身份、位置、入禮的時間等,本有明確

期刊

鄉飲酒禮僎《儀禮》禮制改革

瞬时表达比较2种不同的RNAi载体的干涉效果

RNAi with natural defence mechanism of homologous RNA degradation is widely used in research of antiviral plant.It is important to construct a highly efficent R

期刊

表达比RNAi载体干涉效果PVYtransient expressionviadifferent马铃薯减产感染复合侵染植物辣椒炯草番

基于信念点裁剪策略树的POMDP求解算法

其他学术论文