部分感知马氏决策过程的强化学习方法

来源 :中国人工智能学会第12届全国学术年会 | 被引量 : 0次 | 上传用户：qq174548079

【摘要】

：

强化学习是机器学习研究的重要方向之一,它可以通过和环境交互来学习马尔科夫决策过程(MDP)问题中的最优策略。部分感知马尔科夫决策过程(POMDP)模型引入了隐藏状态,是状态不

【作者】

：

葛屾;王巍巍;高阳;陈世福;

【机构】

：

南京大学软件新技术国家重点实验室 210093

【出处】

：

中国人工智能学会第12届全国学术年会

【发表日期】

：

2007年期

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

强化学习是机器学习研究的重要方向之一,它可以通过和环境交互来学习马尔科夫决策过程(MDP)问题中的最优策略。部分感知马尔科夫决策过程(POMDP)模型引入了隐藏状态,是状态不确定情形下顺序任务的通用理论模型。本文介绍了以强化学习技术为基础解决POMDP的主要方法,包括基本原理、特点以及算法。此外,本文还实现了三种主要算法,并以迷宫问题为实验平台,比较了这些算法的性能。

其他文献

基于二叉树的HTML转换为XML的方法

为了简化对HTML文件的信息抽取问题，将格式不规范的HTML文档转换为严格的XML文档已经很有必要。本文利用链表结构的二叉树实现了将HTML转换为XML。

会议

二叉树文档转换信息抽取链表结构文件规范格式

基于领域知识的复杂决策问题形式化方法研究

本研究提出了基于领域知识的复杂决策问题形式化方法。该方法利用问题分类知识和问题结构知识明确问题的结构,通过树状知识表示方法将这一结构表达出来,从而实现问题的形式化

会议

领域知识复杂决策问题问题形式化知识表示方法结构知识形式化方法明确问题结构表达分类知识树状

基于案例推理的某型航空发动机故障诊断专家系统研究

本研究将基于案例的推理方法应用于某型航空发动机故障诊断专家系统,在案例库的组织上采用归纳索引法建立了层次结构的故障索引树,并从灰色关联理论出发,提出了灰色贴近度这

会议

基于案例推理航空发动机发动机故障诊断故障诊断专家系统灰色关联理论相似度计算应用推理方法层次结构贴近度索引树索引法案例库组织检索概念

基于非对称语义相似度的语义Web服务匹配

本研究分析了语义Web服务匹配流程,得出语义Web服务匹配的关键问题之一在于领域本体的匹配。分析基于本体的经典的语义Web服务匹配算法─分类树匹配算法,得出该算法的最大缺

会议

非对称语义相似度Web服务匹配算法取值范围领域本体精确计算精确性合理性分类树选取排序流程经典

基于反绎agent的自诊断网构软件系统建模分析

网构软件将成为软件的一种主流形态,这是目前软件发展的趋势。但作为新出现的软件形态,尚有许多关键技术和核心问题需要突破和解决。本文对Internet开放、动态和多变环境

会议

自诊断软件系统网构软件主流形态系统模型推理技术软件发展建模问题关键技术故障诊断分析模型新出现设计环境

一种基于帧差分与小波聚类的运动目标检测算法

小波聚类是基于小波变换的一种新的聚类方法。帧差分是相邻图像序列分析的重要方法之一。本文首次提出了一种结合帧差分和小波聚类的视频运动目标检测算法,在视频帧差分基础

会议

类别不平衡性对代价敏感学习的影响

分类算法通常假设每个类别中的样本数目是大致相当的。然而在真实问题中往往不能满足这样的假设,数据分布常常是不平衡的,一个类别中的样本可能远远多于其他类别。在这种应用

会议

一种基于概念格的知识获取方法

概念格是一种优良的形式化分析工具,其具有的层次性和直观性,使之已广泛应用于数据挖掘领域。本文阐述了概念格的性质,方法,在数据挖掘领域已有的应用,及一种知识获取方法。

会议

概念格知识获取数据挖掘形式化分析应用获取知识方法数学性层次性直观实验工具

流行性乙型脑炎灭活疫苗与减毒活疫苗相结合的免疫策略研究

目的　为合理利用流行性乙型脑炎 (乙脑 )灭活疫苗和减毒活疫苗各自的优点 ,降低预防接种反应的发生率 ,提高免疫学效果 ,开展了乙脑灭活疫苗与减毒活疫苗相结合的免疫策略研

期刊

减毒活疫苗日本2型免疫效果基础免疫中和抗体

一种新的非线性支持向量机分类算法

本研究通过显示的构造一个非线性的映射函数,设计了一种新的非线性支持向量机(SVM)分类器学习算法。该算法可以被理解为一种特殊的正则化网络,对它的训练仅需要一个求解一个

会议

线性支持向量机训练时间学习算法非线性正则化网络线性方程组映射函数样本个数泛化性能正确率分类器显示实验设计求解阶数构造

部分感知马氏决策过程的强化学习方法

其他学术论文