基于ERL的虚拟物种进化

来源 :西南大学 | 被引量 : 0次 | 上传用户：tushudasha

【摘要】

：

人工生命作为一个新的研究领域,其关于进化的研究是最基本和最重要的课题。它以生命现象为研究对象,以生命过程的机理及其工程实现技术为主要研究内容,以扩展人的生命功能为

【作者】

：

方晓静

【机构】

：

西南大学

【出处】

：

西南大学

【发表日期】

：

2008年期

【关键词】

：

人工生命进化增强学习分布式策略决策-行为模式评估-决策方法

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

人工生命作为一个新的研究领域,其关于进化的研究是最基本和最重要的课题。它以生命现象为研究对象,以生命过程的机理及其工程实现技术为主要研究内容,以扩展人的生命功能为主要研究目标。人工生命的研究兴趣在于对生命系统行为特性的仿生,学科中使用由下而上合成的方法,使人工系统具有很好的适应性、灵活性。虚拟生物是智能虚拟环境的一部分,也是检验人工生命理论的一种实验手段。从人工生命的观点来看,虚拟生物的感知、认知是进化计算中自发涌现的结果,本质上也是一个模式形成过程。因此对其中agent的研究可以增进整个系统的能力。人工生命的研究在人工智能系统中有着理论和应用的重要性,其中它的进化模型又能解决机器学习、函数优化、信号处理中的一些问题。机器学习是人类使用计算机来模拟生物学习能力的一种手段。它是人工智能研究中的重要一环,它的研究对人工智能和机器人技术的发展具有重要的意义。增强学习是近几十年来迅速发展起来的一类机器学习方法。它不需要先验知识,因此是一种弱化了指导学习的学习方法。它通过和环境交互时使用的试错法来学习,这是增强学习的特点之一。增强学习应该理解为一类问题的集合,而不是一类方法的集合。当agent必须通过和环境的试错式交互来提高自己的行为、达到某种目的时,它所面临的问题就是增强学习的问题。由于人工生命是一个多agent系统,其中的虚拟环境是动态变化的,其他agent的行为是未知的,因此在人工生命模型中使用增强学习模型有利于agent在虚拟环境中的自学习与自适应。进化增强学习是将增强学习与智能计算相结合的一种学习方式,原有的进化增强学习采用了增强学习的学习框架,使用神经网络与遗传算法相结合的方法来实现该框架。该模型中一个agent具有评估网和行动网两种神经网络,它们分别对评估和决策进行计算得出行动策略,并使用遗传算法对这两个网络进行权值优化。在增强学习中策略的开发与探索之间的平衡决定了agent是开发未执行过的行为集还是继续探索己经在学习过程中得到的知识。一味的开发将使agent很快地陷入局部最优,虽然探索可以跳出局部最优并加速学习,但过多的探索将影响算法的性能。原有的ERL模型在这方面没有很好的进行处理,另外此理论在应用中还存在着状态空间压缩,信用分配等问题,因此这种学习方式具有一定的局限性。本文旨在原有的进化增强学习模型基础上建立一个多agent系统,创建一种能平衡搜索与利用关系的改进模型,以提高agent在虚拟环境中的适应水平,同时观察学习与进化在agent中的体现以及虚拟生物在虚拟环境中怎样处理生存与繁殖问题,并期望在一定程度上体现人工生命群聚智能利“涌现”特征。Q学习是在增强学习基础之上发展起来的一种新的机器学习方法,它的学习方法是以Q值的大小为指导。在实现过程中改进模型结合了进化增强学习的Q学习算法与分布式策略方法,遵循学习与进化对人工生命中的虚拟生物的指导作用,使用神经网络完成虚拟物种在虚拟环境中对环境的学习利对自身如何进化的学习,弱化了指导学习在学习过程中的作用,使agent依靠环境作为学习的回馈,有着更好的适应性。模型中的神经网络结合遗传算法实现了一个agent评估一决策模型,使agent能进行有目的的移动并在行为过程中得到学习,并且使用Actor—CritiC模型中的感知作为行动神经网络的输入。在神经网络计算过程中结合了遗传算法和分布式策略,行动网的最终输出是一种基于马尔可夫决策链的增强学习结果,这个结果不是单一的值而是对行动概率的一种描述,当感知到食物或在满足繁殖条件的情况下,agent的行动在自身行动网输出的基础上依照概率选出,因此在加强了收敛效果的同时也体现了agent的自学习功能。此外还利用遗传算法作为虚拟物种的进化规则,使得具有高适应度的物种能够生存并繁衍下去,籍此使虚拟生物的进化得以实现,从而完成agent对外界环境的白适应功能。该模型依据揭示进化与学习关系的Baldwin效应,在神经网络、进化学习、增强学习以及分布式方法的结合运用下实现agent的学习与进化,体现了学习和进化在人工生命中的重要性以及两者之间的相互作用。目前相关实验大多聚集在单一环境中的虚拟物种进化学习过程研究上,改进后的增强学习算法不仅能够较快的收敛并且具有较好的适应度,还增强了agent对非单元环境的适应性。在文章最后,对于该模型的具体实现与观察结果列出了一些相关实验数据,并将实验结果的采样与其他相关实验进行比较.从给出的仿真模型中表明,agent在具有自由活动、觅食、繁殖、逃避等行为特征的同时,其自身算法的效果有了一定提高。使用该模型有助于agent对外界环境的学习与行为决策,并且有较好的收敛性与进化适应度。本项目具有一定的工程应用潜力,可以广泛的应用于类似系统,对于人工生命中的虚拟物种学习与进化的理论利实践研究也具有一定意义。

其他文献

基于单幅手绘线画图的三维自由形体重建和生成

在计算机图形学和数字娱乐领域,手绘是一种重要的艺术呈现方式,也是人们传达思想的一种常用方式。在三维形状的创建和生成中,基于手绘的建模是一个热门的研究方向。手绘建模

学位

自由形体手绘建模图像建模视觉显著性形状简化

OBS中的预留协议和信道调度算法研究

近年来不断快速增长的因特网流量要求越来越大的网络容量,并且最好能够支持区分服务。波分复用(WDM)技术在这方面有很大的潜力。由Chunming Qiao和J.S.Turner等人提出的光突

学位

光突发交换竞争解决调度算法控制分组

压缩感知支持下的无线传感器网络生存时间延长技术

无线传感器网络是由监测区域内的节点以自组织方式构成的无线通信网络。网络是以数据为中心的,节点通过相互协作来感知各种环境信息(例如温度、湿度、污染物浓度、压力等),并

学位

无线传感器网络网络能耗网络生存时间压缩感知数据采集

网络性能管理系统前台软件的研究与开发

NPMS(Network Performance Management System)网络性能管理系统通过对网络系统实时的监测和管理,提供了对网络系统全方位和深入的性能分析、准确的网络故障定位和主动性的网

学位

NPMSSpringBerkeley DB系统监控

基于信息共享的多Agent谈判研究

当今电子商务市场发展非常迅速,形成了一个潜力巨大的市场,Internet上信息量和商务量爆炸式增长、网络环境日益复杂,以及产品供应商的不确定性都迫切地需要一种能够主动地、

学位

Multi-Agent电子商务熟人关系社会交换理论信息共享

以学生为中心的信息与通信系统研究：达累斯萨拉姆工学院案例

高校教育对一个国家的生产力有着直接的影响,而一个国家的生产力又决定了国民生活标准和一个国家在全球经济中的竞争力。为了达到更高的教育目标,信息通讯技术必须得到最大程

学位

ICT数字设备高等教育信息系统坦桑尼亚

两类混合序列的收敛性质

概率论极限理论是概率论得主要分支之一，也是概率论的其它分支和数理统计得重要基础.而独立随机变量得概率极限理论又是概率论极限理论中教经典理论之一，在20世纪三四十年代已

学位

概率论极限理论混合序列

一种基于对等网的分布式入侵检测系统模型研究

入侵检测技术是保障网络安全的一个重要手段。随着网络规模的扩大和攻击方式的分布化,分布式入侵检测系统的研究成为热点。虽已有一些分布式入侵检测产品问世,但它们仍存在单

学位

入侵检测对等网特征库分布式系统

基于监督学习的问答对提取方法研究

随着网络技术的迅速发展,互联网已经成为全球最大、最广泛使用的信息库,成为人们进行信息交流和处理的最有效平台。互联网上的数据是海量的,而且本身还以每天极高的速度增长,

学位

监督学习问答对提取信息检索搜索引擎语义相似度支持向量机

基于决策树的分类算法的并行化研究及应用

随着社会各个领域计算机应用的普及，信息技术和网络技术高度发展，产生的数据量日益增大。如何有效地管理、利用数据库中数据，以及怎样才能发现其中潜在的知识，这就需要有新的、更

学位

数据挖掘分类并行决策树市场细分

基于ERL的虚拟物种进化

其他学术论文