论文部分内容阅读
人工生命作为一个新的研究领域,其关于进化的研究是最基本和最重要的课题。它以生命现象为研究对象,以生命过程的机理及其工程实现技术为主要研究内容,以扩展人的生命功能为主要研究目标。人工生命的研究兴趣在于对生命系统行为特性的仿生,学科中使用由下而上合成的方法,使人工系统具有很好的适应性、灵活性。虚拟生物是智能虚拟环境的一部分,也是检验人工生命理论的一种实验手段。从人工生命的观点来看,虚拟生物的感知、认知是进化计算中自发涌现的结果,本质上也是一个模式形成过程。因此对其中agent的研究可以增进整个系统的能力。人工生命的研究在人工智能系统中有着理论和应用的重要性,其中它的进化模型又能解决机器学习、函数优化、信号处理中的一些问题。机器学习是人类使用计算机来模拟生物学习能力的一种手段。它是人工智能研究中的重要一环,它的研究对人工智能和机器人技术的发展具有重要的意义。增强学习是近几十年来迅速发展起来的一类机器学习方法。它不需要先验知识,因此是一种弱化了指导学习的学习方法。它通过和环境交互时使用的试错法来学习,这是增强学习的特点之一。增强学习应该理解为一类问题的集合,而不是一类方法的集合。当agent必须通过和环境的试错式交互来提高自己的行为、达到某种目的时,它所面临的问题就是增强学习的问题。由于人工生命是一个多agent系统,其中的虚拟环境是动态变化的,其他agent的行为是未知的,因此在人工生命模型中使用增强学习模型有利于agent在虚拟环境中的自学习与自适应。进化增强学习是将增强学习与智能计算相结合的一种学习方式,原有的进化增强学习采用了增强学习的学习框架,使用神经网络与遗传算法相结合的方法来实现该框架。该模型中一个agent具有评估网和行动网两种神经网络,它们分别对评估和决策进行计算得出行动策略,并使用遗传算法对这两个网络进行权值优化。在增强学习中策略的开发与探索之间的平衡决定了agent是开发未执行过的行为集还是继续探索己经在学习过程中得到的知识。一味的开发将使agent很快地陷入局部最优,虽然探索可以跳出局部最优并加速学习,但过多的探索将影响算法的性能。原有的ERL模型在这方面没有很好的进行处理,另外此理论在应用中还存在着状态空间压缩,信用分配等问题,因此这种学习方式具有一定的局限性。本文旨在原有的进化增强学习模型基础上建立一个多agent系统,创建一种能平衡搜索与利用关系的改进模型,以提高agent在虚拟环境中的适应水平,同时观察学习与进化在agent中的体现以及虚拟生物在虚拟环境中怎样处理生存与繁殖问题,并期望在一定程度上体现人工生命群聚智能利“涌现”特征。Q学习是在增强学习基础之上发展起来的一种新的机器学习方法,它的学习方法是以Q值的大小为指导。在实现过程中改进模型结合了进化增强学习的Q学习算法与分布式策略方法,遵循学习与进化对人工生命中的虚拟生物的指导作用,使用神经网络完成虚拟物种在虚拟环境中对环境的学习利对自身如何进化的学习,弱化了指导学习在学习过程中的作用,使agent依靠环境作为学习的回馈,有着更好的适应性。模型中的神经网络结合遗传算法实现了一个agent评估一决策模型,使agent能进行有目的的移动并在行为过程中得到学习,并且使用Actor—CritiC模型中的感知作为行动神经网络的输入。在神经网络计算过程中结合了遗传算法和分布式策略,行动网的最终输出是一种基于马尔可夫决策链的增强学习结果,这个结果不是单一的值而是对行动概率的一种描述,当感知到食物或在满足繁殖条件的情况下,agent的行动在自身行动网输出的基础上依照概率选出,因此在加强了收敛效果的同时也体现了agent的自学习功能。此外还利用遗传算法作为虚拟物种的进化规则,使得具有高适应度的物种能够生存并繁衍下去,籍此使虚拟生物的进化得以实现,从而完成agent对外界环境的白适应功能。该模型依据揭示进化与学习关系的Baldwin效应,在神经网络、进化学习、增强学习以及分布式方法的结合运用下实现agent的学习与进化,体现了学习和进化在人工生命中的重要性以及两者之间的相互作用。目前相关实验大多聚集在单一环境中的虚拟物种进化学习过程研究上,改进后的增强学习算法不仅能够较快的收敛并且具有较好的适应度,还增强了agent对非单元环境的适应性。在文章最后,对于该模型的具体实现与观察结果列出了一些相关实验数据,并将实验结果的采样与其他相关实验进行比较.从给出的仿真模型中表明,agent在具有自由活动、觅食、繁殖、逃避等行为特征的同时,其自身算法的效果有了一定提高。使用该模型有助于agent对外界环境的学习与行为决策,并且有较好的收敛性与进化适应度。本项目具有一定的工程应用潜力,可以广泛的应用于类似系统,对于人工生命中的虚拟物种学习与进化的理论利实践研究也具有一定意义。