论文部分内容阅读
理解和模拟人和动物神经系统内在的学习和组织机制,并将这种机制赋予机器,是控制科学、人工智能和机器人学研究的重要课题。机器人未知环境探索广泛应用于外星球探索、军事侦察、灾难搜救等领域。如何提高机器人的自主探索能力以及对环境的适应性是机器人未知环境探索的研究热点之一。 本文从仿生学习的角度出发,围绕移动机器人在未知环境下的自主探索问题展开研究,主要进行以下研究工作: (1)将强化学习方法应用于机器人未知环境探索中,实现了未知环境探索的Q学习算法,完成了算法各模块的设计,并基于Mobotsim的仿真环境,完成了机器人未知环境探索仿真实现;提出了一种Q值更新算法以加快学习速度并进行了相关的仿真实验研究以验证算法的可行性。 (2)为使机器人模拟生物的学习过程,基于操作条件反射思想构建了一种具有情感因子的操作条件反射自动机OCAE(Operant Condition Automata with Emotion),OCAE利用生物取向性原理,依赖取向性函数获得行为概率变化的趋向,依照概率分布,自主选择行为,从而使学习系统的自适应性得到提高;OCAE具有的情感模块能够模拟生物的内心情绪状态,利用情感函数对行为概率进行二次学习,通过二次学习可以进一步扩大行为概率的改变,有效加快学习进程。证明了OCAE算法的收敛性,完成了未知环境探索OCAE算法的设计,程序编写。仿真结果表明,OCAE不仅能完成环境探索任务,在机器人或目标位置状态改变时,比Q学习具有更好的适应性。 (3)离散输入状态的OCAE,在不规则障碍物环境中行为易震荡,并且容易陷入局部极小。为解决这些问题,以OCAE为基础,构建了连续状态操作条件反射自动机COCAE(Continuous state Operant Condition Automata with Emotion),COCAE采用高斯函数对连续状态模糊化,结果作为模糊状态集合,用模糊“状态-操作”映射作为模糊规则,通过取向积累和变化函数对模糊“状态-操作”映射规则中的概率进行调整,输出确定的操作值;同时设计了取向值积累和变化函数来取代OCAE中的取向值函数,并对OCAE中的情感状态函数进行改进。完成了未知环境探索实验算法设计。通过仿真证明了连续状态操作条件反射自动机具有行为学习能力以及自主进化能力。和OCAE相比适应不规则障碍物环境,能克服局部极小,逼近全局最优。