论文部分内容阅读
生物体的诸多行为以及技能是在其与环境的互动过程中逐渐地形成并发展起来的。将生物体的这种认知以及学习机制赋予机器使机器能够具有类似人和动物的内在的学习和组织机制,是控制科学,人工智能学,机器人学以及心理学研究的重要课题。操作条件反射机制是生物体的重要学习机制,也是重要的心理学基本机制之一,人和动物的学习过程就是基于这种机制逐渐地形成发展以及完善的。 本文基于心理学中的操作条件反射机制,并结合了心理动力学,热力学以及生物能学方面的研究,建立了基于心理学的操作条件反射学习模型并将其应用于机器认知学习的相关研究,取得了以下主要成果: (1)将心理学的操作条件反射过程形式化为计算模型 为了将生物的认知与学习过程赋予机器,本文在心理学中的操作条件反射理论的基础上提出了斯金纳自动机(Skinner Automaton,SAUTO)。本文对操作条件反射理论中行为与结果,以及强化和动机的关系进行了分析,并结合心理动力学,热力学,生物能学将操作条件反射过程中的这些关系进行了形式化。斯金纳自动机是一个将操作条件反射理论形式化的心理学模型,结合了学习自动机理论,Metropolis算法,Monte Carlo方法以及模拟退火算法。斯金纳自动机是一种描述认知行为过程的离散计算模型,它包括操作行为集合,智能体心理状态或内部状态集合,状态转移过程以及操作条件反射的学习方式。斯金纳自动机的重要特征在于它是对生物学习的心理学机制的形式化计算模型,因而具备了仿生的自组织特性,包括自学习以及自适应的能力,可用在对自组织系统的描述,模拟以及设计的工作中,用以机器人系统的各种智能行为的设计工作。随后文中对斯金纳自动机进行了理论分析,证明了斯金纳自动机的收敛性,即证明了在特定条件下,斯金纳自动机的便利性,ε-最优特性,以及最优特性。同时也证明了操作行为的发生概率随着学习的进行会以概率1收敛到稳定的根集合。 (2)将斯金纳自动机作为神经中枢系统应用于仿真实验并分析机器认知行为操作条件反射作为一种心理学理论,文中将形式化的斯金纳自动机作为人工脑并使机器具备认知行为,展现生物的操作条件反射过程。尽管Monte Carlo方法可以用来研究操作行为与结果在反应—刺激条件反射中的关系,但是它既不能选择操作行为也不能选择结果。Metropolis算法改进了Monte Carlo方法,使其可以选择接受或拒绝系统的状态,然而Metropolis算法不能直接用于生物学系统,因为对于生物体来说,状态意味着其行为的结果,而生物体是不能拒绝它自己的行为所产生的结果的。这在模拟鸽子实验,维纳虫实验中都可以通过斯金纳自动机体现出来,斯金纳自动机将生物的学习方式拓展到了机器学习领域,并且可以通过操作条件反射的方式来体现生物的行为选择机制,同时,也从机器学习的角度揭示了迷信行为产生的原因。斯金纳自动机通过操作条件反射的方式,以选择行为的方法来选择其所需要得到的结果。对斯金纳自动机的研究工作也拓展了我们对于动物认知与学习的思路。对模拟斯金纳迷信鸽子的研究给我们对于理解动物行为在心理学计算层面以及热力学计算层面给予了很大的启发。 (3)将斯金纳自动机用于两轮机器人,作为其感觉运动系统自主学习平衡技能 文中将提出的斯金纳自动机应用在了自主研发的柔性两轮自平衡机器人“原人3号”上,使“原人3号”具备了操作条件反射式的学习能力,可以像小孩子或者动物一样以渐进的方式学习站立并保持平衡的姿态。通过斯金纳自动机的操作条件反射方式的学习,我们无需对机器人的数学模型作过多了解,因为我们创建了一种基于心理学的学习方式,机器人可以通过探索行为所产生的结果来自己决定在什么样的状态下采取什么样的行为来使自己保持平衡,并成为了第一台能够自主学习平衡技能的柔性两轮自平衡机器人。