Sequencing of multi-robot behaviors using reinforcement learning

来源 :控制理论与技术(英文版) | 被引量 : 0次 | 上传用户:sony360
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
Given a collection of parameterized multi-robot controllers associated with individual behaviors designed for particular tasks,this paper considers the problem of how to sequence and instantiate the behaviors for the purpose of completing a more complex,overarching mission.In addition,uncertainties about the environment or even the mission specifications may require the robots to learn,in a cooperative manner,how best to sequence the behaviors.In this paper,we approach this problem by using reinforcement learning to approximate the solution to the computationally intractable sequencing problem,combined with an online gradient descent approach to selecting the individual behavior parameters,while the transitions among behaviors are triggered automatically when the behaviors have reached a desired performance level relative to a task performance cost.To illustrate the effectiveness of the proposed method,it is implemented on a team of differential-drive robots for solving two different missions,namely,convoy protection and object manipulation.
其他文献
高效潜结构投影(EPLS)算法是一种反映过程变量与质量变量相关关系的多变量统计分析方法,在质量相关故障检测中具有良好的检测效果.然而EPLS算法是一种静态检测模型,不能反映实际工业过程或装备测试中的动态特性,对动态过程中质量相关故障的检测率较低.为此,本文提出了一种基于自回归移动平均模型(ARMAX)的动态高效潜结构投影(D–EPLS)检测算法.该算法首先基于输入时滞值构建增广矩阵,反映工业以及装备测试过程中的动态特性;然后将增广矩阵分解为质量相关和质量无关空间分别进行故障检测;最后通过数值仿真和田纳西伊
针对时变外扰,提出广义非线性扩张状态观测器设计方法.在分析传统扩张状态观测器的设计策略的基础上,通过对总扰动进行重构、引入广义扩张状态,设计反映扰动中已知分量的广义扩张状态观测器(扩张r+1阶).理论分析了观测器的收敛性,并得出了观测误差上界与扩张阶数的定量关系式.通过仿真对广义扩张状态观测器抑制外界正弦扰动的有效性进行检验,数值模拟结果表明,本文设计的观测器能够有效利用扰动中已知分量的信息,降低系统的不确定性,提高观测精度.
动物和人类可以使用感官中不完整的空间信息来快速定位其当前位置并导航到目标,为未知环境下的矢量导航提供了生物模型.本文针对基于连续吸引子模型和余数系统的大尺度空间矢量导航方法所存在的鲁棒性问题,提出了一种基于振荡干扰模型和逐级模糊度确定法的大尺度空间矢量导航方法.仿真结果表明,在2%的测量噪声条件下,该方法可以在245 m×245 m×sin 60?的大尺度环境下准确解算出位置矢量,并且每个维度中位置的解算精度可以达到1 cm以内,有效提高了大尺度空间内矢量导航的鲁棒性.
综合射频系统是未来机载电子设备的发展趋势.本文首次从系统工程运筹学的角度对无人机载综合射频系统中的雷达、侦察、通信、干扰的作战任务及威力进行了研究分析;通过任务矢量的构建可实现不同作战环境下综合射频阵面的自主配置,建立了基于任务矢量的综合射频系统阵面资源优化的物理模型和数学模型;创建了基于作用距离、功耗、作战效能的多目标优化模型;分析了孔径约束、功率约束和作用距离约束条件,构建了基于任务矢量、距离矢量和优先级矢量的距离偏差值作为适应度函数.通过基于改进罚函数的多目标进化算法对综合射频系统的阵列资源配置进行
随着微型空中机器人技术的迅速发展,利用小型旋翼无人机对目标环境进行自主覆盖与探索成为当前机器人领域的研究热点.鉴于此,首先对机器人环境覆盖规划与探索规划的研究内容进行简要介绍;然后按照覆盖规划、探索规划以及同时覆盖与探索规划3个方面展开综述,详细分析不同方法的基本工作原理、优势以及局限性;最后根据研究现状总结目前研究中存在的问题与挑战,并对未来研究与发展趋势进行分析.
Reinforcement learning is one of the fastest growing areas in machine learning,and has obtained great achievements in biomedicine,Internet of Things(IoT),logistics,robotic control,etc.However,there are still many challenges for engineering applications,su
This research deals with the energy management problem to minimize the cost of non-renewable energy for a small-scale microgrid with electric vehicles(EV)and electric tractors(ET).The EVs and ETs function as batteries in the power system,while they often
软件测试是软件开发活动中一个关键且耗时的环节,其核心是生成满足特定准则的测试数据.随着软件复杂程度的不断增加,软件测试的难度也越来越高.使用遗传算法等智能优化方法解决复杂软件的测试问题,是近年来软件工程领域的一个研究热点.鉴于此,针对智能优化在软件测试的应用进行综述,首先介绍软件测试的基本原理和方法;然后介绍智能优化在不同测试领域的研究进展,并对基于不同智能优化方法的软件测试研究进展进行分析;最后给出该领域的挑战与展望.
针对工业过程数据固有概念漂移特性导致软测量模型性能恶化、需识别漂移样本以有效更新模型等问题,提出一种面向工业过程难测参数建模的双窗口概念漂移检测方法.首先,在离群样本检测窗口采用支持向量回归获得实时过程数据中包含的离群样本;接着,在分布检测窗口计算离群样本与历史样本集间的欧氏距离;最后,结合多种分布检验方法,新定义能够表征离群样本蕴含分布变化的检验漂移度指标,进而实现漂移样本的有效识别.采用合成和真实工业过程数据集验证了所提方法的有效性,表明具有优于已有方法的性能.
In this paper,we develop a distributed solver for a group of strict(non-strict)linear matrix inequalities over a multi-agent network,where each agent only knows one inequality,and all agents co-operate to reach a consensus solution in the inter-section of