动态环境下基于强化学习的无人机基站路径规划

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:ktzgy
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
近年来,快速发展的无人机技术使得无人机正在被广泛应用于各种通信场景,如空中中继、物联网设备数据收集器、空中基站等。与地面通信系统或基于高空平台的通信系统相比,低空无人机空中基站可以更迅速、灵活部署和重新配置,并且利用无人机的高移动性可获得短距离视线通信链路的几率更高,因而有更好的通信信道条件。因此空中基站的路径规划是一项重要的工作。在用户具有移动性的动态环境下,如何动态调整无人机空中基站的轨迹从而向用户提供更好的通信条件,是一个有待解决的重要问题。本文致力于研究动态环境下基于强化学习的无人机基站路径规划问题,其主要工作和创新点如下:(1)提出一种基于强化学习的空中基站动态感知路径规划算法。传统的空中基站路径规划场景大多考虑静态环境,本文提出了一种新的无人机基站应急通信场景,该场景考虑了具有不同移动模型的地面和空中用户。本文基于强化学习算法实现空中基站动态2D路径规划,以最大化系统上传数据速率。本文基于OpenAI gym框架编写了仿真环境。为实现让空中基站实现前瞻式的智能路径规划,本文设计了一种有效的神经网络结构,用以拟合强化学习算法中的Q函数,提高模型在动态环境下的适应性。仿真表明与传统的强化学习方法相比,该算法的性能大大改善,收敛速度更快,稳定性更好,适应动态环境的能力更强。(2)提出一种基于迁移学习的空中基站3D路径规划算法。考虑更一般的通信场景,由于高障碍物的影响,空中基站的高度会影响信道条件且需要高空避障。因此本文提出了空中基站3D避障路径规划问题。相比于(1)中2D路径规划问题,该强化学习问题的状态-动作空间更加复杂,需要更长的探索和学习过程,不利于解决实际问题。本文基于迁移学习,将(1)中强化学习算法学习获得的知识迁移到更复杂的3D路径规划任务中,实现算法在解决更复杂任务时更快速收敛。实验证明了该路径规划算法的可迁移性、可扩展性、高效性。
其他文献