基于强化学习的城市交通信号优化控制

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:zhaoleiBCB
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着国民经济的发展和城市化进程的加快,我国机动车保有量和道路交通量急剧增加,城市交通拥堵情况愈发严重。研究表明,道路交叉口是城市交通运输系统的瓶颈,因此,本文以城市交通信号控制为研究对象,提出先进的强化学习优化方法,实现单点交叉口和干线交通信号的优化控制,研究内容主要包括以下几方面:   第一,针对单点交叉口交通信号控制问题,采用基于强化学习的自适应控制方法,提出了归一化的回报函数,达到了良好的学习效果。   第二,对单点交叉口交通信号控制问题进行了大量的、系统的仿真实验,对强化学习中的若干问题,如算法收敛性、回报函数的设计以及状态离散化程度对算法的影响,进行了详细的比较分析。   第三,针对多Agent协调优化控制问题,提出了基于基团分解的多Agent分布式稀疏强化学习优化方法:在多Agent强化学习的回报分配方式方面,提出了基于基团分解方法获得更好的协调策略;把基于因子图的和积算法改造为一般最大和算法,并且与稀疏强化学习结合起来,能够以并行、分布的方式解决问题。   第四,在标准测试问题——传感器网络问题中进行了验证,将所提出的方法与其他六种多Agent强化学习方法、单Agent强化学习方法进行比较,所提出的算法均获得了最好的性能指标和最快的学习速度。   第五,进而在干线上多个交叉口的交通信号协调优化问题中验证。对单点交叉口控制策略和上层协调控制策略的学习进行了一定程度的分离,分别使用交叉口Agent和协调Agent进行学习,减轻了维数灾问题。针对相邻交叉口之间的特点,提出了对协调程度进行准确评价的新的回报函数,实验结果显示所提出的方法具有较优的性能。   最后,对本文的研究成果进行了总结,并展望了需要进一步研究的工作。
其他文献
微生物发酵是典型的以间歇生产方式为主的技术性密集型产业,涉及到医药、食品、饲料、轻化工、环境治理等众多的工业领域,在国民经济中的地位日趋重要。随着上述行业的迅速发展以及市场竞争对多品种、小批量和高质量的需求,对于发酵过程进行控制和优化的要求也越来也迫切。然而,与一般的物理和化学过程相比,发酵过程有着迥然不同的动力学特征,如动力学模型呈高度的非线性和强烈的时变性、大多数生物状态变量难以在线测量、过程
PCS颗粒测量技术中颗粒粒度反演一直是一个重要而有魅力的研究课题,而正则化方法作为广泛采用的方法,其性能取决于正则化参数和正则化算子。如何决定合适的正则化参数及如何
在现代信息社会中,各行各业存在着大量含有重要信息的纸质表单,手动录入计算机系统花费巨大人力和物力,如何自动、快速准确地将纸质表单数字化并输入计算机是目前研究的热点。课
滚动轴承是旋转机械中非常容易损坏的零部件之一,它被广泛地应用于造纸、冶金和石化等国家支柱产业的重要设备上。根据统计数据表明,大概有30%的旋转机械故障是由于它们的滚动轴
肌萎缩性脊髓侧索硬化症、帕金森氏症等多种神经系统疾病患者,体内运动神经元逐渐凋亡,可致使全身瘫痪,丧失全部的行动能力,无法与外界进行沟通,生活更不能自理,承受着常人难以想象
选煤是洁净煤技术的重要环节,传统的煤和矸石的分选多采用基于物理原理的湿选法和干选法,这些方法,尤其是湿选法(重介法和跳汰法)对水资源浪费严重,对环境的污染也比较明显。
随着广播电视事业的不断发展,广播电视行业积累了大量的多媒体数据。一方面,由于缺乏有效的电视节目结构信息和内容标注,人们很难从海量的广播电视多媒体数据中快速准确的查找到
当前,新型智能优化算法在流程工业调度问题中得到了广泛的研究和应用。这些算法往往通过模拟某种物理学或生物学机制发展而来,为解决复杂系统的优化问题提供了新的思路和手段
在水下机器人作业领域,载人潜水器(Human Occupied Vehicle,简称HOV)使得人类亲自探求深海奥秘的梦想得以实现,也使人类的智慧在深海作业中得到最及时充分的发挥。然而HOV对海洋
近十多年来,随着功能磁共振成像技术(functional Magnetic ResonanceImaging,fMRI)的日趋成熟,这种无创性的技术被广泛地应用到对人类认知以及大脑功能的研究上来,并逐渐成为这些