论文部分内容阅读
随着电力市场的建立,发电公司的竞价问题日益引起人们的关注。在电力市场环境下,发电公司从传统的完成发电任务转变为厂家竞标发电负荷以获得最大的利润,其目的和行为发生了本质的变化。发电公司事先申报电力价格,辅助服务价格等信息,电力运营中心根据各发电公司申报的信息,本着“公平,公正,公开”的原则安排各发电公司的发电量。如何利用自己掌握的信息合理申报,以获得最大的利润,是发电公司报价决策所要解决的首要问题。分析各发电公司如何竞争以获取最大的利润,一个有效的工具就是博弈论。经典博弈是以完全理性为基本假定,但实际上,发电公司在申报价格的时候既不可能掌握市场的所有信息,也不可能把现实中的各个因素都考虑到。因此,基于有限理性的模型更符合实际,它允许决策者可以简化,误解,缺乏能力,算错,忘记,估计依赖于表面上无关的有关问题如何构成的细节事物。基于有限理性的博弈模型更注重解释人们如何学习,适应或者演化到均衡。本文把博弈参与人的有限理性思想应用于发电公司的报价策略学习中。发电公司在作出一个决策后,期望能获得一个利润,拿这个利润与实际利润做比较,来不断修正报价策略。由于信息的不完全性和参与人的有限理性,发电公司的期望利润水平带有较大的经验性和主观性,当诸多发电公司都采用期望利润来学习报价策略时,他们主观意愿的相互作用将对市场的宏观性态带来何种影响是有待研究的问题,而这正是本文探讨的主题。基于此本文提出了基于期望利润的强化学习方法,它更能体现有限理性的参与者向自身期望水平的逼近。文章对期望利润强化学习算法进行了实验模拟,随着模拟的进行,发电商不断修正策略,最终发电厂商的报价策略将收敛于其均衡位置,市场可能呈现多种均衡状态。