基于市场驱动代理和学习机制的自动协商模型研究

被引量 : 0次 | 上传用户:journey88
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着计算机技术及网络技术的发展,尤其Internet的广泛应用,Agent自动协商技术越来越成为人们研究和应用的热点。我们研究的重点是针对电子商务环境下多边多议题自动协商的协议和策略。电子商务中协商是多Agent系统为了对商品和服务等资源进行交易,利用网络进行协商以期达成一致。多边多议题协商是Agent自动协商研究的一个十分复杂的问题,随着互联网的普及和发展,电子交易不再受到地域的限制,商品资源、商业服务、交易伙伴、物流配送等交易资源空前的丰富,交易的机会大大地增加,使得电子交易市场呈现极大的开放性和变动性。买卖双方如何充分利用电子市场快速变化的供求信息,建立一套有效可行的协商策略,合理平衡供求关系,最大化个体利益是电子商务协商的关键。市场驱动代理模型就是针对变化的市场交易环境,开发具有适应性的协商策略。协商过程中协商Agent从交易机会的大小,交易面临的竞争压力,协商时间的限制,对协商结果的热情度等四个方面,形成对市场协商环境的信息描述,决定采取的协商策略,在动态的电子交易过程中合理地进行让步,减小交易差以促成协议的达成。协商中个体为了保护自身利益以及安全上的考虑,一般都要对个人的偏好、协商的底价、使用的效用评价函数和协商策略等信息加以保密,加上协商环境十分复杂多变,使得协商中Agent拥有的知识是不完全的、模糊的甚至是矛盾的,协商中Agent还要经常面临协商时间的限制,Agent很难预先确定一套行之有效的协商策略。多Agent系统中Agent具有适应性、学习性和改变自身行为的能力,所以在复杂多变的电子商务协商环境下,Agent必须从以往的协商经验中发挥自我学习能力,主动适应环境的变化,自动调整协商策略成为协商成功的关键。本文主要利用市场驱动代理建立适应电子交易市场变化的市场信息描述,并运用包括贝叶斯学习、强化学习、遗传算法、模糊神经网络等多种学习方法,通过Agent的协商经历,学习对手的偏好以及优化自身的协商策略。本文基于这一思想,提出五种基于市场驱动代理和学习机制的自动协商策略及其模型:(1)利用多策略模糊推理建立基于协商双方出价满意度的自动协商模型。随着开放的电子市场环境的不断变化,协商参与者对某个谈判的意向和对协商结果的满意评价都也会随时发生变化。所以,协商开始前根据谈判形式对谈判结果进行正确的预测,会给整个谈判过程提供一个明确的目标指引,成为Agent在协商的不同阶段合理选择协商策略的重要依据。基于协商双方出价满意度的自动协商模型将一次协商过程分为协商前期、初期、中期和后期。协商前期是在协商前对本次协商的目标进行预测的准备期,协商Agent综合可以获得的市场信息,利用模糊决策判断自身和协商对手的谈判力大小以及第三方环境因素的利弊,综合预测本次协商的预期目标,并依据该目标将整个协商可出价效用区划分为不同的出价满意度模糊集。协商交互过程中,根据协商双方提议所处的不同出价满意度,确定协商进展到不同阶段,决定采取相应的混合协商策略,并利用模糊推理生成新一轮总体让步值。这种协商策略综合运用了多目标模糊决策和多策略模糊推理技术,利用明确的总体目标为指导,提高了协商的成功率和总体收益。该模型针对多议题协商问题,设计了基于相似性原则的退火算法,在多议题间进行折衷,得到对协商双方都有利的最佳多议题出价方案。为了提高算法的有效性,我们还利用Bayesian方法学习对手对各议题的偏好权重。(2)为适应电子商务交易中的多边协商环境,提出基于市场驱动代理的自动协商模型。MDA针对开放多变的市场协商环境,从四个方面对协商环境信息进行评价:协商Agent继续谈判的机会;竞争压力;时间压力;对协商结果的期望度。据此,我们建立了多Agent环境下组织多边多议题协商的过程以及协商Agent根据对四个市场因素进行加权统计计算出新一轮协商总体让步值的协商策略。(3)提出基于分布式强化学习的多边自动协商策略。MDA利用四个市场驱动因素进行协商评估并决定其让步策略,但这些市场驱动因素对让步策略的影响并不是线性关系,简单地用算术公式综合决策的方法缺少灵活处理能力。针对这一问题,我们利用改进的Win-or-Learn-Fast Policy Hill-climbing(WoLFPHC)分布式多Agent强化学习方法开发具有适应性的市场驱动代理(Adaptivemarket-driven agent,AMDA)来增加多边协商环境下MDA的适应能力,这样协商Agent可以通过其协商的经历适应性地学习并获得有效的协商策略。WoLF PHC算法是一种可变学习率的策略爬山算法,不利时加快学习速度,有利时减慢策略的变化,在多Agent中感知环境的变化,适应性调整自身策略。通过对比AMDA和MDA的协商实验,AMDA更能适应多边协商环境的变化,通过不断的学习在成功率和协商收益上都最终超过MDA。(4)为了处理连续的协商状态,提出基于模糊神经网络的自动协商策略。WoLF PHC方法利用四个市场驱动因素评价函数形成当前协商的状态信息并存储于Q表中,因此它只能对离散的状态和动作进行强化学习,针对该方法离散粒度难于设定的问题,引入模糊神经网络学习优化协商策略。模糊神经网络的输入为连续的状态和策略动作,输出为状态动作对的Q值评价函数值,网络连接参数通过时序误差和BP反向传播方法进行调整。自动协商环境中,状态变量是由市场驱动代理评价的四个因素值形成的,实际执行的动作为当前状态下让步比率预测值,该值通过评测候选动作集中模糊神经网络Q值输出优胜的让步动作,并叠加高斯噪音获得的。(5)提出基于Actor-Critic强化学习的自动协商策略。基于模糊神经网络的自动协商模型中实际执行动作是取自候选动作集,虽然经过噪音处理,但并未真正实现对连续动作的处理。针对这一问题,我们使用Actor-Critic强化学习方法进行协商策略优化。执行器Actor和评价器Critic分别利用两个模糊神经网络建立,Critic神经网络参数通过时序误差和BP反向传播方法进行调整,Actor神经网络参数使用遗传算法进行优化。这种学习方法实现了对连续状态和动作的模糊处理,是对模糊强化学习方法的有益探索,并对该方法运用到自动协商中优化让步策略进行了尝试。以上基于学习型的自动协商策略是递次研究的结果,每个方法都是针对上一个协商策略的不足之处进行改进获得的。我们通过大量的实验验证了相应方法的效率和效果。
其他文献
随着近年来我国核电事业的快速发展,未来几十年会有大量高放射性的乏燃料从核电站产生,如何安全可靠地处理这些乏燃料越来越受到人们的重视。铝基碳化硼复合材料不仅具有良好
针对使用扫描电镜(SEM)进行半导体器件破坏性物理分析(DPA)和失效分析(FA)时,芯片表面不作喷镀处理的问题,提出了减小或消除电荷累积的试验方法。试验结果表明,正确应用SEM低电压技术,
生态养老作为一种新型养老模式,是缓解我国人口老龄化压力的重要选择,而乡村振兴战略作为时下社会高度关注的热点,对于实现“三农”发展是个重要突破。文章通过梳理我国近几
我国学者对协同治理理论的研究源于理论与现实的双重呼唤,尽管对协同治理存在同一论点多重表述的现状,但是这些表述并没有根本分歧且能够达成理论共识。目前的研究重视对协同
弥漫性毒性甲状腺肿(Graves病)属中医"瘿病"范畴,病因以体质因素和情志失调为主。体质因素多为五脏气阴不足,尤以心肝肾气阴不足为主,在此基础上,复因情志失调等致肝失疏泄,
比较优势、后发优势是发展中国家两种最主要的优势,由于两种优势在经济发展中的相互依存性,发展中国家应该执行比较优势、后发优势并重的发展战略。在经济全球化、信息化的背
股权众筹是“互联网+”时代金融领域的一种创新型融资模式,它有效缓解了中小微企业融资难及民间资本投资无门的双重困境,极具现实价值。加之其自身的运营成本较低、效率又较
鸡肉富含各类营养成分,为微生物生长提供了充足的营养条件,极易受到不同程度的污染。因此,如何有效控制病原菌对鸡肉制品的污染,保证肉品食用安全已经成为人们普遍关注的话题
QQ传播作为一种传播现象,其积极作用与负面影响并存,在人们的生活中起着越来越大的作用。本文从QQ传播的主体、特点、功能、影响等方面对其作综合分析。
编辑提示:"关于刑事证据规则的调研"是最高人民法院2006年重点调研课题,上海市第二中级人民法院是承担此课题的单位之一。本期选登的"构建我国刑事证据规则体系调研报告"撷取