偏好数据库上的特征选择及其CP-nets结构学习

来源 :烟台大学 | 被引量 : 0次 | 上传用户:jfhz2001
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
用户偏好的学习,例如条件偏好网(Conditional Preference networks,CP-nets),已经成为人工智能研究的核心问题。当前的研究大多是从随机选择的示例或对等查询中对CP-nets进行结构学习,为了评估学习算法的最优性能并且更好的学习CP-nets结构,本文以偏好数据库(Preference database)中的用户偏好为研究对象,利用特征选择中的mRMR算法,通过学习得到了可去环的CP-nets结构。进而采用mRMCR算法,计算极小公共冗余、避免条件互信息的计算,得到无环CP-nets结构。最后,基于MapReduce框架利用信息论方法实现了从大规模数据中学习CP-nets结构。具体工作如下:首先,本文基于特征选择中的mRMR算法学习得到可去环的CP-nets结构。利用极大相关极小冗余算法建立偏好数据库上的互信息和条件互信息的求解方法,并将互信息看作一个属性和它的可行父亲之间的相关性,条件互信息看作可行父亲集中属性之间的冗余性,从而构造出极大相关极小冗余(minimal Redundancy Maximal Relevance,mRMR)的目标函数。同时指出,一个属性的父亲集是由属性之间冗余度小,但对孩子属性的偏好却影响极大的属性子集组成的。并在电影推荐数据集上对算法的有效性进行验证。实验结果表明,mRMR算法可有效获取变量之间的因果关系,从而求取出每个属性的父亲集合,进而获得CP-nets的结构。其次,采用mRMCR算法,获取无环CP-nets结构。传统CP-nets结构学习方法众多,但得到的并不是无环CP-nets。本文为了增加属性间的相关性,减少冗余性,去除独立性,设计了极大相关极小公共冗余(maximal Relevance Minimal Common Redundancy,mRMCR)算法,该算法避免条件互信息的计算,使得相关性和冗余性具有可比性,有效衡量变量之间的依赖程度,确定变量之间的因果关系,进而学习得到CP-nets的无环结构。实验结果表明,与其它算法相比,mRMCR算法能够学习得到结构最优的无环CP-nets。最后,针对串行算法面对大规模数据环境下存在的数据存储问题及算法可扩展性较弱问题,提出一种基于MapReduce框架的并行算法-P-KLIC(Parallel Kullback-Leibler divergence combining GINI index)。该算法利用信息论中融合GINI指数和信息增益思想构建评分函数,从偏好数据库中并行获取CP-nets的拓扑结构N。且引入融合GINI指数的信息增益指标,定性表征CP-nets结构属性之间的相关信息量,利用评分和搜索思想,建立了偏好数据库上的评分函数,对候选父亲结构并行地进行评分和搜索。随后基于线序空间搜索得到各节点的局部最优从而得到全局最优。实验结果表明,P-KLIC算法在大规模数据下在实现CP-nets结构并行学习方面具有可行性和较好的可扩展性。综上所述,结合上述三部分的学习内容,得到从偏好数据库中利用特征选择进行CP-nets结构学习的方法,从而使得得到的CP-nets N和原模型N0保持较高的相似性,学习得到的模型更加具有可信度。
其他文献
基于高度集成化的电子芯片工作时温度过高易产生工作稳定性下降甚至过热而损坏的问题。为获得更加高效稳定的冷却技术,越来越多的学者开始从事微细通道强化传热技术研究。然
随着风电和光伏发电等可再生能源发电产业的技术成熟、成本下降和规模扩大,可再生能源的发展瓶颈已从技术装备和开发建设能力的约束转变为制度建设和市场机制的制约,突出体现
太阳能作为一种新能源越来越受到各国的重视。光伏电池本身具有较强的非线性特征,因此最大功率点跟踪是光伏电池研究的一个重点。本文以光伏并网发电系统作为研究对象,具体研
随着现代科学技术的高速发展和互联网的迅速普及,互联网和物联网上的数据量都在爆炸性的增长,传统的单节点的数据管理系统,已经无法满足日益增长的计算和存储需求。在这样的
创新能力能够极大地提高个人竞争力和国家竞争力,是新时代最重要的一种品质。培养学生的创新能力,已经成为世界各国教育的共同目标。创客教育的产生和发展为创新型人才培养提
项目开发企业为了追求利润,希望尽快完成施工任务,采取一切手段来推进施工工期目标的及早实现。部分开发项目强行抢工期、造成了安全措施得不到保障,加上施工工期目标实现的
每一次对历史的回眸,都是一次精神洗礼。我们党的百年历史,就是我们党与人民心心相印、与人民同甘共苦、与人民团结奋斗的历史。习近平总书记指出,在全党开展党史学习教育,是
随着虚拟化技术和计算机硬件的发展,越来越多的企业、政府、学校等机构开始应用桌面虚拟化产品,以提升办公效率,降低运营成本。桌面虚拟化系统的核心思想是“集中管理、分布
随着工业技术对轻量化设计的需求,加强筋结构的应用会越来越广泛。加强筋的宽度是评价加强筋力学性能的重要指标之一。因此,如何迅速、精确地检测出加强筋的宽度,对于在役设
随着电子商务的发展,人们对快递的应用和需求愈发强烈。如何快速分拣来自各地的快递件,提高工作效率已经成为目前快递行业面临的重要问题。在分拣过程中,人工分拣会造成暴力