论文部分内容阅读
用户偏好的学习,例如条件偏好网(Conditional Preference networks,CP-nets),已经成为人工智能研究的核心问题。当前的研究大多是从随机选择的示例或对等查询中对CP-nets进行结构学习,为了评估学习算法的最优性能并且更好的学习CP-nets结构,本文以偏好数据库(Preference database)中的用户偏好为研究对象,利用特征选择中的mRMR算法,通过学习得到了可去环的CP-nets结构。进而采用mRMCR算法,计算极小公共冗余、避免条件互信息的计算,得到无环CP-nets结构。最后,基于MapReduce框架利用信息论方法实现了从大规模数据中学习CP-nets结构。具体工作如下:首先,本文基于特征选择中的mRMR算法学习得到可去环的CP-nets结构。利用极大相关极小冗余算法建立偏好数据库上的互信息和条件互信息的求解方法,并将互信息看作一个属性和它的可行父亲之间的相关性,条件互信息看作可行父亲集中属性之间的冗余性,从而构造出极大相关极小冗余(minimal Redundancy Maximal Relevance,mRMR)的目标函数。同时指出,一个属性的父亲集是由属性之间冗余度小,但对孩子属性的偏好却影响极大的属性子集组成的。并在电影推荐数据集上对算法的有效性进行验证。实验结果表明,mRMR算法可有效获取变量之间的因果关系,从而求取出每个属性的父亲集合,进而获得CP-nets的结构。其次,采用mRMCR算法,获取无环CP-nets结构。传统CP-nets结构学习方法众多,但得到的并不是无环CP-nets。本文为了增加属性间的相关性,减少冗余性,去除独立性,设计了极大相关极小公共冗余(maximal Relevance Minimal Common Redundancy,mRMCR)算法,该算法避免条件互信息的计算,使得相关性和冗余性具有可比性,有效衡量变量之间的依赖程度,确定变量之间的因果关系,进而学习得到CP-nets的无环结构。实验结果表明,与其它算法相比,mRMCR算法能够学习得到结构最优的无环CP-nets。最后,针对串行算法面对大规模数据环境下存在的数据存储问题及算法可扩展性较弱问题,提出一种基于MapReduce框架的并行算法-P-KLIC(Parallel Kullback-Leibler divergence combining GINI index)。该算法利用信息论中融合GINI指数和信息增益思想构建评分函数,从偏好数据库中并行获取CP-nets的拓扑结构N。且引入融合GINI指数的信息增益指标,定性表征CP-nets结构属性之间的相关信息量,利用评分和搜索思想,建立了偏好数据库上的评分函数,对候选父亲结构并行地进行评分和搜索。随后基于线序空间搜索得到各节点的局部最优从而得到全局最优。实验结果表明,P-KLIC算法在大规模数据下在实现CP-nets结构并行学习方面具有可行性和较好的可扩展性。综上所述,结合上述三部分的学习内容,得到从偏好数据库中利用特征选择进行CP-nets结构学习的方法,从而使得得到的CP-nets N和原模型N0保持较高的相似性,学习得到的模型更加具有可信度。