基于概率图模型的结构学习理论与算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:q1q3q5
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着大数据时代的到来,许多亟待解决的数据分析问题中都蕴含了更加丰富的结构信息,如何对海量数据进行有效的结构分析,获取新的知识并加以推理运用,已成为机器学习领域的研究热点和难点问题。概率图模型通过将数据之间结构和关系进行知识表示、推理以及学习,能够把物理世界中广泛存在的复杂结构转换为随机变量之间的依赖关系,从而成为揭示数据中蕴藏的结构信息的强有力工具。  论文针对网络社区和文本主题两类备受关注的结构学习问题,进行了基于概率图模型的自适应统计建模、随机变分推理和退火采样学习三个方面的理论和方法研究,并提出三个有效算法。首先,基于非参数贝叶斯理论构造了加权无限关系模型(WIRM),并提出了模型的变分推理学习算法,实现了加权网络社区结构的自适应建模和学习;其次,将重采样和自然梯度优化方法相结合,提出了基于随机变分推理的结构学习算法(ON-WSBM),提高了复杂网络的推理学习效率;最后,利用基于退火蒙特卡洛采样的Robbins-Monro迭代优化方法,提出了无向主题模型的一种新的近似极大似然学习算法(TT-SAP),提高了主题结构学习的效率和精度。  本文的主要工作和贡献如下:  第一,针对现有的统计网络模型很难自动确定合理的社区数目,常出现欠拟合或过拟合问题,构建了基于非参数贝叶斯理论的加权无限关系模型WIRM,并提出了模型的变分推理学习算法,实现了加权网络社区结构的自适应建模和学习。WIRM模型以狄利克雷随机过程为先验,使用无穷维参数空间刻画了网络中潜在的无穷多个社区,能根据观测数据自动地确定社区个数,避免了繁琐耗时的模型选择过程。进而,提出WIRM模型的变分贝叶斯学习算法,利用平均场变分推理方法,估计变量与参数的近似分布。在国际通用数据集上测试表明,WIRM模型能高效地实现加权网络的自动社区发现,与传统模型相比,WIRM模型对网络链接的存在性预测和权重预测两个任务上的预测精度都有明显提高。  第二,针对复杂网络社区结构的快速推理学习问题,利用随机优化方法,提出了加权网络的随机变分推理ON-WSBM算法,提高了网络社区结构的推理效率。ON-WSBM算法将重采样技术和迭代优化理论相结合,利用基于黎曼流形理论的自然梯度优化方法,通过设计一个优化目标函数对参数进行快速增量式更新,提高了网络结构学习的效率。另外,算法采用了基于重采样技术的增量学习方式,降低了优化的时间复杂度。数值实验表明,算法能高效快速地实现网络的社区结构学习,并在节点链接的预测问题上取得了令人满意的精度。  第三,针对无向主题模型的参数学习难题,利用退火过渡马尔科夫链蒙特卡洛采样方法,提出了一种新的近似极大似然学习TT-SAP算法,提高了无向主题模型参数学习的效率。TT-SAP算法采用似然函数的近似替代方法,利用基于退火蒙特卡洛采样的Robbins-Monro型算法进行迭代优化。首先,利用Gibbs采样在参数空间中快速找到合理的解区域;进而,采用基于退火过渡的马尔科夫链蒙特卡洛采样方法,高效地探索存在多个孤立模式的概率分布,提高对目标分布的逼近程度,从而高效率、高精度地实现无向主题模型的参数学习。数值实验表明了,TT-SAP算法在训练时间、泛化能力和文档检索三个方面的优势。
其他文献
图像特征表示是计算机视觉和模式识别领域中的一个重要研究内容,特征表示方法的优劣直接关系到计算机后续处理视觉信息的性能。词袋模型(Bag-of-Words,BoW)是当前流行的图像特
办公自动化就是运用现代科技(特别是信息技术)自动化办公的过程.所谓工作流,就 是商务过程全部或部分地自动执行,在这一过程中,文档从部门中的一个成员处按预先定义的流程自
指纹压缩是大型自动指纹识别系统中必不可少的一部分.在该文中.作者探讨了三种基于小波变换的指纹图像压缩算法,并对它们三者的压缩效果做了详细的分析和比较.另外,作者还提
在大数据背景下,我们可以轻易获得海量、多源化、无结构的短文本数据,包括网页检索片段、地理位置、微信息、产品评论以及新闻标题等。但是,如何根据用户的个性化需求,快速、准确
与传统的有线网络控制系统相比,采用无线网络控制系统不仅可以省去大量的布线连接,还可以节省系统构建开销。随着系统复杂度和集成度的提高,网络故障会给系统带来毁灭性的打击。
该文针对国内外大坝安全监测系统的不足之处,充分考虑了系统的性能、成本,设计了一种分布式大坝安全监测系统.通过对大坝安全监测系统的分析,大坝监测自动化系统有其突出的优
作者注意到,CIPS的最大贡献在于不再孤立地看待和处理流程工业生产过程中的控制、优化和管理问题,而是把从装置、车间到整个企业,包括原材料采购和销售等,看成一个整体,作为
图割算法作为求解马尔科夫随机场(条件随机场)能量函数的最重要的工具之一,近三十年来,学术界对其快速计算以及在能量函数优化中的应用进行了深入研究,并取得了丰硕的成果。近年来
方向特性是描述图像模式的重要特性,方向的统计分布又是描述图象区域特性的重要特征.该文以方向特性为核心,针对人脸检测与识别、弹壳自动识别中的关键环节进行了方法研究.
学位