论文部分内容阅读
随着大数据时代的到来,许多亟待解决的数据分析问题中都蕴含了更加丰富的结构信息,如何对海量数据进行有效的结构分析,获取新的知识并加以推理运用,已成为机器学习领域的研究热点和难点问题。概率图模型通过将数据之间结构和关系进行知识表示、推理以及学习,能够把物理世界中广泛存在的复杂结构转换为随机变量之间的依赖关系,从而成为揭示数据中蕴藏的结构信息的强有力工具。 论文针对网络社区和文本主题两类备受关注的结构学习问题,进行了基于概率图模型的自适应统计建模、随机变分推理和退火采样学习三个方面的理论和方法研究,并提出三个有效算法。首先,基于非参数贝叶斯理论构造了加权无限关系模型(WIRM),并提出了模型的变分推理学习算法,实现了加权网络社区结构的自适应建模和学习;其次,将重采样和自然梯度优化方法相结合,提出了基于随机变分推理的结构学习算法(ON-WSBM),提高了复杂网络的推理学习效率;最后,利用基于退火蒙特卡洛采样的Robbins-Monro迭代优化方法,提出了无向主题模型的一种新的近似极大似然学习算法(TT-SAP),提高了主题结构学习的效率和精度。 本文的主要工作和贡献如下: 第一,针对现有的统计网络模型很难自动确定合理的社区数目,常出现欠拟合或过拟合问题,构建了基于非参数贝叶斯理论的加权无限关系模型WIRM,并提出了模型的变分推理学习算法,实现了加权网络社区结构的自适应建模和学习。WIRM模型以狄利克雷随机过程为先验,使用无穷维参数空间刻画了网络中潜在的无穷多个社区,能根据观测数据自动地确定社区个数,避免了繁琐耗时的模型选择过程。进而,提出WIRM模型的变分贝叶斯学习算法,利用平均场变分推理方法,估计变量与参数的近似分布。在国际通用数据集上测试表明,WIRM模型能高效地实现加权网络的自动社区发现,与传统模型相比,WIRM模型对网络链接的存在性预测和权重预测两个任务上的预测精度都有明显提高。 第二,针对复杂网络社区结构的快速推理学习问题,利用随机优化方法,提出了加权网络的随机变分推理ON-WSBM算法,提高了网络社区结构的推理效率。ON-WSBM算法将重采样技术和迭代优化理论相结合,利用基于黎曼流形理论的自然梯度优化方法,通过设计一个优化目标函数对参数进行快速增量式更新,提高了网络结构学习的效率。另外,算法采用了基于重采样技术的增量学习方式,降低了优化的时间复杂度。数值实验表明,算法能高效快速地实现网络的社区结构学习,并在节点链接的预测问题上取得了令人满意的精度。 第三,针对无向主题模型的参数学习难题,利用退火过渡马尔科夫链蒙特卡洛采样方法,提出了一种新的近似极大似然学习TT-SAP算法,提高了无向主题模型参数学习的效率。TT-SAP算法采用似然函数的近似替代方法,利用基于退火蒙特卡洛采样的Robbins-Monro型算法进行迭代优化。首先,利用Gibbs采样在参数空间中快速找到合理的解区域;进而,采用基于退火过渡的马尔科夫链蒙特卡洛采样方法,高效地探索存在多个孤立模式的概率分布,提高对目标分布的逼近程度,从而高效率、高精度地实现无向主题模型的参数学习。数值实验表明了,TT-SAP算法在训练时间、泛化能力和文档检索三个方面的优势。