不同结构数据的图模型机器学习研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:chrisevenk
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着互联网技术的快速发展,多样、异构、稀疏、海量的数据呈指数级快速增长。如何有效地表示和深入理解这些大数据已经越来越受到人们的重视,甚至已经成为当前的重要研究课题。图模型是一种基于概率框架对数据之间结构和关系进行知识表示、学习以及推理的方法。这种方法能够很好地描述数据的不确定性。因此,图模型方法为解决大数据难题提供了一种有效的解决方案。  针对数据对象种类以及连接方式的异同,可以将研究问题分为三种:同构数据上的多层次主题学习、多源异构数据的数据对象差异化学习以及多源异构数据的连接关系差异化学习。本文借助图模型理论分别从多层次主题提取、多源子领域信息双向交互、连接关系表示三个方面分别对这三种研究问题进行了分析,并提出了三种算法。主要的工作和贡献如下:  第一,针对同构数据下的单层隐藏变量模型只能提取单层次特征表示的缺陷,提出了一种提取多层次数据主题状态的图模型SOM-CSM算法。首先,使用自组织映射网络从输入的单词层提取初级主题状态表示节点;然后,将初级主题状态节点输入到改进的内容结构模型中,从而进一步提取高级主题状态表示节点,其中改进的内容结构模型使用了由一阶概率逻辑子句提取的特征函数;最后,利用EM算法得到标签。理论上证明了SOM-CSM算法具有多项式时间复杂度。在国际通用情感分析数据集亚马逊数据和Tripadvisor数据上的实验结果表明,SOM-CSM算法在亚马逊数据集上平均至少能够将精度提高4.6%。并且在Tripadvisor数据下,4种评级预测指标表明SOM-CSM算法的结果均优于使用LDA,HUCRF以及原始JointCM算法的结果。  第二,针对多源异构数据的数据对象差异化学习问题,提出了一种兼顾领域独特性和各异性的双向信息交互融合多源特征空间图模型FHMM-LDA算法。首先,将对各异构领域的学习问题转化为求解多领域各自HMM-LDA模型参数的问题,并在各个领域的子特征空间上提取语义主题特征;然后,通过全局HMM-LDA模型将各个子特征空间的语义主题特征映射到全领域特征空间中,并给出了映射过程的几何解释;最后,通过EM算法和Gibbs采样求解全局模型的参数并进行推理,实现各个子领域信息的双向交互。在用户行为数据集MovieLens数据和Book-Crossing数据上的实验结果表明,与I-GP、CMF以及M-GP算法相比较,FHMM-LDA算法能够减小用户行为数据的预测误差。并且FHMM-LDA算法相比于典型的I-GP算法,将相对平均绝对值误差减小了44%。  第三,针对多源异构数据的连接关系差异化学习问题,提出了一种使用一阶概率逻辑子句表示连接关系的融合多源异构子领域图模型ATLDA-MLN算法。首先,ATLDA-MLN算法根据数据的网络模式对多源异构数据进行划分,在各个子领域上建立各自的ATLDA模型,并提取作者或者会议分布主题;然后,算法用一阶概率逻辑子句描述各个子领域连接关系,并使用马尔科夫逻辑网将多个具有不同参数的ATLDA模型融合;最后,通过使用Gibbs采样,ATLDA-MLN算法可以对模型进行参数学习以及推理。在异构信息网络DBLP数据集上的实验结果表明,与nLB、wvRN、GNetMine、以及RankClass算法相比较,ATLDA-MLN算法可以提高分类效果,并在三个分类精度上平均提高7.4%。
其他文献
近年来,随着数码采集设备、存储技术、及互联网技术的飞速发展,以图像为代表的数字内容迅猛增长,并已经成为人们生产与生活中不可或缺的重要组成部分。然而,面对越来越多的图像数
随着工业自动化技术的发展,安全仪表系统广泛应用于保障设备安全运行、避免安全危险事故发生。作为安全仪表系统的重要组成部分,仪器仪表的安全性成为保障系统高可靠性的一个重
随着多媒体技术与互联网技术的高速发展,海量增长的图像、视频等可视媒体数据正极大地充实着现代人的生活。各种图像、视频的显示播放设备层出不穷,从传统的个人电脑、数字电视
激光惯性约束核聚变能量密度高、反应高效,可提供丰富、经济和安全的能源,已成为解决未来能源危机的有效途径之一。束靶耦合是激光惯性约束核聚变的关键技术之一。在核聚变之前
睡眠是人体恢复体力与自我修复的重要过程。通过对脑电信号等生物电信号的特征进行判读,用若干睡眠分期来表征整夜睡眠状态的变化,是评价睡眠质量和诊断睡眠问题的有力依据。计
HART智能设备以其兼容(4-20)mA模拟信号且具备数字通信功能的优势获得广泛的应用。数字通信的功能使其能够实现在线的监测、诊断、校验等。构建HART数字通信网络,实现HART设
随着高清摄像机在智能交通系统中的推广应用和图像处理技术的发展,基于图像的检测技术已成为最重要的车辆检测方法之一,并得到广泛的研究,在车辆检测准确率上不断提高。但是在城
脑作为人类神经系统的中枢,是一个精细、复杂和高效的系统,控制着人类的情感、思维和行为。探索脑的结构和功能、揭示脑的工作机制,是重大的科学前沿。现代影像技术的发展为人类
近年来,层次短语翻译系统逐渐成为实用的统计翻译系统之一。通过引入形式化的句法结构,层次短语翻译系统能够有效处理短语翻译系统所面临的长距离调序、规则泛化等问题。由于层
学位