不同结构数据的图模型机器学习研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户：chrisevenk

【摘要】

：

随着互联网技术的快速发展，多样、异构、稀疏、海量的数据呈指数级快速增长。如何有效地表示和深入理解这些大数据已经越来越受到人们的重视，甚至已经成为当前的重要研究课题。

【作者】

：

吴蕾

【机构】

：

中国科学院大学

【出处】

：

中国科学院大学

【发表日期】

：

2014年期

【关键词】

：

数据处理图模型结构分析机器学习算法优化

下载到本地 , 更方便阅读

下载此文赞助VIP

声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架

论文部分内容阅读

随着互联网技术的快速发展，多样、异构、稀疏、海量的数据呈指数级快速增长。如何有效地表示和深入理解这些大数据已经越来越受到人们的重视，甚至已经成为当前的重要研究课题。图模型是一种基于概率框架对数据之间结构和关系进行知识表示、学习以及推理的方法。这种方法能够很好地描述数据的不确定性。因此，图模型方法为解决大数据难题提供了一种有效的解决方案。　　针对数据对象种类以及连接方式的异同，可以将研究问题分为三种:同构数据上的多层次主题学习、多源异构数据的数据对象差异化学习以及多源异构数据的连接关系差异化学习。本文借助图模型理论分别从多层次主题提取、多源子领域信息双向交互、连接关系表示三个方面分别对这三种研究问题进行了分析，并提出了三种算法。主要的工作和贡献如下:　　第一，针对同构数据下的单层隐藏变量模型只能提取单层次特征表示的缺陷，提出了一种提取多层次数据主题状态的图模型SOM-CSM算法。首先，使用自组织映射网络从输入的单词层提取初级主题状态表示节点;然后，将初级主题状态节点输入到改进的内容结构模型中，从而进一步提取高级主题状态表示节点，其中改进的内容结构模型使用了由一阶概率逻辑子句提取的特征函数;最后，利用EM算法得到标签。理论上证明了SOM-CSM算法具有多项式时间复杂度。在国际通用情感分析数据集亚马逊数据和Tripadvisor数据上的实验结果表明，SOM-CSM算法在亚马逊数据集上平均至少能够将精度提高4.6％。并且在Tripadvisor数据下，4种评级预测指标表明SOM-CSM算法的结果均优于使用LDA，HUCRF以及原始JointCM算法的结果。　　第二，针对多源异构数据的数据对象差异化学习问题，提出了一种兼顾领域独特性和各异性的双向信息交互融合多源特征空间图模型FHMM-LDA算法。首先，将对各异构领域的学习问题转化为求解多领域各自HMM-LDA模型参数的问题，并在各个领域的子特征空间上提取语义主题特征;然后，通过全局HMM-LDA模型将各个子特征空间的语义主题特征映射到全领域特征空间中，并给出了映射过程的几何解释;最后，通过EM算法和Gibbs采样求解全局模型的参数并进行推理，实现各个子领域信息的双向交互。在用户行为数据集MovieLens数据和Book-Crossing数据上的实验结果表明，与I-GP、CMF以及M-GP算法相比较，FHMM-LDA算法能够减小用户行为数据的预测误差。并且FHMM-LDA算法相比于典型的I-GP算法，将相对平均绝对值误差减小了44％。　　第三，针对多源异构数据的连接关系差异化学习问题，提出了一种使用一阶概率逻辑子句表示连接关系的融合多源异构子领域图模型ATLDA-MLN算法。首先，ATLDA-MLN算法根据数据的网络模式对多源异构数据进行划分，在各个子领域上建立各自的ATLDA模型，并提取作者或者会议分布主题;然后，算法用一阶概率逻辑子句描述各个子领域连接关系，并使用马尔科夫逻辑网将多个具有不同参数的ATLDA模型融合;最后，通过使用Gibbs采样，ATLDA-MLN算法可以对模型进行参数学习以及推理。在异构信息网络DBLP数据集上的实验结果表明，与nLB、wvRN、GNetMine、以及RankClass算法相比较，ATLDA-MLN算法可以提高分类效果，并在三个分类精度上平均提高7.4％。

其他文献

基于主动学习的图像分类与检索

近年来，随着数码采集设备、存储技术、及互联网技术的飞速发展，以图像为代表的数字内容迅猛增长，并已经成为人们生产与生活中不可或缺的重要组成部分。然而，面对越来越多的图像数

学位

图像分类图像检索主动学习属性特征空间

安全仪表功能安全软件开发与验证

随着工业自动化技术的发展，安全仪表系统广泛应用于保障设备安全运行、避免安全危险事故发生。作为安全仪表系统的重要组成部分，仪器仪表的安全性成为保障系统高可靠性的一个重

学位

安全仪表压力变送器数据处理软件设计

图像和视频画面显示自适应技术研究

随着多媒体技术与互联网技术的高速发展，海量增长的图像、视频等可视媒体数据正极大地充实着现代人的生活。各种图像、视频的显示播放设备层出不穷，从传统的个人电脑、数字电视

学位

图像画面显示视频自适应显著性检测凸规划视觉效果

基于视觉的靶精密定位与多光束引导技术研究

激光惯性约束核聚变能量密度高、反应高效，可提供丰富、经济和安全的能源，已成为解决未来能源危机的有效途径之一。束靶耦合是激光惯性约束核聚变的关键技术之一。在核聚变之前

学位

靶精密定位多光束引导视觉控制算法核聚变

睡眠判读中的特征提取和分类识别方法研究

睡眠是人体恢复体力与自我修复的重要过程。通过对脑电信号等生物电信号的特征进行判读，用若干睡眠分期来表征整夜睡眠状态的变化，是评价睡眠质量和诊断睡眠问题的有力依据。计

学位

睡眠判读脑电信号特征提取分类识别

HART多路复用器研究及其硬件系统设计

HART智能设备以其兼容(4-20)mA模拟信号且具备数字通信功能的优势获得广泛的应用。数字通信的功能使其能够实现在线的监测、诊断、校验等。构建HART数字通信网络,实现HART设

学位

控制仪表多路开关HART采样

城市交通场景下基于与或图模型的车辆检测方法研究

随着高清摄像机在智能交通系统中的推广应用和图像处理技术的发展，基于图像的检测技术已成为最重要的车辆检测方法之一，并得到广泛的研究，在车辆检测准确率上不断提高。但是在城

学位

城市交通场景车辆检测与或图模型混合图像模板概率模型

磁共振脑图像分割和配准中的若干问题研究

脑作为人类神经系统的中枢，是一个精细、复杂和高效的系统，控制着人类的情感、思维和行为。探索脑的结构和功能、揭示脑的工作机制，是重大的科学前沿。现代影像技术的发展为人类

学位

脑图像分割精度功能配准算法

面向大规模双语语料的层次短语统计机器翻译技术研究

近年来，层次短语翻译系统逐渐成为实用的统计翻译系统之一。通过引入形式化的句法结构，层次短语翻译系统能够有效处理短语翻译系统所面临的长距离调序、规则泛化等问题。由于层

学位

层次短语翻译系统双语语料模型模拟

多零件微装配系统视觉测量与控制技术研究

学位

不同结构数据的图模型机器学习研究

其他学术论文