张量分解的高效计算及其应用研究

来源 :华中科技大学 | 被引量 : 0次 | 上传用户:n131421d
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着信息技术,计算机技术和通信技术的迅猛发展,人们生活的环境逐渐成为涉及信息空间(Cyber World),物理空间(Physical World)和社会空间(Social World)的混合空间,也被称为“信息-物理-社会系统”(Cyber-Physical-Social Systems,(CPSS))。如何在“信息-物理-社会系统”中分析用户的行为,并为用户提供前瞻性、个性化的服务是“信息-物理-社会系统”领域研究的重要课题之一。同时,数据作为在三个空间中流动的因素,记录了用户在三个空间中的历史行为轨迹,蕴含了用户潜在需求、爱好和习惯。因此,数据被选择做为“信息-物理-社会系统”研究的出发点。  然而,在“信息-物理-社会系统”中产生的大数据具有如下重要的性质:第一,由于数据采集设备的多样化,产生的数据具类型多样;第二,数据采集设备在“信息-物理-社会系统”中无时不刻的记录着用户的生活轨迹,因此其产生的数据规模庞大;第三,数据在采集、传输过程中会产生大量的噪声数据和冗余数据。第四,数据从多属性的角度共同记录和反应了用户在不同环境下的需求、爱好和习惯。因此,如何对用户在“信息-物理-社会系统”中产生的大数据进行系统地组织、高效地分解、并合理地利用提去的高质量数据集,从多属性角度有效地匹配、分析出用户的需求、爱好和习惯并为其提供前瞻性、个性化的服务是该领域面临的重大挑战之一。在项目组前期的工作中,提出了基于张量模型的大数据表示方法。本论文在此基础上主要研究内容和创新成果如下:  首先,针对“信息-物理-社会系统”分布广泛、采集数据规模大、应用范围广等特点,提出了一种系统性、通用性的服务框架。该框架包括感知层、处理层和应用层。在感知层,根据不同CPSS空间中收集的用户数据,构建局部张量模型并对其进行初步的分解,实现对用户数据的灵活组织。在计算层,对用户数据进行高效的整合,构建全局张量模型,从而在保证原有完备数据的基础上,构建全局张量描述全局CPSS空间。并利用张量分解理论如高阶奇异值分解对全局张量模型进行分解,提取其高质量数据集。在应用层,利用提取好的高质量数据集,通过具体算法如多属性匹配计算等,挖掘出用户在不同情景下的需求、爱好和习惯,并为用户提供前瞻性、个性化的服务。  其次,提出分布式、增量式张量分解计算方法,加快提取高质量的数据集的效率。在数据表示方法确定的基础上,根据张量分解理论,选择高阶奇异值分解(High-order Singular Value Decomposition,(HOSVD))作为张量分解的工具,从而实现对原始数据去冗降噪,并提取高质量数据集的目的。根据分布式分解方法中,张量切分方式的不同,分别研究了按照固定一个阶方向切分的情况和同时按照多个阶甚至全部阶切分的情况。针对张量按照固定一阶切分,分析了子张量的展开矩阵拼接的难题,提出了分布式高阶奇异值分解及其增量计算方法。进一步,分析了张量按照多个阶甚至全部阶切分时,其子张量的展开矩阵拼接的难题,提出了子张量展开矩阵拼接规律。并在此基础上,提出了一种树形结构的多模分布式高阶奇异值分解(Multi-order Distributed High-order Singular Value Decomposition,(MDHOSVD))及其增量计算方法(Multi-order Incremental High-order Singular Value Decomposition,(MIHOSVD))。同时,通过分析发现,该树形结构中高层节点存在计算任务量大、并行化程度较低等难题。对此,本论文提出了基于RoundRobin环的树形分解方法(Tree-based Ring Distributed High-order Singular Value Decomposition,(T-RD))和嵌入树形分解方法(Tree-based Tree Distributed High-order Singular Value Decomposition,(T-TD))。同时,提出了相应的增量式分解方法(Tree-based Ring Incremental High-order Singular Value Decomposition,(T-RI))和(Tree-based Tree Incremental High-order Singular Value Decomposition,(T-TI))用于实现对数据流的处理。  再次,根据张量分解过程中面临的诸多目标,如计算时间、能量消耗、计算可靠性、计算安全等级要求和价格花费等;以及众多的约束条件,如能够雇佣的计算机的个数以及总体计算花费要求等,综合考虑诸多目标和各个约束条件,提出了合理的、综合的、多目标优化模型。  最后,提出了基于高阶奇异值分解的多属性匹配计算模型。首先,通过“同一张量空间,不同属性之间的融合”策略和“不同张量空间,在相同属性上的融合”策略实现数据的融合。然后,根据多属性匹配计算模型,利用CPSS现场采集数据和历史数据,匹配求出用户在不同属性组合下的需求、爱好和习惯,并以此为依据,为用户提供前瞻性、个性化的服务。
其他文献
随着多媒体技术在计算机领域内的高速发展和其在军事、医学、交通等方面的广泛应用,计算机视觉成为近年来一个备受关注的研究领域,它也促使了机器学习、人工智能、机器人等相
随着用户需求和开放的网络计算环境的不断变化,软件复杂性与演化要求也随之不断增强,实现Internet软件的自适应性和软件系统的动态演化对那些连续运行、安全攸关的应用有着重
目前,数字签名方案已经成为研究的热点和重点,其中的代理签名方案和盲签名方案更是研究较多的签名方案类型,将它们与备受关注的签密技术结合起来提出了许多盲签密方案和部分
对生物行为的研究能够启发新的计算方法、促进人工智能的发展。近10年来,一种名为多头绒泡菌的多核单细胞生物引起了众多科学家的兴趣,其智能行为也被广泛研究。多头绒泡菌具
随着信息时代的快速发展,其数据具有海量、异构、多样、动态变化等特性。面对这些海量数据,常常陷入“数据丰富,信息贫乏”的尴尬境地。人们迫切需要强有力的数据分析工具从繁杂
随着云计算的提出与研究的不断深入,资源管理作为云计算研究的一个重要方面,也得到了广泛的关注。现有的研究从不同角度对具有QoS保障的云计算资源管理进行了阐述。然而,目前
近年来,城市交通堵塞问题和交通安全问题日趋严重,提高交通的舒适性和安全性已经迫在眉睫。车联网是一种在车载自组织网络(Vehicular Ad HocNetworks,VANET)等通信网络的基础上,
冠状动脉造影图像是冠心病的有效诊断依据,但却具有血管细节众多、造影图像亮度不均,血管与背景对比度差的特点,给医生的诊断和造影图像的后续处理带来了诸多不便。传统的血
近年来,许多机构倾向于使用数据仓库来满足日益发展的决策过程,以此来更好地实现自己的目标并满足客户的需求。在数据仓库的构筑中,作业量最大、日常运行中问题最多的环节是从业
模式挖掘是数据挖掘领域的一个重要部分,为数据挖掘的任务包括分类、聚类、关联规则等奠定基础,显露模式(EPs)是一种新兴的知识模式,显露模式是那些来自于两个类中支持度变化幅度