论文部分内容阅读
随着信息技术,计算机技术和通信技术的迅猛发展,人们生活的环境逐渐成为涉及信息空间(Cyber World),物理空间(Physical World)和社会空间(Social World)的混合空间,也被称为“信息-物理-社会系统”(Cyber-Physical-Social Systems,(CPSS))。如何在“信息-物理-社会系统”中分析用户的行为,并为用户提供前瞻性、个性化的服务是“信息-物理-社会系统”领域研究的重要课题之一。同时,数据作为在三个空间中流动的因素,记录了用户在三个空间中的历史行为轨迹,蕴含了用户潜在需求、爱好和习惯。因此,数据被选择做为“信息-物理-社会系统”研究的出发点。 然而,在“信息-物理-社会系统”中产生的大数据具有如下重要的性质:第一,由于数据采集设备的多样化,产生的数据具类型多样;第二,数据采集设备在“信息-物理-社会系统”中无时不刻的记录着用户的生活轨迹,因此其产生的数据规模庞大;第三,数据在采集、传输过程中会产生大量的噪声数据和冗余数据。第四,数据从多属性的角度共同记录和反应了用户在不同环境下的需求、爱好和习惯。因此,如何对用户在“信息-物理-社会系统”中产生的大数据进行系统地组织、高效地分解、并合理地利用提去的高质量数据集,从多属性角度有效地匹配、分析出用户的需求、爱好和习惯并为其提供前瞻性、个性化的服务是该领域面临的重大挑战之一。在项目组前期的工作中,提出了基于张量模型的大数据表示方法。本论文在此基础上主要研究内容和创新成果如下: 首先,针对“信息-物理-社会系统”分布广泛、采集数据规模大、应用范围广等特点,提出了一种系统性、通用性的服务框架。该框架包括感知层、处理层和应用层。在感知层,根据不同CPSS空间中收集的用户数据,构建局部张量模型并对其进行初步的分解,实现对用户数据的灵活组织。在计算层,对用户数据进行高效的整合,构建全局张量模型,从而在保证原有完备数据的基础上,构建全局张量描述全局CPSS空间。并利用张量分解理论如高阶奇异值分解对全局张量模型进行分解,提取其高质量数据集。在应用层,利用提取好的高质量数据集,通过具体算法如多属性匹配计算等,挖掘出用户在不同情景下的需求、爱好和习惯,并为用户提供前瞻性、个性化的服务。 其次,提出分布式、增量式张量分解计算方法,加快提取高质量的数据集的效率。在数据表示方法确定的基础上,根据张量分解理论,选择高阶奇异值分解(High-order Singular Value Decomposition,(HOSVD))作为张量分解的工具,从而实现对原始数据去冗降噪,并提取高质量数据集的目的。根据分布式分解方法中,张量切分方式的不同,分别研究了按照固定一个阶方向切分的情况和同时按照多个阶甚至全部阶切分的情况。针对张量按照固定一阶切分,分析了子张量的展开矩阵拼接的难题,提出了分布式高阶奇异值分解及其增量计算方法。进一步,分析了张量按照多个阶甚至全部阶切分时,其子张量的展开矩阵拼接的难题,提出了子张量展开矩阵拼接规律。并在此基础上,提出了一种树形结构的多模分布式高阶奇异值分解(Multi-order Distributed High-order Singular Value Decomposition,(MDHOSVD))及其增量计算方法(Multi-order Incremental High-order Singular Value Decomposition,(MIHOSVD))。同时,通过分析发现,该树形结构中高层节点存在计算任务量大、并行化程度较低等难题。对此,本论文提出了基于RoundRobin环的树形分解方法(Tree-based Ring Distributed High-order Singular Value Decomposition,(T-RD))和嵌入树形分解方法(Tree-based Tree Distributed High-order Singular Value Decomposition,(T-TD))。同时,提出了相应的增量式分解方法(Tree-based Ring Incremental High-order Singular Value Decomposition,(T-RI))和(Tree-based Tree Incremental High-order Singular Value Decomposition,(T-TI))用于实现对数据流的处理。 再次,根据张量分解过程中面临的诸多目标,如计算时间、能量消耗、计算可靠性、计算安全等级要求和价格花费等;以及众多的约束条件,如能够雇佣的计算机的个数以及总体计算花费要求等,综合考虑诸多目标和各个约束条件,提出了合理的、综合的、多目标优化模型。 最后,提出了基于高阶奇异值分解的多属性匹配计算模型。首先,通过“同一张量空间,不同属性之间的融合”策略和“不同张量空间,在相同属性上的融合”策略实现数据的融合。然后,根据多属性匹配计算模型,利用CPSS现场采集数据和历史数据,匹配求出用户在不同属性组合下的需求、爱好和习惯,并以此为依据,为用户提供前瞻性、个性化的服务。