【摘 要】
:
随着数据规模的急剧增长,如何从海量高阶数据中挖掘有价值的信息成为大数据分析的关键挑战之一。张量分解为高阶张量数据提供了强大的处理和分析手段。而聚类分析作为重要的无监督学习方法,可在无标签条件下实现高效的数据压缩和特征学习。多维聚类不仅继承了经典聚类分析的优势,而且能充分利用高阶数据的多线性内部结构,实现多个维度的同步聚类,从而挖掘高阶张量数据多个维度之间的复杂关系。因此,多维聚类分析具有重要的理论
论文部分内容阅读
随着数据规模的急剧增长,如何从海量高阶数据中挖掘有价值的信息成为大数据分析的关键挑战之一。张量分解为高阶张量数据提供了强大的处理和分析手段。而聚类分析作为重要的无监督学习方法,可在无标签条件下实现高效的数据压缩和特征学习。多维聚类不仅继承了经典聚类分析的优势,而且能充分利用高阶数据的多线性内部结构,实现多个维度的同步聚类,从而挖掘高阶张量数据多个维度之间的复杂关系。因此,多维聚类分析具有重要的理论研究价值和应用场景。然而,现有多维聚类算法通常先进行张量分解,然后在各个维度调用传统的聚类算法(如K-means),从而难以获得最优性能,且无法应对交叉隶属问题,同时也缺乏有效手段应对大规模或不完整数据带来的挑战。本文针对张量大数据聚类分析的交叉隶属、大规模和数据缺失三大挑战展开研究,取得的原创性成果包括:1.针对多维聚类的交叉隶属分析,提出一种基于近似正交非负Tucker分解的柔性多维聚类模型(AONTD)。该模型利用非负约束与聚类的等价性原理,揭示潜藏的稀疏“张量块”结构,实现高阶张量数据多维度间的同步聚类。另外,通过施加近似正交约束,使得模型能灵活应对多隶属或单隶属(“软/硬”)两种聚类任务,并且有效抵抗噪声干扰。而且,该模型还考虑了交叉隶属度“和为1”的约束,进一步保障交叉隶属分析结果的准确性。在算法优化方面,引入加速近端梯度(APG)和分层交替最小二乘(HALS)助力算法迭代,相比同类方法能获得更具竞争力的聚类表现。2.针对大规模张量数据的压缩处理,提出一种分布式随机Tucker分解算法(RandTucker)。该算法将大型张量分割为易处理的子张量并存贮在各个算力受限的计算机,从而将大张量的分解转化为多个小张量的分解。以此为基础实现灵活快速的CP分解(FFCP)和基于AONTD的高效多维聚类分析,为大规模张量的数据压缩和数据挖掘提供重要工具。3.针对数据的不完整性,提出了基于聚类框架的数据补全策略。传统补全策略主要利用数据的低秩特性,通过奇异值分解或其变式实现数据补全。由于奇异值分解会破坏数据的物理特性,本文提出了将多维聚类嵌入到张量填充过程的张量补全新策略。通过聚类分析与张量填充交互迭代,同步提升数据挖掘和数据补全的性能。该方法实现简单,而且可以保留数据的物理特性。总体而言,本文的研究为张量大数据分析提供了重要手段,进一步拓宽了张量分解的应用领域。
其他文献
<正>在“放管服”改革中,将部分人力资源管理的业务外包,有利于提高公共部门的管理效率,更好地为社会公共事务提供服务。人力资源管理外包的核心理念是企业为了节约成本,将人力资源管理活动中的一项或几项业务外包给专业机构,以此来减轻企业的人力成本。改革开放后,大量的外资企业涌入国内,带来了先进的人力资源管理理念和方法。我国的私营企业借鉴外资企业的经验,由传统的人事管理向人力资源管理转变,由此产生了许多的人
做好新时代宣传思想工作,筑牢和坚守意识形态领域防线,高校肩负重任、责无旁贷。高校辅导员是做好新时代宣传思想工作队伍中的重要力量和骨干力量。针对我国高校宣传思想工作中存在的两个方面的主要问题,一是当前我国高校辅导员中存在的理论水平欠缺、工作趋易避难,对学生管理和服务事务关注较多,对思想政治理论教育和价值引领的功能发挥用力不足的问题;二是受网络媒介的影响,我国高校校园中的“低头族”和“封闭族”越来越多
在建筑施工企业中,纳税筹划是十分重要的一环。特别是税务改革后,税负弹性空间明显扩大,企业通过税筹能够获取的效益空间明显增加。因此,企业必须注重科学开展纳税筹划,以减少经营过程中的税负压力,防止重负纳税等现象发生。建筑施工企业科学开展增值税筹划,可以有效提升利润和效益;反之,如果税筹不当,极易引发涉税风险。因此要求企业在税筹过程中严守税法界限。本文以建筑施工企业为研究对象,结合增值税筹划过程中面临的
随着我国工业自动化的快速发展,传统的仪表人工采取方式由于自身的种种局限,已经逐渐无法满足工业自动化中高实时性和高鲁棒性的采集要求。因此在技术进步和工程实际需求的推动下,智能巡检方式逐渐得到了广泛应用,其中基于神经网络技术更是凭借其识别精度高以及运算速度快等优势成为了机器视觉方法中的重点研究内容。本文的研究目的是通过较少的成本,设计并开发出一套指针式仪表识别读数系统,用于变电所等复杂环境下指针式仪表
现代大跨桥梁的刚度小、阻尼比低,在常遇风速下可能发生大幅涡激振动现象,不仅威胁结构和行车的安全,还会带来较大经济损失和不良社会影响。气流流过主梁时产生的周期性旋涡脱落是诱发主梁涡振的根本原因,掌握旋涡脱落的主要特征及机理是开展桥梁涡振性能及控制研究的重要前提。然而,主梁的宽高比大、形状不规则、面临的雷诺数高,导致其绕流场十分复杂,依靠风洞试验方法难以揭示其旋涡脱落机理。因此,本文基于计算流体动力学
随着信息技术的快速迭代与发展,各行各业产生了规模庞大、结构复杂、种类繁多的数据。从未知的数据中获取有实际应用价值的信息,是数据挖掘的主要目标。其中,致力于发现数据项之间存在的普遍联系的关联规则技术是数据挖掘的一个主要研究领域。在大数据环境下,单一计算机的运算能力已经不足以应对海量数据的高效处理需求,这使得并行化技术逐渐成为当前的研究热点。通过对传统的关联规则算法进行改进,并与分布式计算模型相结合,
工程咨询行业已经历30多年的发展,随着我国工程咨询行业高速发展,以往各个业务环节互相割裂,项目全过程缺少统一计划与控制的问题逐渐显露,因此,全过程工程咨询作为前期决策至运营维护阶段的提供组织、管理、经济、技术和法务等各方面集成式工程咨询服务模式应运而生。自国家住建部于2017年发布了全过程工程咨询试点通知后,各省市地方政府为更好响应国家号召,便纷纷结合本地实际情况出台了涉及全过程工程咨询的相关实施
<正>腰椎间盘突出症是常见病,但合并足下垂者少见。笔者自2000年1月~2007年12月收治腰椎间盘突出症236例,其中合并足下垂者7例。报告如下。1临床资料1.1一般资料本组7例,男4例,女3例;年龄21~71岁,平均51.4岁。汉族3例,哈萨克族3例,维吾尔族1例。足下垂病程:1~18个月,平均6个月,其中出现足下垂1~3个月者3例,
2018年3月,第十三届全国人民代表大会第一次会议审议通过了国务院机构改革方案。随着方案的公布,我国政府机构设置与机构职能发生了较大的变化。作为当代社会人口的基本社会保障之一,医疗保障历来受到民众的关注,但长期的职能分散,为医疗保障相关工作的管理协调带来极大难度,医疗保障基金安全难以得到保障。针对上述情况,国务院机构改革方案提出:整合人力资源和社会保障部的城镇职工和城镇居民基本医疗保险、生育保险职