论文部分内容阅读
随着计算机技术、互联网、物联网等的发展,人类社会运行时产生的数据越来越复杂,维度也越来越高,这对数据分析的工具提出了更高要求。同时,现实世界中的许多数据往往存在数据缺失和噪声,如何处理这样的数据也成为了机器学习、数据挖掘、计算机视觉等领域的重要问题之一。针对多维度数据中存在数据缺失和噪声的问题,基于张量分解、优化理论,本文围绕张量补全和鲁棒张量分解进行了较为系统的研究。具体研究内容如下:1.针对数据缺失问题,提出一种基于ST-HOSVD分解的张量补全算法。首先,由于多数基于张量分解的张量补全模型都把张量的秩作为超参数,通过事先给定较小的数值以实现最终恢复结果的低秩性,如何选取适当的秩成为了一个较难处理的问题。为此,本文基于ST-HOSVD,提出了一种快速自适应选取秩的张量分解算法。在此基础上,本文采用“补全-分解”的迭代过程实现对张量的补全,并在分解过程中,构造了多个低秩近似张量,通过平均算子使恢复精度得到了进一步提高。2.针对图像中同时存在高斯噪声和脉冲噪声的问题,提出了一种基于张量补全的图像混合噪声去噪算法。由于图像数据在局部中通常较为光滑,本文首先采用中值滤波器检测图像中的不光滑的像素点,作为脉冲噪声的可能位置,将其丢弃,并把接下来的图像恢复过程当作张量补全问题,在去除脉冲噪声的同时考虑高斯噪声的影响。为了减少去噪过程中破坏图像中原有尖锐细节的程度,本文融合噪声像素的信息,重新生成新的恢复图像,从而平衡去噪和保留图像细节之间的矛盾。进一步地,本文还考虑了存在噪声小块的情形。针对这一问题,推广上述离散情形的去噪算法,通过迭代的过程一步步“腐蚀”块状噪声直至其完全消失。3.针对数据中存在脉冲噪声的情形,基于Lp范数推广经典Tucker模型以提高其鲁棒性。对于包含脉冲噪声的张量的鲁棒分解问题,基于L2范数的Tucker是无法胜任的。鉴于当p<2时,Lp范数可以有效降低模型对离群点的敏感度,本文提出了Tuckerp模型,将传统的Tucker分解模型推广到基于Lp范数约束的情形来解决这一问题。本文采用构造法,以一系列Tucker分解子模型来逼近问题的解。同时本文证明了所提构造算法在给定条件下的收敛性,并且当它收敛时,其解为Tuckerp模型的KKT解,且在一定条件下满足其二阶必要条件。4.针对数据中同时存在数据缺失以及脉冲噪声的情形,本文基于Huber损失函数提出了鲁棒张量正交分解模型。模型求解的过程中,本文采用构造法,构造一系列简单的张量补全子模型逼近所提模型的解,同时理论分析证明了求解算法的收敛性,以及它收敛时可以达到模型的KKT解。此外,利用Huber损失函数的特性,本文给出所提模型的一个等价形式,并给出了相关理论分析。