论文部分内容阅读
在收集得来的数据基础上进行分析和建模是当前科学研究的重要手段之一。研究人员根据数据的特性,同时结合业内的知识建立数学模型解释科学现象。随着互联网以及计算机科学的快速发展,现在人们往往需要面对海量的数据。这种量变在近几年逐渐使得数据驱动技术产生了质变。谷歌公司的阿尔法狗机器人已经成功挑战九段职业围棋选手,各大公司的图片识别算法的精确度也已经超越人眼。这都预示着计算机已经能够在数据基础上获得超越人类的决策能力。因此,让数据帮助我们了解本质的数学模型已经成为当前的重要研究课题,方法有机器学习,深度学习等。作为数据建模和求解的重要数学工具,最优化方法近年在许多研究领域都得到了极高的重视。由于其普适性和应用性,我们将数值驱动的最优化思想引入到几何处理以及推荐系统问题中,得到业内人士的高度认可。 在逆向工程中,由扫描设备获取几何对象的扫描数据往往存在大量的噪音,去噪处理往往也会光滑尖锐特征而产生失真。我们提出基于压缩感知的迭代优化框架进行保特征的几何曲面去噪,将拉普拉斯正则化和基于分析的压缩感知模型结合,第一次将压缩感知理论引入并应用到几何处理问题中。我们发现并利用几何特征在某些算子作用下的稀疏性,构建压缩感知模型,实现从噪音数据中恢复特征保持的三维几何模型,并从统计理论上证明它是对真实几何模型的渐近最优逼近。假设输入网格从某个真实曲面采样得到,并带有独立同分布的随机噪音。我们首先求解离散拉普拉斯正则化光滑模型得到逼近真实曲面的光滑曲面;接着使用基于分析的压缩感知模型对光滑曲面和输入曲面之间的残差进行分析,获取特征位置信息,修正离散拉普拉斯算子,再返回第一步。在一次迭代后验证残差是否满足互相独立的假设,进而决定是否中止算法。我们在一系列合成和真实数据中验证算法框架,并和已知算法进行了全面深入的对比。 离散几何表示中,表示带有特征且具有任意拓扑的曲面一直是富有挑战的问题。我们提出基于一致稀疏表示的流形结构,很好平衡了几何表示中的表示能力和紧致性,在拟合细分曲面和逼近空间曲线网中取得卓越的成果。这是几何信息处理中第一次使用稀疏表示框架。流形结构通过局部坐标图集合和坐标图之间的转换函数系统有效地结合了局部和整体来描述几何。其中,局部坐标图上的函数表示决定了流形的最终形状,而特定的正交基只能带来有限的表示能力。稀疏表示基于稀疏约束根据数据的不同自动地从冗余的基函数中挑选合适的小部分表示目标信号。我们将两者结合,选用冗余相关的基函数张成局部函数线性空间并引入稀疏性约束从而灵活地表示曲面及其尖锐几何特征。为了保持局部表示互相的一致,我们提出全新的一致稀疏表示框架约束全局几何误差,进而求解最终的流形曲面表示。求解算法中,我们采用高斯-赛德尔迭代的技巧分离变量迭代更新,并在分别的变量上使用正交匹配追踪计算表示系数。最后我们在拟合细分曲面和逼近曲线网络网格中应用一致稀疏表示的流形结构,并阐述验证算法的特性。 为了提高用户体验、增强用户黏性,各大互联网公司纷纷推出推荐系统提供个性化定制的推荐表单。我们和视频公司合作研究音乐视频推荐和客户端文本消息推送问题。我们提出基于隐式数据的用户聚类,挖掘用户行为习惯,给用户分类提供音乐视频的推荐。进一步我们将梯度下降决策森林算法引入文本消息的推荐中,在同类算法中表现出优异的能力。在音乐视频推荐中,我们首先使用基于物品的协同滤波对黏性用户推荐相关视频。注意到互联网公司在收集数据时大多只能拿到隐式的用户日志,这使得对用户的刻画非常困难。我们根据用户观看过的视频和视频信息建立用户文档,进而使用隐语义模型分析背后的主题分布。接着,我们根据主题分布对用户聚类,挖掘其深层次的观看习惯,给未来推荐算法的开发提供指导性意见。在文本消息推送问题中,我们希望使用学习算法替代编辑给用户推送他感兴趣的视频。我们将排序学习算法中的梯度下降决策森林和排序增强算法引入现有的推荐流程中,并实现算法进行线下验证。在反复验证后,我们最终成功在公司的线上推荐流程中加入这两个方法,改善已有推荐算法的结果,得到业内人士的高度认可。这次和工业界成功的合作进一步肯定了最优化作为数值工具在研究和生产中的地位,推动了未来更深入的合作研究。 本文将依次概述问题的背景、简介数值最优化、逐一展示三个工作内容并总结博士期间的研究成果。