论文部分内容阅读
随着多媒体技术以及计算机互联网技术的迅速发展,人们生活中触手可及的多媒体数据呈现爆发式的增长趋势,从而形成了海量多媒体数据。同时,由于新一代交互式网络技术的出现,使得多媒体数据呈现社会化趋势,即数据之间的关联性信息日益丰富。这两个问题对传统的多媒体分析技术提出了重大的挑战。
传统的多媒体和视觉分析技术受制于视觉底层信息和高层语义之间的语义鸿沟,其类别信息很难直接从底层特征获得,因此需要借助分类和识别的方法建立从底层特征到高层语义的映射。然而,网络图像数据既存在较大的类内变化,也存在一定的类间相似性,不同的视觉底层特征对识别不同图像类别的贡献也不尽相同。并且,在处理海量数据时,传统的机器学习模型已不能很好的应对海量数据的数据规模,层次化语义结构以及噪声问题。在本文中,围绕多特征融合这条主线,针对这些问题分别从不同方面进行了深入的研究。
作为第一个技术贡献,本文研究了高阶核关系。以往的多核学习方法通过利用不同核的线性组合来进行学习。尽管这种方法比单核方法获得了一定的性能提升,但是多核学习的优势在机器学习领域还没有被完全挖掘。在本论文里,给定一组原始核时,我们提出用高阶核的方法来提高多核学习的质量。高阶核由一系列原始核的实数幂的乘积产生。我们将原始核和高阶核纳入一个统一的局部参数的核逻辑回归模型当中。为了解决过拟合的问题,我们把LASSO正则化应用于每个训练样本对应的核系数组上。图像分类的实验证明我们的方法好于现有的许多多核学习办法。
本文的第二个技术贡献是多特征近邻相似性和近邻分类方法。最近邻方法被广泛应用于海量现实世界图片数据挖掘。然而相对于其他机器学习方法,以下三个不足之处阻止了它的更广泛应用:(ⅰ)在小数据集上的性能不佳;(ⅱ)高维稀疏数据表达带来的性能下降;(ⅲ)强烈依赖于所采用的特征和距离度量方式。本文我们依靠使用大量具有丰富内容的社会媒体图片来克服这三个传统近邻方法的固有弱点。首先我们提出了一个新的多特征近邻相似度量方式。它保留了局部密集信息和语义一致性信息,并且比传统的图片对图片的相似性有更强的语义一致性和噪声抑制特性。其次为了提高算法的可扩展性,我们在不同的特征和核表示上构建了核化哈希检索模型,并利用多特征来进行近似近邻搜索。最后为了提高处理具有多样性内容的网络图片的鲁棒性,我们通过加权融合的多个特征上的近邻相似度,达到了融合不同特征的判别能力的目的。在Caltech-256和两个社会媒体数据库上的视觉分类结果显示了我们比传统只用标注数据的k-NN方法的优势。
本文的第三个技术贡献是可扩展的半监督多核学习模型(Scalable Semi-SupervisedMulti-Kemel Learning)。我们研究一种可以在有很少真实信息标注以及大量无标注的噪声数据条件下的学习模型以用于海量互联网图像应用。然而传统的半监督学习方法不能融合多种特征描述来提升模型的推广能力。并且,无标注数据的样本选择在以往研究中没有被加以足够重视,这使现实世界的噪声数据带来不可预知的模型退化风险。本文提出了一种学习框架来解决这两个问题。其核心贡献,是提出了一种可扩展的的半监督多核学习方法。该方法的目的在于最小化由在标注数据上的对数似然损失,在无标注的数据集上计算的条件期望不一致性和模型系数的组稀疏正则化(Group LASSO)组成的目标函数。进一步地,我们将条件期望一致性度量改进为一种基于样本簇的条件期望计算方式,以更好的适应现实世界图片的内在视觉分布。提出了一个融合了若干加速技术的快速块坐标梯度下降算法。与以往方法相比,我们的模型求解具有更小算法时间复杂度和存储复杂度。并且,为了减少使用无标注数据的风险,设计了一个多核哈希系统去确定“最有信息量”和“紧凑”的无标注的训练子集。大量的实验证明提出的学习框架能够在大规模现实世界图片应用中获得较高的性能,例如图片分类任务以及个性化网页图片重排序任务。
本文的第四个贡献是多任务多特征距离度量学习。传统的相似性学习方法大多基于单特征表示,对所有的类别学习一个相同的距离度量,但其不能被直接移植到有着多特征表示,具有成百上千的层次化语义类别和海量社会标注的现实应用中。本文提出了一种新的多任务多特征相似性学习方法,它较好地克服了以往距离度量学习在处理高维数据时的不足,并对多任务之间的信息共享机制进行良好建模。我们将现实世界中如语义分类、自动标签学习等的多类问题分解为一组任务,其中每一个任务学习一个距离度量,这个距离度量能够判别若干个视觉相似性很强的图像类别。基于此模型,每一个任务都学习得到对应的距离度量。同时,构建了任务间的模型共享关系,使得到的距离度量具有更好的泛化能力。此外,基于多任务学习框架,所提出的方法可同时根据社会标注和语义标注信息进行学习,并结合各自的优点和丰富的信息获得更好的图像分析效果。本文在实际图像应用(例如语义分类和自动标签学习)中测试了方法的性能,实验结果优于当前的许多流行的距离度量学习方法,从而验证了方法的有效性。