基于多特征的海量多媒体分析与检索技术研究

来源 :中国科学院研究生院 中国科学院大学 | 被引量 : 0次 | 上传用户:enjoy_flying12
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着多媒体技术以及计算机互联网技术的迅速发展,人们生活中触手可及的多媒体数据呈现爆发式的增长趋势,从而形成了海量多媒体数据。同时,由于新一代交互式网络技术的出现,使得多媒体数据呈现社会化趋势,即数据之间的关联性信息日益丰富。这两个问题对传统的多媒体分析技术提出了重大的挑战。   传统的多媒体和视觉分析技术受制于视觉底层信息和高层语义之间的语义鸿沟,其类别信息很难直接从底层特征获得,因此需要借助分类和识别的方法建立从底层特征到高层语义的映射。然而,网络图像数据既存在较大的类内变化,也存在一定的类间相似性,不同的视觉底层特征对识别不同图像类别的贡献也不尽相同。并且,在处理海量数据时,传统的机器学习模型已不能很好的应对海量数据的数据规模,层次化语义结构以及噪声问题。在本文中,围绕多特征融合这条主线,针对这些问题分别从不同方面进行了深入的研究。   作为第一个技术贡献,本文研究了高阶核关系。以往的多核学习方法通过利用不同核的线性组合来进行学习。尽管这种方法比单核方法获得了一定的性能提升,但是多核学习的优势在机器学习领域还没有被完全挖掘。在本论文里,给定一组原始核时,我们提出用高阶核的方法来提高多核学习的质量。高阶核由一系列原始核的实数幂的乘积产生。我们将原始核和高阶核纳入一个统一的局部参数的核逻辑回归模型当中。为了解决过拟合的问题,我们把LASSO正则化应用于每个训练样本对应的核系数组上。图像分类的实验证明我们的方法好于现有的许多多核学习办法。   本文的第二个技术贡献是多特征近邻相似性和近邻分类方法。最近邻方法被广泛应用于海量现实世界图片数据挖掘。然而相对于其他机器学习方法,以下三个不足之处阻止了它的更广泛应用:(ⅰ)在小数据集上的性能不佳;(ⅱ)高维稀疏数据表达带来的性能下降;(ⅲ)强烈依赖于所采用的特征和距离度量方式。本文我们依靠使用大量具有丰富内容的社会媒体图片来克服这三个传统近邻方法的固有弱点。首先我们提出了一个新的多特征近邻相似度量方式。它保留了局部密集信息和语义一致性信息,并且比传统的图片对图片的相似性有更强的语义一致性和噪声抑制特性。其次为了提高算法的可扩展性,我们在不同的特征和核表示上构建了核化哈希检索模型,并利用多特征来进行近似近邻搜索。最后为了提高处理具有多样性内容的网络图片的鲁棒性,我们通过加权融合的多个特征上的近邻相似度,达到了融合不同特征的判别能力的目的。在Caltech-256和两个社会媒体数据库上的视觉分类结果显示了我们比传统只用标注数据的k-NN方法的优势。   本文的第三个技术贡献是可扩展的半监督多核学习模型(Scalable Semi-SupervisedMulti-Kemel Learning)。我们研究一种可以在有很少真实信息标注以及大量无标注的噪声数据条件下的学习模型以用于海量互联网图像应用。然而传统的半监督学习方法不能融合多种特征描述来提升模型的推广能力。并且,无标注数据的样本选择在以往研究中没有被加以足够重视,这使现实世界的噪声数据带来不可预知的模型退化风险。本文提出了一种学习框架来解决这两个问题。其核心贡献,是提出了一种可扩展的的半监督多核学习方法。该方法的目的在于最小化由在标注数据上的对数似然损失,在无标注的数据集上计算的条件期望不一致性和模型系数的组稀疏正则化(Group LASSO)组成的目标函数。进一步地,我们将条件期望一致性度量改进为一种基于样本簇的条件期望计算方式,以更好的适应现实世界图片的内在视觉分布。提出了一个融合了若干加速技术的快速块坐标梯度下降算法。与以往方法相比,我们的模型求解具有更小算法时间复杂度和存储复杂度。并且,为了减少使用无标注数据的风险,设计了一个多核哈希系统去确定“最有信息量”和“紧凑”的无标注的训练子集。大量的实验证明提出的学习框架能够在大规模现实世界图片应用中获得较高的性能,例如图片分类任务以及个性化网页图片重排序任务。   本文的第四个贡献是多任务多特征距离度量学习。传统的相似性学习方法大多基于单特征表示,对所有的类别学习一个相同的距离度量,但其不能被直接移植到有着多特征表示,具有成百上千的层次化语义类别和海量社会标注的现实应用中。本文提出了一种新的多任务多特征相似性学习方法,它较好地克服了以往距离度量学习在处理高维数据时的不足,并对多任务之间的信息共享机制进行良好建模。我们将现实世界中如语义分类、自动标签学习等的多类问题分解为一组任务,其中每一个任务学习一个距离度量,这个距离度量能够判别若干个视觉相似性很强的图像类别。基于此模型,每一个任务都学习得到对应的距离度量。同时,构建了任务间的模型共享关系,使得到的距离度量具有更好的泛化能力。此外,基于多任务学习框架,所提出的方法可同时根据社会标注和语义标注信息进行学习,并结合各自的优点和丰富的信息获得更好的图像分析效果。本文在实际图像应用(例如语义分类和自动标签学习)中测试了方法的性能,实验结果优于当前的许多流行的距离度量学习方法,从而验证了方法的有效性。
其他文献
我们生活在数据时代,这些数据是一座巨大的金矿,人们通过对海量数据的分析处理来挖掘出“金子”。开源云计算系统Hadoop是很好的离线数据分析处理平台,它主要被用来做海量数据的
近年来,互联网技术的飞速发展和手持移动设备的大众化,使得生产和创作图像变得越来越简单。社交网络的不断发展,直观而生动的图片逐渐取代了繁琐而微妙的文字,成为传词达意的主要
在多媒体处理与计算机图形学领域,采样是指在给定区域内产生满足一定分布特性的点集图案。其中,最重要的一种采样技术称为蓝噪声采样,它是指采样点集分布既满足随机性又满足均匀
随着我国经济的飞速发展,汽车数量的快速增长与道路的慢速建设之间的矛盾日益突出,人们越来越感觉到交通的拥挤与出行的不便。道路堵塞、交通事故、环境污染和能源浪费等现象的
随着社交网络、微博、视频网站等互联网应用的快速发展,以及手机、平板电脑、摄像机等数码设备的不断普及,数字视频的数量在急剧增长。如何从海量的视频库中检索出满足用户需
大数据时代背景下海量人脸图像的获取已不是难事,丰富的训练数据给人脸图像的分析研究带来了机遇。然而互联网人脸数据含有大量噪声、缺少标注信息的特性也给人脸图像的分析研
近年来,流媒体技术的飞速发展和互联网的日益普及,给人们的工作、学习、生活和娱乐等都带来了深刻的变化。流媒体技术彻底改变了互联网的传输信息内容,它使得人们可以方便的通过
随着社会经济的发展,制造业不断转型升级,如今智能制造被视为新一轮生产模式的核心,成为全球制造业的发展趋势。对生产过程进行实时监控可以大幅提高生产企业的生产效率,提升企业
无线Mesh网络(Wireless Mesh Network,WMN)作为一种非常有前景的技术,在未来无线移动网络中将发挥越来越重要的作用。WMN具有动态自组织、自配置、自愈等特点,能够快速部署,易于
目前电力生产企业竞争加剧,企业越发期望通过加强管理降低成本、提高竞争力,期望通过信息化带动电力工业发展。企业对生产管理系统的可靠性、安全性、可维护性、可生存性提出