【摘 要】
:
人类对外部世界的感知往往是基于多种信息的获取,其中视觉信息和听觉信息是主要的信息来源。人的大脑在处理这些视听觉信息时具有独特的理解能力和综合分析能力,因此对这些视
论文部分内容阅读
人类对外部世界的感知往往是基于多种信息的获取,其中视觉信息和听觉信息是主要的信息来源。人的大脑在处理这些视听觉信息时具有独特的理解能力和综合分析能力,因此对这些视听觉信息的机器理解与处理是人工智能发展过程中的关键一步。伴随着信息技术日新月异的发展,互联网上的视听觉数据已不胜枚举,这些视听觉数据中所蕴藏的海量信息为计算机模拟人类感知提供了可能。在此背景下,多模态机器学习取得了众多突破性的成就。视听觉数据一般都是同步出现,二者缺其一都会导致数据的不完整和不生动。但是单一模态数据缺失的情况却大有存在,视听觉跨模态生成系统能够由已知模态的数据生成得到另一模态的数据,因此其可以很好的解决单一模态数据缺失的问题。现有模型大都以声谱图为听觉数据的中间媒介来实现跨模态生成,但是它们却没有特别关注声谱图固有的类别属性。因此本文构建了基于自注意力机制的视听觉跨模态生成系统,其着眼于声谱图特殊的结构特点,通过引入自注意力机制在整体结构层面去学习声谱图的数据特征,然后结合生成对抗网络的结构进行数据特征映射以实现视听觉跨模态生成。实验结果表明,自注意力机制的引入使得该系统的性能要优于同类的视听觉生成模型。视听觉跨模态生成系统在训练时需要大量同步的视听觉数据,但是这种同步数据的大量获取相对困难,如果能够直接判断未知的视听觉数据是否同步,则可以更方便的得到同步的视听觉数据。因此本文还构建了基于自监督对比编码的视听觉同步判别系统,它通过对比编码损失来挖掘同步的视听觉数据特征之间的共性关联,然后以二者的融合特征为最终的决策信息来实现视听觉同步判别,这种自监督学习的方式不依赖需要耗费大量人力物力的带标签数据,在保证系统性能优良的前提下具有更广泛的适用范围。具体而言,本文的研究成果总结如下:1.从声谱图特殊的结构特点出发,利用自注意力机制能够模拟图像区域中远距离、多级别的依赖关系的优势,创造性的引入自注意力机制去学习声谱图的特征信息,更好的听觉特征表达为视听觉跨模态生成提供了更为充足的信息。2.构建了视听觉跨模态生成系统,其以生成对抗网络为基本架构,并在网络结构中加入自注意力层,然后结合Hinge形式的损失函数和谱归一化操作对系统进行训练,一定程度上提升了视听觉跨模态生成系统的性能。3.构建了视听觉同步判别系统,其通过自监督对比编码的思想构建损失函数,以此来建立起同步的视听觉数据之间的联系,通过一种自监督学习的方式实现视听觉同步判别。
其他文献
随着互联网的快速发展,各行各业的信息化程度也越来越高,涌现出大量的特定领域文本。特定领域文本由于其特殊性和专业性,在语义理解上不同于通用领域,普遍存在难以通过字面含
目前,随着计算机技术的飞速发展,在诸多领域中可视化技术都得到了越来越广泛的应用。台风灾害作为发生频率最高、影响范围最大、损失较为严重的自然灾害之一,台风可视化也成
光纤曲率传感器在交通运输、建筑结构检测等领域中得到广泛的研究和应用。其传感的主要原理是当光纤发生弯曲时,通过传感器结构输出光强度的改变或者光谱波长的漂移从而实现
目的:观察悬灸十七椎结合针刺治疗寒凝血瘀型原发性痛经的临床疗效,探讨该疗法治疗痛经的可行性和有效性,为临床治疗痛经提供更有效的方式。方法:采用随机对照研究,将符合纳入标准的60例寒凝血瘀型痛经患者按1:1的比例分为悬灸十七椎结合针刺组和普通针刺组。两组均选取穴位中极、三阴交、地机、次髎、关元、归来、十七椎,其中常规针刺组所有穴位均采用普通针刺,对针刺部位常规消毒后,选用规格0.30×40mm毫针,
本次翻译实践报告节选自英语文本《审判日军性奴隶制的女性民间国际战犯审判法庭》,这份判决书主要审判了二战时期日本建立的军事性奴隶制度对女性的侵害。在人们的潜意识里,战争远离孩童与女性,战场上是战士拼搏的身影,但在二战期间,战场上不乏妇女的身影,她们沦为战争“物资”,被日军掠夺成“慰安妇”。“慰安妇”是日本侵犯人权的深刻反映,她们饱受日本建立的军事性奴隶制度的迫害,她们是二战时期侵略国家残酷罪行的铁证
视频技术的诞生改变了人们的沟通方式,视频功能也成为智能移动终端不可缺少的要素。智能移动终端的普及和互联网的快速发展推动了健康监护技术的快速发展。随着生活水平的提高,人们渴望以更便捷的方式实现对自身健康状况的监护。本课题以iOS系统为基础,结合当下流行的视频服务技术,构建面向健康监护的视频服务模型,对于健康监护系统的完善与研究有一定的实践意义。首先,描述了国内外移动健康监护行业与视频服务的发展状况,
随着经济社会的快速发展,用户对大数据量、低延迟的通信要求越来越高,这对于当前网络来说是一个严峻的挑战。现代通信技术特别是随着5G技术的推进,无线通信正向高速率化和高
国际理解教育由联合国在20世纪40年代提出,是指通过教育让学生获得关于世界的知识,尊重和理解他国文化,掌握跨文化交流的工具和方式,关注各国面临的共同问题,树立社会责任感
在安塞油气田开发过程中,增压站普遍存在模块多、占地面积大、建设周期长、现场施工量大、运行成本高、数据管理混乱、系统间的信息交互和管理效率低、智能化程度不高而难以
氮化镓(Ga N)半导体相比于其他几种半导体材料,具有宽禁带(3.39 e V)、高电子迁移率、强抗辐照能力等优点。Ga N基器件凭借这些突出特点,在高频、大功率电子器件领域中具有很大的