基于全景视频内容的空间音频生成算法研究与实现

来源 :北京邮电大学 | 被引量 : 0次 | 上传用户:lxg888
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着虚拟现实技术的发展,360度全景视频作为一种新的视频形式,其可全角度环绕式观赏的特点为用户带来了沉浸式的体验。为了在全景视频基础上获得更强的沉浸感,业界一般会为视频添加与之匹配的空间音频。然而,如何生成逼真的空间音频融入视频的场景仍然是一个难点。一方面,民用的全景视频拍摄自带的录音设备无法达到令人满意的效果,而人工为全景视频配音或购买的专业空间音频录制设备会花费大量的人力或财力。因此,本课题设计并实现了一套基于全景视频内容来生成空间音频的系统,用户可以借助此方法高效快速地为全景视频生成与之匹配的空间音频。本文首先将生成空间音频所需要素分解成声音对象、房间混响、环境音效三部分。基于视频内容,分别通过多目标检测与跟踪、房间参数回归、场景分类模块实现这些要素的产出,并建立环境音效数据库来辅助这一过程。利用本文提出的算法实现了空间音频生成的软件系统,在此基础上对算法设计并进行了用户研究。通过分析统计数据了解了本算法具有的优势和算法中各组件的相对重要性。在空间音频生成算法使用基于DeepSORT的多目标检测与跟踪模块时,为了解决DeepSORT在全景视频上的不适用性,本文提出了 S-DeepSORT算法。S-DeepSORT在原DeepSORT基础上,引入了基于SphereNet的Sphere-SSD作为目标检测器,并通过坐标转换、数据增强的手段,使算法可以更好的在全景视频环境下使用。通过与现有算法数据指标的对比实验,表明S-DeepSORT能够对全景视频下的多目标检测与追踪取得较好的效果。最后,本文基于Unity引擎设计并实现了一个对全景视频的空间音频进行视听与编辑的系统平台。
其他文献
自从2012年能级弥散概念和分数维度电子态系理论提出以来,关于能级弥散效应的进一步实验验证和分数维度电子态系理论在相关光电子器件中的应用问题便提上了议事日程。一方面,作为介于激光器和发光二极管之间、兼具高功率和宽光谱特性的一种光源,超辐射发光二极管(SLD)是最能体现能级弥散效应和分数维度电子态系特征的典型光电子器件之一。因此结合典型分数维度SLD的性能探究能级弥散效应的真实性、进一步完善分数维度