论文部分内容阅读
随着虚拟现实技术的发展,360度全景视频作为一种新的视频形式,其可全角度环绕式观赏的特点为用户带来了沉浸式的体验。为了在全景视频基础上获得更强的沉浸感,业界一般会为视频添加与之匹配的空间音频。然而,如何生成逼真的空间音频融入视频的场景仍然是一个难点。一方面,民用的全景视频拍摄自带的录音设备无法达到令人满意的效果,而人工为全景视频配音或购买的专业空间音频录制设备会花费大量的人力或财力。因此,本课题设计并实现了一套基于全景视频内容来生成空间音频的系统,用户可以借助此方法高效快速地为全景视频生成与之匹配的空间音频。本文首先将生成空间音频所需要素分解成声音对象、房间混响、环境音效三部分。基于视频内容,分别通过多目标检测与跟踪、房间参数回归、场景分类模块实现这些要素的产出,并建立环境音效数据库来辅助这一过程。利用本文提出的算法实现了空间音频生成的软件系统,在此基础上对算法设计并进行了用户研究。通过分析统计数据了解了本算法具有的优势和算法中各组件的相对重要性。在空间音频生成算法使用基于DeepSORT的多目标检测与跟踪模块时,为了解决DeepSORT在全景视频上的不适用性,本文提出了 S-DeepSORT算法。S-DeepSORT在原DeepSORT基础上,引入了基于SphereNet的Sphere-SSD作为目标检测器,并通过坐标转换、数据增强的手段,使算法可以更好的在全景视频环境下使用。通过与现有算法数据指标的对比实验,表明S-DeepSORT能够对全景视频下的多目标检测与追踪取得较好的效果。最后,本文基于Unity引擎设计并实现了一个对全景视频的空间音频进行视听与编辑的系统平台。