【摘 要】
:
近年来,传统彩电行业都向着智能化发展,而随着人工智能发展的不断提升,通过人工智能技术提升电视智能化水平成了智能电视发展的一种重要方向。正是在如此的环境下,将智能电视显示的文本内容进行摘要生成并语音播报这样的功能被提出。本文主要叙述了智能电视文本内容的摘要生成及语音播报功能的设计与开发。首先对作为核心功能的摘要生成与语音合成进行技术研究与分析,确定了以深度学习为基础的功能实现方向,然后对现有基于深度
论文部分内容阅读
近年来,传统彩电行业都向着智能化发展,而随着人工智能发展的不断提升,通过人工智能技术提升电视智能化水平成了智能电视发展的一种重要方向。正是在如此的环境下,将智能电视显示的文本内容进行摘要生成并语音播报这样的功能被提出。本文主要叙述了智能电视文本内容的摘要生成及语音播报功能的设计与开发。首先对作为核心功能的摘要生成与语音合成进行技术研究与分析,确定了以深度学习为基础的功能实现方向,然后对现有基于深度学习的摘要生成与语音合成技术进行对比与分析,通过比较各种算法技术之间的优劣点,提出了一种新的基于迁移学习的双向摘要生成模型和实现了基于Tacotron2的语音合成模型,在给出综合算法方案后,对每个功能进行了详细的仿真对比实验,在实验中,通过对已有成熟算法模型的复现和对本文提出的算法模型进行仿真实验与实验分析,确定了本文提出算法方案的优越性,确定了以基于迁移学习的双向摘要生成模型和Tacotron2语音合成模型,作为实现系统核心功能的技术支持;然后对系统开发进行了详细的需求分析和建模,通过对系统的需求分析,将系统确定为后台管理、摘要生成、语音合成和模型压缩四个模型,并给出用例图确定每个模块的功能,然后根据完整的数据流图,对针对管理员和普通用户的业务使用,根据不同流程进行了细致描述;通过模块的详细分析,给出了各模块的详细设计方案,并予以实现;最后针对每个模块的需求分析和详细设计,对各个模块进行了详细的功能测试和性能测试,确保了系统各个功能模块的有效性和性能保障,对系统进行了完整性运行测试,确保了系统的流畅运行。本文提出的系统创新点在于:从功能性上,提出一个完整的对智能电视文本内容进行摘要生成,并且语音播报给用户的解决方案,通过技术性融合,实现了用户使用智能电视的便捷性,大大提升了用户使用体验;从技术上,以深度学习技术为出发点,提出了一种针对本课题非常有效的双向语言模型作为特征提取器,性能与BERT语言模型相匹配,同时针对现有摘要生成的Seq2Seq架构进行改进,设计并实现了一种双向摘要生成解码器,通过双向语言模型对摘要生成任务进行微调,大大提升了任务性能,最后利用基于权重剪枝的模型压缩技术对本文涉及到的深度学习模型进行处理,加速模型推理,降低了硬件需求,便于项目未来落地的需要。作为在实习公司的预研性项目,该功能成功开发,并通过了公司的验收,印证了智能电视智能化水平的提升是未来的大趋势,而多领域技术的融合对智能化的提升将是巨大的,人工智能技术在其中起到的作用,也是不可估量。
其他文献
车辆再识别旨在通过监控摄像机网络对目标车辆进行快速搜索、定位和跟踪,即判断不同摄像头下出现的车辆是否属于同一辆车,是构建现代智能交通系统的关键技术之一,对建设智慧城市,维护社会治安有着重大意义。以往的车辆相关研究大多集中在车辆检测、分类和跟踪方面。相对而言,车辆再识别是一个较新出现的计算机视觉研究课题,还远未得到解决。精准的车辆再识别面临两个主要挑战:(1)类间相似性,即不同车辆具有相似的外观;(
内蒙古欧布拉格铜金矿床位于华北板块北部边缘变形带的西段,是一处具有大型远景规模的矿床。矿体主要分布在次火山岩-石英斑岩、闪长玢岩与英安质熔结火山角砾岩的内外接触带中,并与附近的构造裂隙及岩体残留岩浆或熔浆有关。主要围岩有石英斑岩、闪长玢岩、英安质熔结火山角砾岩及角闪岩脉等,并具不同程度的蚀变,其中与成矿关系密切的蚀变类型为青磐岩化和硅化。根据矿石矿物共生组合和接触关系,本文将欧布拉格矿床划分为两个
自1994年我国正式征收增值税以来至2016年5月为止,我国的税收制度就一直处于营业税与增值税并行的状态。随着经济的发展这种税收制度不仅不利于各行业的专业化分工,也会产生
在中学物理教学中如何把枯燥的物理知识变得灵动、富有生命力,一直是教育工作者们关注的重点。随着核心素养的提出,高中物理也逐渐重视到物理知识背后的文化底蕴,更加注重物理文化的渲染。在当前将物理文化融入中学物理教学的研究,主要以物理文化的渗透价值和物理文化的渗透途径为主,对于具体的渗透策略较少。在中学阶段给出的教学案例主要以初中物理和更贴近学生日常生活、能够感受到的力学知识为主,而电磁学的案例少而又少。
高质量的图像输出是天文研究的重要内容,在明安图频谱射电日像仪(MingantU SpEctral Radioheliograph,MUSER)成图过程中,由于太阳圆盘偏离视场中心导致最终成图质量不高、脏图洁化过程中没有使用原始脏图中的统计信息而造成了大量迭代的时间开销以及没有对异常数据剔除后进行检验,导致数据处理系统不够完善。本文重点研究了一种基于统计的日面亮度模型,更加高效地计算出MUSER原始
在时分双工(Time Division Duplexing,TDD)的无线通信系统中,有非常重要的一种特性称为信道互易性。该特性的基本思想是,在信道相干时间内,基站(Base Station,BS)对接收的信号进行上行信道状态信息(Channel State Information,CSI)估计,并且可以认为该估计出来的信息与下行信道状态信息是一致的,由此可以为下行传输确定方法。但是,实际信道是由
许多复杂的工程过程都可以建模为耦合双曲型偏微分方程(PDE)与常微分方程(ODE)的分布参数系统。由于分布参数系统状态空间的无穷维特性及系统本身的复杂性,以及系统不可避免地存在不确定性和扰动,这使得控制分析与设计更加复杂。因此,研究耦合双曲型PDE-ODE分布参数系统控制具有重要的理论价值和实际意义。本文中考虑一类具有分布参数的双曲耦合系统,选取相互连接的连续搅拌釜式反应器(CSTR)和平推流反应
近年来,随着海洋环境监测、科学数据采集、海洋防灾等领域的不断探索,传统水下通信方式如水声通信(UAC,Underwater Acoustic Communication)等,已不能满足现有水下通信对高速
随着无人机在军事、农业、航拍和救灾等领域的广泛使用及其产业的蓬勃发展,无人机通信网络的低空空域频段越发拥挤,频谱资源变得越发珍贵,资源短缺问题日渐突出。因此,本文主要研究无人机网络中频谱感知技术,以期通过高效感知为无人机网络发现频谱空洞,缓解资源短缺问题。本文考虑同质和异质无人机网络两种场景,分别提出基于分簇及频谱预测的分布式协作感知方案,以提高无人机网络中频谱感知精度,发现潜在频谱重用机会,提升
群智能优化算法由于具有实现简单、收敛速度快、鲁棒性高等优点,已被广泛运用于经济、工程等各个领域。然而早期的群智能优化算法往往存在易早熟收敛、种群多样性缺失、收敛精度差等问题,尤其是求解多峰函数及复杂函数时,算法往往难以兼顾种群多样性和收敛精度。因此,本文在前人研究的基础上,针对群智能优化算法的早熟收敛问题,将动态多种群策略分别与粒子群算法(Particle Swarm Optimization,P