无监督语音模式发现与关键词检索算法研究

来源 :中国科学院大学 | 被引量 : 0次 | 上传用户:JustFelling
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着通信技术与互联网技术的快速发展,多媒体数据呈现爆炸式增长,电话数据与来自网络的语音数据的积累越来越丰富,如何快速有效地从这些数据中获取到信息,成为当前研究者的主要研究热点。  本文针对于语音数据的快速信息检索,提出了无监督进行语音搜索获取语音流中语音模型的算法,针对关键词长词检索困难的情况,提出了基于两阶段检索的搜索算法提升中文关键词长词检索性能。提出了动态扩展位置特定后验词图的索引形式,提升了系统的召回率以及关键词检索性能。论文工作的主要内容和创新点如下:  1.提出了两种语音流中模式发现的算法,分别为基于语音识别、基于音素后验概率的算法,在基于识别算法构建的系统上用分段的动态时间弯曲算法,在识别结果上进行匹配,在识别结果上对比了识别首选与使用多候选结构作为搜索对象的性能。达到了92.21%的精度与80.71%的召回率;基于音素后验概率的算法,通过模型估计后验概率,得到每帧数据上的音素后验概率矢量,通过计算相似度,获取到语音中相似的语音模式,可以达到65.44%的精度与48.73%的召回率。  2.提出了针对中文关键词长词的两阶段搜索算法,通过对倒排序索引预筛选,选取可能包含有关键词长词的候选分段列表,通过对这些候选分段进行基于动态规划的线性扫描,在损失了少量搜索时间的代价下,获得了关键词长词召回率以及关键词性能的提升。在测试集上,针对关键词长词的EER下降了25%以上。  3.提出了动态扩展位置特定后验词图的索引形式,针对传统的位置特定后验词图生成过程与音节识别器解码过程的词假设扩展的相似性,提出在解码过程中动态地生成位置特定后验词图网络,通过和传统的位置特定后验词图进行有效融合,获得了召回率以及EER的性能提升,并且相对于非限定词图,保证了高精度区的表现。对比基线的关键词检索性能,在两个测试集上EER下降了4%以上,并且保持了高精度部分的性能表现。  4.提出了在线计算词假设置信度的算法,通过解码当前帧计算竞争路径间的后验概率,获得帧同步的置信度分数,作为动态扩展位置特定后验词图的词假设的置信度。  5.提出了利用子词图进行在线词假设的置信度的算法,通过前后延展一定帧数的语音,获取到针对词假设的邻接词图,通过对邻接子词图使用近似的前后向算法估算出词假设的置信度,在动态扩展位置特定后验词图算法中,效果优于帧同步的置信度算法。
其他文献
随着网络规模和承载流量的飞速增长,网络业务中出现了越来越多具有QoS要求的多媒体业务,这对网络的结构和功能提出了新的挑战和要求。在不断的研究和探索网络新技术中,以MPLS VP
随着合成孔径雷达(SyntheticApertureRadar,SAR)技术的不断发展,各种新技术、新体制、新理论在不断涌现。而合成孔径雷达收发系统作为整个遥感系统的最前端,是整个系统的硬件基
随着MPLS技术和MP-BGP的出现,BGP/MPLS VPN技术逐步发展并成为企业网中越来越普及的一种VPN架构。同时,部门内部的视频会议、数据共享等组播应用需求,使得在MPLS VPN网络内实施
图像是一种信息获取与利用的重要途径。但是在获取或传输途中,图像质量会下降,所以需要利用各种图像处理技术来改善图像质量。  图像增强是整个图像处理过程的基础,是一个非常
山水画家潘赤峰,生于1948年,毕业于北京艺术设计学院。退休前为人民邮电出版社美术编辑、摄影记者。多年来,潜心进行山水画创作,早在上世纪80年代,其山水画作品就参加了“大
目的:探索传统中药金樱子(Rosa Laeviga Michx,RLM)水醇提取液对实验性IgA肾病的治疗作用,了解其作用机制。方法:将36只大鼠随机分成正常组、模型组和治疗组,建立IgA肾病大鼠模型,经过RLM水醇提取液治疗数周后,检查大鼠蛋白尿,血尿及其肾组织病理改变;采用放射性免疫方法测定肾组织匀浆中TXB_2和6K-PGF_(1α)的含量,以观察肾脏组织血液的流动;提取肾组织蛋白,经SDS
一直以来,对人类长寿和衰老的探索是生命科学与医学领域中的重点内容。由于衰老涉及到多种因素,进程极其复杂。尽管几个世纪以来科学家们做了大量的研究,但其具体的机制并不明朗
随着我国工业化、城市化的推进,城乡发展呈现出面(大中城市)和点(城市周围村镇)相互渗透的发展格局。在这个相互渗透的发展过程中,大中城市周围形成了一个城乡交融、互动的空间
本研究课题以“国家科技重大专项—电波测量与信道建模技术研究”为项目支撑。为了应对日益增长的数据业务的需求,ITU在2008年开始征集IMT-A系统技术方案。与此同时,行业内对
脑胶质瘤是中枢神经系统最常见的恶性肿瘤,致死率极高,尽管包括手术、放疗以及化疗在内的脑胶质瘤综合治疗水平在不断提高,但其治疗效果仍未得到明显改善。本实验利用基因芯片技