论文部分内容阅读
随着通信技术与互联网技术的快速发展,多媒体数据呈现爆炸式增长,电话数据与来自网络的语音数据的积累越来越丰富,如何快速有效地从这些数据中获取到信息,成为当前研究者的主要研究热点。 本文针对于语音数据的快速信息检索,提出了无监督进行语音搜索获取语音流中语音模型的算法,针对关键词长词检索困难的情况,提出了基于两阶段检索的搜索算法提升中文关键词长词检索性能。提出了动态扩展位置特定后验词图的索引形式,提升了系统的召回率以及关键词检索性能。论文工作的主要内容和创新点如下: 1.提出了两种语音流中模式发现的算法,分别为基于语音识别、基于音素后验概率的算法,在基于识别算法构建的系统上用分段的动态时间弯曲算法,在识别结果上进行匹配,在识别结果上对比了识别首选与使用多候选结构作为搜索对象的性能。达到了92.21%的精度与80.71%的召回率;基于音素后验概率的算法,通过模型估计后验概率,得到每帧数据上的音素后验概率矢量,通过计算相似度,获取到语音中相似的语音模式,可以达到65.44%的精度与48.73%的召回率。 2.提出了针对中文关键词长词的两阶段搜索算法,通过对倒排序索引预筛选,选取可能包含有关键词长词的候选分段列表,通过对这些候选分段进行基于动态规划的线性扫描,在损失了少量搜索时间的代价下,获得了关键词长词召回率以及关键词性能的提升。在测试集上,针对关键词长词的EER下降了25%以上。 3.提出了动态扩展位置特定后验词图的索引形式,针对传统的位置特定后验词图生成过程与音节识别器解码过程的词假设扩展的相似性,提出在解码过程中动态地生成位置特定后验词图网络,通过和传统的位置特定后验词图进行有效融合,获得了召回率以及EER的性能提升,并且相对于非限定词图,保证了高精度区的表现。对比基线的关键词检索性能,在两个测试集上EER下降了4%以上,并且保持了高精度部分的性能表现。 4.提出了在线计算词假设置信度的算法,通过解码当前帧计算竞争路径间的后验概率,获得帧同步的置信度分数,作为动态扩展位置特定后验词图的词假设的置信度。 5.提出了利用子词图进行在线词假设的置信度的算法,通过前后延展一定帧数的语音,获取到针对词假设的邻接词图,通过对邻接子词图使用近似的前后向算法估算出词假设的置信度,在动态扩展位置特定后验词图算法中,效果优于帧同步的置信度算法。