论文部分内容阅读
随着通信和互联网技术的发展,企业和个人用户拥有了越来越多的通信方式,但如此之多的通信方式给人们带来便利的时候,也给用户的管理带来了不便。融合通信能够提供任何时间、任何地点、任何设备实时或非实时的接入,提供随时随地的通信能力。在融合通信中,通过交互实现语音功能,可以有效的丰富融合通信的功能。本文研究了一种新颖的语音交互技术,采用服务器-客户端交互的方式实现融合通信中的语音应用场景功能。融合通信终端实现基本的语音功能,复杂的智能语音处理功能由服务器实现,客户端和服务器之间通过网络建立交互,进行音频和文本的传输。具体研究内容和主要工作如下:
本文研究了Linux下的音频设计开发的方法。首先论述了在Linux系统下Open SoundSystem平台上编程的规范与具体实现。其次,介绍了语音识别和语音合成的基本原理。最后,研究并阐述了在本课题中使用的两种语音引擎SAPI和AISpeech的原理、实现步骤和相关的接口介绍。研究了一种融合通信平台中的智能语音终端的构建方法。首先介绍了融合通信平台的构建过程。其次,介绍了智能终端软件模块的划分。再次,在此基础上研究了在终端实现语音播放、录制和存储功能的方法。研究了语音交互方式的实现。首先,研究了智能语音终端通过局域网套接字与服务器相连的方法。其次,研究了在语音服务器上实现几种常用的智能语音交互功能的方法,包括文件存储、文件格式转换、语音合成交互、语音识别交互等。最后,在实现语音交互的基础上,研究了几种实际应用场景的建立,包括通话录音、语音拨号功能,提出了实现多种情景模式的方案。给出了融合通信系统中语音交互的运行与测试。首先,研究了交叉编译环境的建立和分析了智能语音终端的测试结果。其次,研究了语音服务器的搭建和对各种语音功能进行了测试。最后总结了本文所做工作并对下一步的研究工作进行了展望。