论文部分内容阅读
贝叶斯网络是研究不确定性问题的重要方法之一。它是基于概率和统计理论,具有坚实的数学基础。由于具有自然的表达方式、强大的推理能力和方便的决策机制等优点,贝叶斯网络在许多领域得到了广泛的应用。而文语转换(TTS)是将文字信息按语音处理规则转换成声音信号输出的技术,它可以使计算机流利地读出文字信息,使人们通过听就可以明白信息的内容。由于汉语文字博大精深,其文本分析具有较大的不确定性,故传统的基于规则的文本分析方法不能很好的适应文语转换系统,特别是开放字集分析系统的需要。本文在贝叶斯网络基础理论框架的基础上,将其应用于文语转换系统中的文本分析中。本文主要讨论了贝叶斯网络的基础知识、文本分析的主要研究问题和基于贝叶斯网络的文本分析算法及实验结果分析等三个主要部分。首先对贝叶斯网络的基础知识,包括贝叶斯网络的定义、符号表示进行了讨论;并在此基础上讨论了朴素贝叶斯分类器、树扩张朴素贝叶斯分类器、BAN分类器、贝叶斯多网分类器、通用贝叶斯网分类器等几种典型的贝叶斯网络分类器,进而讨论了各自的特点;为了降低贝叶斯网络的计算复杂性,讨论了上下文独立关系、因果独立关系,并讨论了独立关系的作用。针对文本分析中研究的难点,主要讨论了句子边界的确定方法,在以符号作为文本分析的主要依据的基础上,给出了有歧义符号的判定算法,并给出了具体算法及其应用示例;针对特殊符号给出了特殊符号分析的方法,针对汉语中的英文和数字也进行了分类,并给出了相应的分析算法;讨论了消岐分词的两种主要方法——基于规则的方法和基于统计的方法,并进行了比较;给出了多音字的分类方法,按照多音字词性与字音的对应关系将多音字分为A类和B类,并针对不同类型的多音字给出了相应的分析方法,进而讨论了分析的效果。在文本分析中,分词主要有两种技术手段:一个是基于规则的方法,另一个是基于统计的方法。基于规则的方法是处理确定性问题的重要手段,它具有充分吸取专家经验和更为直观、更易于获得的优点。而基于统计的方法则更鲁棒,性能更高。作为一种基于概率和统计理论的数据分析和辅助决策工具,贝叶斯网络适合于博大的中文文本分析工作。本文将文本分析与贝叶斯网络相结合,并选取测试数据进行测试。测试结果表明本文的算法在分词准确率、召回率、F指标等方面都优于其他算法;而对于多音字的辨析方面在不同的测试集上也表现出较好的性能。