基于贝叶斯网络的文语转换系统文本分析研究

来源 :山东师范大学 | 被引量 : 0次 | 上传用户:libin101
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
贝叶斯网络是研究不确定性问题的重要方法之一。它是基于概率和统计理论,具有坚实的数学基础。由于具有自然的表达方式、强大的推理能力和方便的决策机制等优点,贝叶斯网络在许多领域得到了广泛的应用。而文语转换(TTS)是将文字信息按语音处理规则转换成声音信号输出的技术,它可以使计算机流利地读出文字信息,使人们通过听就可以明白信息的内容。由于汉语文字博大精深,其文本分析具有较大的不确定性,故传统的基于规则的文本分析方法不能很好的适应文语转换系统,特别是开放字集分析系统的需要。本文在贝叶斯网络基础理论框架的基础上,将其应用于文语转换系统中的文本分析中。本文主要讨论了贝叶斯网络的基础知识、文本分析的主要研究问题和基于贝叶斯网络的文本分析算法及实验结果分析等三个主要部分。首先对贝叶斯网络的基础知识,包括贝叶斯网络的定义、符号表示进行了讨论;并在此基础上讨论了朴素贝叶斯分类器、树扩张朴素贝叶斯分类器、BAN分类器、贝叶斯多网分类器、通用贝叶斯网分类器等几种典型的贝叶斯网络分类器,进而讨论了各自的特点;为了降低贝叶斯网络的计算复杂性,讨论了上下文独立关系、因果独立关系,并讨论了独立关系的作用。针对文本分析中研究的难点,主要讨论了句子边界的确定方法,在以符号作为文本分析的主要依据的基础上,给出了有歧义符号的判定算法,并给出了具体算法及其应用示例;针对特殊符号给出了特殊符号分析的方法,针对汉语中的英文和数字也进行了分类,并给出了相应的分析算法;讨论了消岐分词的两种主要方法——基于规则的方法和基于统计的方法,并进行了比较;给出了多音字的分类方法,按照多音字词性与字音的对应关系将多音字分为A类和B类,并针对不同类型的多音字给出了相应的分析方法,进而讨论了分析的效果。在文本分析中,分词主要有两种技术手段:一个是基于规则的方法,另一个是基于统计的方法。基于规则的方法是处理确定性问题的重要手段,它具有充分吸取专家经验和更为直观、更易于获得的优点。而基于统计的方法则更鲁棒,性能更高。作为一种基于概率和统计理论的数据分析和辅助决策工具,贝叶斯网络适合于博大的中文文本分析工作。本文将文本分析与贝叶斯网络相结合,并选取测试数据进行测试。测试结果表明本文的算法在分词准确率、召回率、F指标等方面都优于其他算法;而对于多音字的辨析方面在不同的测试集上也表现出较好的性能。
其他文献
随着新课程改革的不断发展和深入,要求老师在教学的过程中采用自主--探究--开放式的教学方针。对于传统的教学方法来说是一个挑战。中职化学教学是中职教学中的重点课程之一,加
本文在现行的五年制高职装饰工程技术专业素描课程设计的基础上,分析了明暗素描与结构素描各自的优缺点,本着取长补短、感性与理性共同发挥的目的,提出五年制高职装饰工程技术专
当前,在世界各国积极倡导的“信息高速公路”的五个应用领域中,“电子政务”被列为第一位。电子政务应用系统是政府实施信息化建设的主体内容,也是全社会信息化工作的重要组成部
学位
陶行知先生曾指出:“教师的责任不在教,而在教学生学”。教师应该重视学生“学什么”和“怎样学”的问题。因此,对学生在英语教学中开展学法指导,培养学生自主学习的能力已必不可
该文以改革开放以来中国能源需求变化为研究对象,运用经济学理论和分析方法,分析中国能源需求变动规律及其主要影响因素.该文的研究内容包括以下几个方面:首先,分析能源需求
申论作为公务员考试的必考科目一直是广大考生感觉到困惑、难以获得高分的题型,申论复习和考试时常有为难情绪和抵触心理,常常让很多考生困惑。在平时练习时经常会通过做大量练
昨日辉煌与发展尴尬但凡上世纪“70前”出生的人,对供销社大都有着深刻的记忆。成立于建国初期的供销合作社(简称“供销社”),在改革开放前30年的计划经济年代,延伸到我国的
本文从图书馆员素质教育是图书馆事业发展的需要这一角度出发,论述了图书馆员素质现状及存在的问题、图书馆员素质教育的内容及知识形象的塑造应采取的措施。 This paper st
公路建设作为人类文明及社会经济发展的重要标志,它拉近了人与人之间的距离,使地区间联系变得紧密,提高了劳动生产效率。在公路工程得到切实发展时,又将反过来促进经济的发展,鉴于
根据新课标的要求让学生亲身参与教学研究探索,培养学生解决以及发现问题的能力,导学案的教学方法可以充分体现出课程改革的灵魂。导学案的教学方法符合现代教学新理念,可以培养