基于最大熵模型的中文阅读理解问答系统研究

来源 :山西大学 | 被引量 : 0次 | 上传用户:epslon003
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
阅读理解问答系统能够自动分析给定的一篇自然语言文章,并且根据文中的信息,为每个针对本篇文章提出的问题生成相应的答案。目前英文阅读理解问答技术的研究已有很多,但针对中文阅读理解问答技术的研究还较少。  本文首先介绍了最大熵模型,叙述了最大熵模型的原理,参数估计的IIS算法和L-BFGS算法,并给出了最大熵模型与Logistic回归模型之间的关系。  本文基于山西大学自主开发的中文阅读理解语料库CRCC v1.1版,根据问句和候选答案句的对应关系,构造了词层面的10个特征以及句法层面的25个特征,并使用最大熵模型对中文阅读理解问题回答进行了建模。我们采用HumSent准确率来评价系统性能。考虑到语料库规模较小,我们以1∶1的比例从CRCC语料库中随机选取了5组训练/测试集,在这5组测试集上,最大得到79.04%的平均HumSent准确率。为了消除特征之间的相关性,我们对这35个特征进行主成份降维,重构特征,使用主成份最大熵模型进行训练,在5组测试集上的平均HumSent准确率达到80.18%。  实验结果表明,采用主成份最大熵模型,可以避开特征逐个筛选的过程,能有效融合大量特征,并充分利用所有特征来训练模型,以改善阅读理解系统的性能。  在实验的基础上,基于Java平台,我们设计并实现了中文阅读理解问答系统CRCQA(V1.0)。
其他文献
课程改革以来,越来越多的教师正在逐渐转变陈旧的教学观念,尽可能地为学生提供自主探索、合作交流的学习机会。因此探究性教学模式受到越来越多的教师的青睐。它通常包括以下
图论是离散数学中一个非常重要的分支,其理论成果在许多领域有着广泛的应用,如计算机科学、社会科学和自然科学等.  1990年Bang-Jensen首次引进了一类竞赛图的推广图——局部
《语文课程标准》指出:要充分扩大学生的识字量,教师除了帮助学生掌握教科书上要求认识的生字外,还要巧妙引导学生利用课外学习资源,培养学生自主识字的意识与习惯,让他们认
学位
请下载后查看,本文暂不支持在线获取查看简介。 Please download to view, this article does not support online access to view profile.
期刊
古今中外的文学名著都是文学大家的作品,它们穿越历史长河,经过大浪淘沙,是流传下来的精品,具有深厚的语言文字功底和文化精髓.在小学教学中,语文学科是基础学科,学好语文不
学位
学位
学位
学位