论文部分内容阅读
阅读理解问答系统能够自动分析给定的一篇自然语言文章,并且根据文中的信息,为每个针对本篇文章提出的问题生成相应的答案。目前英文阅读理解问答技术的研究已有很多,但针对中文阅读理解问答技术的研究还较少。 本文首先介绍了最大熵模型,叙述了最大熵模型的原理,参数估计的IIS算法和L-BFGS算法,并给出了最大熵模型与Logistic回归模型之间的关系。 本文基于山西大学自主开发的中文阅读理解语料库CRCC v1.1版,根据问句和候选答案句的对应关系,构造了词层面的10个特征以及句法层面的25个特征,并使用最大熵模型对中文阅读理解问题回答进行了建模。我们采用HumSent准确率来评价系统性能。考虑到语料库规模较小,我们以1∶1的比例从CRCC语料库中随机选取了5组训练/测试集,在这5组测试集上,最大得到79.04%的平均HumSent准确率。为了消除特征之间的相关性,我们对这35个特征进行主成份降维,重构特征,使用主成份最大熵模型进行训练,在5组测试集上的平均HumSent准确率达到80.18%。 实验结果表明,采用主成份最大熵模型,可以避开特征逐个筛选的过程,能有效融合大量特征,并充分利用所有特征来训练模型,以改善阅读理解系统的性能。 在实验的基础上,基于Java平台,我们设计并实现了中文阅读理解问答系统CRCQA(V1.0)。