论文部分内容阅读
随着因特网的普及和发展,社会的信息总量呈指数级增长。用户要精确地找到所需信息变得非常困难,往往面对着从搜索引擎中查找出的大量的信息而不知所措。为此,人们希望可以得到一种高质量的信息抽取方案,提供准确、简洁的信息来源,而不至于在信息的海洋中苦苦查找。信息抽取的主要任务是把信息点从各种各样的文档中抽取出来,然后以统一的形式集成在一起,从而更使用户在海量的信息中迅速准确地获得所需信息。信息抽取技术是智能信息处理的重要研究课题之一,有着广阔的应用前景。 本文首先介绍了信息抽取的研究背景、发展状况,研究了信息抽取的主要技术,并分析了信息抽取的研究意义。由于中文文本机器理解工作还处于起步阶段,不能达到应用的水平,基于这一不足之处,利用CFN在语义信息标注方面的优势对文本加入语义信息,使文本处理粒度变细,以提高抽取质量。于是提出了一种信息抽取的方法---基于汉语框架语义网的信息抽取。 本文通过将CFN和信息抽取技术相结合构造了一个基于汉语框架语义网的教材内容提要信息抽取系统。此方法以文本的语义特征向量作为信息抽取的基础,通过神经网络方法构造的包装器对语料进行训练学习生成抽取规则.最后结合目标模板抽取出所需信息。这种方法避开语法分析,对语义元素搭配形式相对规范的领域具有一定的普遍适用性。实验结果表明,基于汉语框架语义的信息抽取方法具有相对较高的准确率。