论文部分内容阅读
语言知识库的建设在自然语言处理(Natural Language Processing,NLP)中起着重要的作用,它的规模与质量影响着语言应用软件的优劣性。现阶段,语言知识库的建设技术已经较为成熟。而大量语言资源和前期知识库的支持,对于篇章相似度的计算研究也起到了促进的作用。随着语言知识库规模的发展,仅仅处理特定的语料已经不足以满足需求,对大规模真实文本的处理成已经成为自然语言处理的当务之急。其中,篇章相似度的计算,在文本分类、文摘生成、文章抄袭的判定、文本推理和智能搜索引擎等领域都起到了重要的作用。 本课题主要工作如下: 1.研究了综合语言知识库的构建方法。本论文在前期工作的成果基础上,设计并实现了综合性语言知识库系统,对各大模块进行了进一步的完善。实现了分词和词性标注模块,对语料实现了初步处理;实现了词频统计模块,为后续信息处理的应用提供了语料的词频信息;实现了交叉参照模块,对于词语在语料以及多种词典中的信息实现同时显示,交互参照查询,为词语的理解、知识资源的应用以及知识词典的更新提供了便利。 2.研究了知识资源的结构特点及其处理方法。从知识资源应用的角度对知识资源进行了分析比较。本课题要用到的语义资源包括Hownet和CSD两大电子词典。原先Hownet数据信息是以文本形式进行存储的,不利于计算机识别。在对其进行了全面分析和研究之后,将之进行了必要的转换,并且和综合型语言知识库中的CSD的信息一起,运用到了词语关系度乃至句子、篇章的相似度计算过程当中。 3.提出了词语关系度的概念,解决了如何把词典相似度和统计相关度良好融合的问题。在研究词语相似度和相关度概念的基础上,研究了句子相似度和篇章相似度的计算方法。在这些研究中,多方面知识资源得以应用:在词语层级,同时运用了Hownet、CSD两种词典的方法和篇章中词语频次及其向量空间的方法,达到了词典与统计相结合的目的;在句子层级,采取了中心词、动词、词频等多种计算方法,从多角度进行句子相似度计算;在篇章方面,运用多种知识资源,对中心句、高频词等均进行了计算。 本课题在综合语言知识库模块构建的基础上研究知识的应用,最终又通过这项研究促进了综合型语言知识库的发展。通过最后对实验数据进行的处理和分析,本课题取得了令人比较满意的成果。