面向综合语言知识库建设的篇章相似度计算研究

来源 :北京信息科技大学 | 被引量 : 0次 | 上传用户:ieven1989
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
语言知识库的建设在自然语言处理(Natural Language Processing,NLP)中起着重要的作用,它的规模与质量影响着语言应用软件的优劣性。现阶段,语言知识库的建设技术已经较为成熟。而大量语言资源和前期知识库的支持,对于篇章相似度的计算研究也起到了促进的作用。随着语言知识库规模的发展,仅仅处理特定的语料已经不足以满足需求,对大规模真实文本的处理成已经成为自然语言处理的当务之急。其中,篇章相似度的计算,在文本分类、文摘生成、文章抄袭的判定、文本推理和智能搜索引擎等领域都起到了重要的作用。  本课题主要工作如下:  1.研究了综合语言知识库的构建方法。本论文在前期工作的成果基础上,设计并实现了综合性语言知识库系统,对各大模块进行了进一步的完善。实现了分词和词性标注模块,对语料实现了初步处理;实现了词频统计模块,为后续信息处理的应用提供了语料的词频信息;实现了交叉参照模块,对于词语在语料以及多种词典中的信息实现同时显示,交互参照查询,为词语的理解、知识资源的应用以及知识词典的更新提供了便利。  2.研究了知识资源的结构特点及其处理方法。从知识资源应用的角度对知识资源进行了分析比较。本课题要用到的语义资源包括Hownet和CSD两大电子词典。原先Hownet数据信息是以文本形式进行存储的,不利于计算机识别。在对其进行了全面分析和研究之后,将之进行了必要的转换,并且和综合型语言知识库中的CSD的信息一起,运用到了词语关系度乃至句子、篇章的相似度计算过程当中。  3.提出了词语关系度的概念,解决了如何把词典相似度和统计相关度良好融合的问题。在研究词语相似度和相关度概念的基础上,研究了句子相似度和篇章相似度的计算方法。在这些研究中,多方面知识资源得以应用:在词语层级,同时运用了Hownet、CSD两种词典的方法和篇章中词语频次及其向量空间的方法,达到了词典与统计相结合的目的;在句子层级,采取了中心词、动词、词频等多种计算方法,从多角度进行句子相似度计算;在篇章方面,运用多种知识资源,对中心句、高频词等均进行了计算。  本课题在综合语言知识库模块构建的基础上研究知识的应用,最终又通过这项研究促进了综合型语言知识库的发展。通过最后对实验数据进行的处理和分析,本课题取得了令人比较满意的成果。
其他文献
在当今的互联网中,搜索引擎以其快速和直接的资源访问方式,得到了越来越多用户的青睐,并发挥着越来越重要的作用。而在搜索引擎中,搜索结果是其和用户交流的直接媒介,搜索结
本文作者介绍了基于代理的用户态TCP/IP协议栈的设计与实现,并使该协议栈针对代理功能进行剪裁和优化,以及在多核处理器上实现性能的线性扩展。代理服务器通常作为数据中心的
电子商务具有巨大的经济增长潜力,但是在其高速的发展过程中面临很多挑战。电子商务的开放性、虚拟性、匿名性等特点导致严重的信息不对称问题和交易风险问题,大规模电子商务应
随着社会的进步,网络在国民经济和基础设施建设方面发挥着越来越重要的作用。为了保护网络免受恶意攻击,我们需要随时掌握网络的安全状态,并提供有效的措施来提升网络的安全性。
BPEL是Web服务组合的事实标准,利用flow和link提供了并发和同步的机制。BPEL流程中的不同线程可同时访问同一个共享变量,虽然isolated scope提供了并发情况下对共享变量的访问
三维模型的特征检测和特征描述是近年来计算机视觉领域研究的热点问题。特征检测是指基于一定的特征定义在三维模型的表面检测出一系列显著的特征点,这些特征点从直观或非直观
随着网络技术的快速发展,信息化的应用系统已经逐步进入现代生活中,人们越来越多地运用计算机和网络技术来提高办公效率,甚至在一些大中型企业中已经成为人们日常办公不可缺
粒子群优化算法(PSO)出现以来,在理论分析、收敛性能的提高、算法的应用等各个方面都已经出现了大量的研究。在PSO的运行过程中,需要迭代地对种群中的各个粒子进行适应度评价、
BSM技术目前已经成为各大企业IT系统管理发展的方向,它能够将IT系统管理与业务对象紧密的联系在一起并通过有效合理的管理来实现业务性能的最大化。BSM是基于传统系统和网络管
游戏引擎是游戏或一些交互式实时图像应用程序的核心组件,它为了简化游戏开发,将诸多游戏开发工具整合到一个开发环境中。这种介于硬件层与用户界面之间的游戏中间层的封装模式