基于R值的汉语搭配抽取

来源 :北京邮电大学 | 被引量 : 4次 | 上传用户:wangxiang62
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
词的搭配对于人们理解句子、产生准确和流畅的语言都具有重要作用,对于提高自然语言处理任务如机器翻译、问答系统等的性能都具有重要作用。本文首先从搭配结合的紧密性、组合性和可替换性出发,将搭配分为三类,并针对第1、2类搭配提出了一种搭配抽取的统计量R值。R值主要是通过考察搭配组成部分的不可替换性,来反映其成为1、2类搭配的可能性。本文将R值方法和其它已有的41种统计量一起,使用本文人工建立的COLLOCAT工ONCIST2011语料库,进行了单统计量抽取搭配的性能实验。并采用Recall,Precision,MAP等多种指标对抽取方法的性能进行了评估和对比分析,实验验证了R值对1、2类搭配抽取具有较好的性能。在对有代表性的几个统计量进行分析时发现,每个统计量都有其优势和劣势,在此基础上,实验了多统计值综合进行搭配抽取的方法。多统计值综合方法是将每个统计量视为判定搭配的一个特征,采用机器学习方法,建立起组成单元特征与其是否组成搭配的结果之间的联系。本文采用包括R值在内的42个统计量,分别采用支持向量机(SVM)和人工神经网络(ANN)模型,对多统计量进行综合。实验结果表明:多统计值综合的搭配抽取方法比单统计值方法的性能有显著的提升,而R值对多统计值综合方法的性能有着重要的贡献,它有效的弥补了其它统计值所具有的不足。
其他文献
伴随信息社会的发展,网页制作成为许多学校和培训单位的必开课程,而其中静态网页制作更是必修技术。但对于如何进行相关教学内容的考核,却产生了较大问题,主要是目前学生提交
随着无线通信技术与便携计算设备的快速发展与普及,移动用户的数量不断飙升。在无线移动计算环境中,由于移动设备的频繁断接性,无线通信网络的非对称性以及无线网络带宽有限
随着近年来人们对智能监控系统的要求更加智能化和实时化,智能视频监控技术越来越受到研究人员的关注。多场景目标跟踪是机器视觉领域一个重要的研究课题,它是智能视频监控系统
近年来,三维模型作为新一代数字媒体,其在工程、医学及科研领域的应用越来越广泛。而随着三维模型建模技术,及计算机硬件和互联网的不断发展,三维模型的数量开始呈现出以几何
学位
人们的工作和娱乐都离不开计算机,也离不开各种类型的电子文档。网络信息爆炸使得每个人都接触到大量文档,如何有效的管理文档已经变成一个重要课题;而且个人拥有多种计算机设
由于网络浏览的便捷性和广泛性,网站中被植入木马病毒已经成为互联网的主要安全威胁之一。它不仅能攻破大量主机,而且能导致大规模的僵尸网络,成为黑客地下经济链的重要一环,
混合动力汽车(HEV)作为一种低耗能、低排放的新型汽车,正受到当今汽车工业越来越多的关注。其技术的关键在于对两种不同的动力源采取合适的能量管理控制策略。计算智能是利用
随着航天遥感技术的发展,星上采集的数据量增大,星载嵌入式系统的处理能力和存储能力必须得到提升。在存储方面,必须采用大容量存储器将采集到的数据可靠存储下来。在处理方面,必
随着网络带宽的不断提升和计算机软硬件技术的成熟,构建3D教学平台的时机已经成熟。3D教学平台独特的沉浸感、交互性和构想性使得它在中小学教育领域具备了得天独厚的优势,目