面向含有专业未登录词英汉平行语料句对齐的研究

来源 :哈尔滨理工大学 | 被引量 : 0次 | 上传用户:vivien2009
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自然语言处理是计算机科学领域与人工智能领域中的一个重要的方向,它能实现人与计算机之间用自然语言进行有效沟通的各种理论和方法。机器学习是自然语言处理研究的一个分支,而此研究的前提是具有一个大规模的英汉语料库。由于含有未登录词的英汉双语句对齐语料库相对贫乏,导致了机器翻译的非专业性以及不平衡性,这就是本文所研究的问题所在。本文的目的是设计并实现一个基于长度的英汉双语句对齐的系统,这个系统能够将英汉双语段对齐的文本具体到句对齐。本文的研究内容主要分为以下几个部分:首先,设计双语句对齐的评价函数,并以此为基础设计基于长度的双语句对齐算法和最优句对序列搜索算法。本文中选定中国知网(CNKI)作为英汉双语候选网站,下载英汉双语网页,对所下载页面进行分析后,去除网页标签等非文本内容,并存储双语文本信息,从而建立了基于段对齐的英汉双语语料库,并保留网页中英汉双语关键词。其次,从星际译王此款软件中提取词典,将原来的词典格式进行分析,转换成自定义的词典格式,方便双语句对齐系统更好的使用,将上一步中提取的英汉双语关键字也一并放入词典中,这样有助于扩大词典的数量、增加词汇的专业性。最后,提取已建立语料中的英文单词的词干,简化英文单词处理复杂度,也减少单词词性转换带来的噪声,并且提高运行效率。实现了基于长度的双语句对齐系统。最后调整系统参数进行对比实验,检验系统性能。
其他文献
近年来,随着计算机技术、空间技术和现代信息基础设施的飞速发展,以及虚拟现实(Virtual Reality)、三维仿真(3Dimension simulation)、科学计算可视化等技术的出现,为真实再现客
Flash存储器作为一种新兴的存储设备,其体积小、重量轻、低成本、高集成度、抗震动性好等特点使得它在电子产品领域获得了非常广泛的应用。把Flash存储器应用于嵌入式系统中的
随着经济的迅速发展和人民生活水平的不断提高,房地产业已经发展成为国民经济中的支柱产业,也必将在整个国民经济中占据更加重要的地位。同时,对国家GDP的增长起到了很大的贡献
电网是关系国民经济命脉的基础设施和重要资源。随着我国国民经济的快速发展和人民生活水平的日益提高,人民对电力的需求日益增长,电网投资也在逐年加大,如何合理投资,加快电
随着我国整体经济水平的不断提升和互联网事业的不断普及,计算机的应用对于生产和生活的方式的改变提供了一种新的可能。但是,网络的发展也给入侵者提供了更加便利的条件。入侵
无线传感器网络是一种涉及多门学科的综合网络技术,它能够实现数据采集融合和智能网络应用系统,逻辑上将信息世界和真实世界进行了有效的连接,是一种真正的“普适计算”模式。由
随着人们对于公共安全等问题的不断重视,视频监控被应用到越来越多的场景中,从而带来了海量的监控视频数据。传统人工处理的方式已逐渐不可行,我们迫切需要使用计算机来进行
目前大多数流行的图像搜索引擎,都利用从图像的上下文中抽取出来的文本信息来建立索引。这种机制下的检索结果往往含有大量的垃圾信息,因为文本上下文与检索关键词匹配,不一
目前国内国外市场上存在很多的DCS的DCS软件,组态软件是指集数据采集与过程控制功能于一体的专用软件,随着现在市场工业自动化水平的迅速提高以及计算机在工业领域的广泛应用
随着互联网基础设施的逐步升级以及移动终端的快速普及,人们可以越来越方便地拍摄和观看视频。视频由于其本身所携带信息的丰富性和生动性,成为了人们生活中重要的信息传播载