论文部分内容阅读
自然语言处理是计算机科学领域与人工智能领域中的一个重要的方向,它能实现人与计算机之间用自然语言进行有效沟通的各种理论和方法。机器学习是自然语言处理研究的一个分支,而此研究的前提是具有一个大规模的英汉语料库。由于含有未登录词的英汉双语句对齐语料库相对贫乏,导致了机器翻译的非专业性以及不平衡性,这就是本文所研究的问题所在。本文的目的是设计并实现一个基于长度的英汉双语句对齐的系统,这个系统能够将英汉双语段对齐的文本具体到句对齐。本文的研究内容主要分为以下几个部分:首先,设计双语句对齐的评价函数,并以此为基础设计基于长度的双语句对齐算法和最优句对序列搜索算法。本文中选定中国知网(CNKI)作为英汉双语候选网站,下载英汉双语网页,对所下载页面进行分析后,去除网页标签等非文本内容,并存储双语文本信息,从而建立了基于段对齐的英汉双语语料库,并保留网页中英汉双语关键词。其次,从星际译王此款软件中提取词典,将原来的词典格式进行分析,转换成自定义的词典格式,方便双语句对齐系统更好的使用,将上一步中提取的英汉双语关键字也一并放入词典中,这样有助于扩大词典的数量、增加词汇的专业性。最后,提取已建立语料中的英文单词的词干,简化英文单词处理复杂度,也减少单词词性转换带来的噪声,并且提高运行效率。实现了基于长度的双语句对齐系统。最后调整系统参数进行对比实验,检验系统性能。