论文部分内容阅读
机器翻译和跨语言信息处理技术的发展都需要大规模高质量的双语语料库资源。但是,目前公开通用的双语语料库很少,尤其是使用人数较少的低密度语言。如何自动获取大量的双语语料是众多语料挖掘方面的科研工作者要钻研和解决的热点问题。近些年,随着世界经济一体化,互联网得到迅猛的发展,数以万计的新闻网页中存在大量可被挖掘的双语资源。所以,面向互联网新闻的双语语料挖掘研究已成为自然语言处理过程中的重点研究课题。分析完双语语料挖掘研究现状,本文以互联网双语新闻网页为挖掘资源,进行了汉泰双语可比语料库相关技术方面的研究工作:汉泰双语可比语料库的构建、基于汉泰可比语料库的平行句对抽取、基于汉泰可比语料库的命名实体互译对抽取。具体内容如下:(1)汉泰双语可比语料库的构建。本文汉泰可比语料库构建是以关键词抽取和双语文档相似度计算作为主要研究点。针对当前关键词抽取技术在文本主题的全面性上表达不足,本文提出一种词频逆主题频率的关键词提取方法。此方法首先训练双语主题模型,计算词汇对主题的权值。然后,计算词汇对文档的权值。最后,合并候选关键词。下一步用汉泰双语字典把关键词翻译成泰语并提交到搜索引擎,找到对应的泰语文档,并构成候选可比文档对。然后,计算候选可比文档对的相似度,筛选相似度高的文档对构成可比文档集合。实验结果表明本文抽取关键词的准确率比较高,进而找到相似度高的可比文档。(2)基于汉泰可比语料库的平行句对抽取。本文把平行句对抽取问题看成是二分类问题。首先,同一主题下的可比文档对通过笛卡尔积方式生成所有可能的平行句对。然后,根据句子长度比以及互译词个数进行筛选得到候选平行句对。最后,通过选取的汉泰句对特征和平行句对训练分类器,对候选平行句对识别。实验证明本文选取的特征可以更好的训练分类器,提高平行句对识别准确率。(3)基于汉泰可比语料库的命名实体互译对抽取。本文提出融合多特征的汉语泰语命名实体互译对抽取方法。首先,分别从汉语文档集和泰语文档集中抽出命名实体。然后,计算不同特征值下候选命名实体互译对的相似度。最后,采用分类器对候选命名实体对分类。