面向互联网新闻的汉语—泰语双语语料挖掘方法研究

来源 :昆明理工大学 | 被引量 : 0次 | 上传用户:lyh993
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
机器翻译和跨语言信息处理技术的发展都需要大规模高质量的双语语料库资源。但是,目前公开通用的双语语料库很少,尤其是使用人数较少的低密度语言。如何自动获取大量的双语语料是众多语料挖掘方面的科研工作者要钻研和解决的热点问题。近些年,随着世界经济一体化,互联网得到迅猛的发展,数以万计的新闻网页中存在大量可被挖掘的双语资源。所以,面向互联网新闻的双语语料挖掘研究已成为自然语言处理过程中的重点研究课题。分析完双语语料挖掘研究现状,本文以互联网双语新闻网页为挖掘资源,进行了汉泰双语可比语料库相关技术方面的研究工作:汉泰双语可比语料库的构建、基于汉泰可比语料库的平行句对抽取、基于汉泰可比语料库的命名实体互译对抽取。具体内容如下:(1)汉泰双语可比语料库的构建。本文汉泰可比语料库构建是以关键词抽取和双语文档相似度计算作为主要研究点。针对当前关键词抽取技术在文本主题的全面性上表达不足,本文提出一种词频逆主题频率的关键词提取方法。此方法首先训练双语主题模型,计算词汇对主题的权值。然后,计算词汇对文档的权值。最后,合并候选关键词。下一步用汉泰双语字典把关键词翻译成泰语并提交到搜索引擎,找到对应的泰语文档,并构成候选可比文档对。然后,计算候选可比文档对的相似度,筛选相似度高的文档对构成可比文档集合。实验结果表明本文抽取关键词的准确率比较高,进而找到相似度高的可比文档。(2)基于汉泰可比语料库的平行句对抽取。本文把平行句对抽取问题看成是二分类问题。首先,同一主题下的可比文档对通过笛卡尔积方式生成所有可能的平行句对。然后,根据句子长度比以及互译词个数进行筛选得到候选平行句对。最后,通过选取的汉泰句对特征和平行句对训练分类器,对候选平行句对识别。实验证明本文选取的特征可以更好的训练分类器,提高平行句对识别准确率。(3)基于汉泰可比语料库的命名实体互译对抽取。本文提出融合多特征的汉语泰语命名实体互译对抽取方法。首先,分别从汉语文档集和泰语文档集中抽出命名实体。然后,计算不同特征值下候选命名实体互译对的相似度。最后,采用分类器对候选命名实体对分类。
其他文献
选择活泼好动、没有受伤的鱼,购鱼时,要选购动作活泼且有精神的鱼,不要选躲在角落里的鱼,要查看鱼体有没有受伤,尤其要查看尾鳍和脊椎是否破损,如果只是鱼鳍尖端轻徽的伤则无关系。
设计并精密制作了电泳芯片电化学安培检测池和聚甲基丙烯酸甲酯电泳芯片插入式集成检测系统.采用柱端安培检测模式,以多巴胺和儿茶酚为检测模式物,对该系统的各项分离检测性
对于人的一生来说,每个人经历一段人生旅程后,都会在心里留下些难忘的眷恋;有人眷恋流光溢彩的大都市;有人眷恋名川大山;有人眷恋琴棋书画……若要问我眷恋什么?我会不假思索地告
随着集约化水产养殖模式的不断推广,水产饲料在水产养殖过程中所发挥的作用也越来越重要,饲料投喂技术也成为一大关键制约因素受到养殖户的重视。一些养殖户由于不能正确掌握