【摘 要】
:
统计机器翻译系统由规模较大、领域混杂的平行语料训练获得,当训练数据和测试数据领域分布不一致时,其翻译质量往往较低。针对这一问题,提出了一种基于语义分布相似度的翻译模型领域自适应方法。该方法首先获得目标领域源语言端和目标语言端的词向量,并构建二者之间的映射关系。借助这一映射关系,获取源语言单词在目标语言端的语义k近邻词,然后基于该语义k近邻词在通用领域语义空间的分布,计算双语短语在目标领域下的翻译相
【机 构】
:
苏州大学江苏省计算机信息处理重点实验室
【基金项目】
:
国家自然科学基金资助项目(61373097,61272259,61272260);
论文部分内容阅读
统计机器翻译系统由规模较大、领域混杂的平行语料训练获得,当训练数据和测试数据领域分布不一致时,其翻译质量往往较低。针对这一问题,提出了一种基于语义分布相似度的翻译模型领域自适应方法。该方法首先获得目标领域源语言端和目标语言端的词向量,并构建二者之间的映射关系。借助这一映射关系,获取源语言单词在目标语言端的语义k近邻词,然后基于该语义k近邻词在通用领域语义空间的分布,计算双语短语在目标领域下的翻译相似度,并作为新特征加入解码器,以此提升通用翻译模型的领域自适应能力。实验结果表明,相比于基准系统,利用本文所提方法优化后的翻译系统在英汉翻译任务新闻领域测试集和科技领域测试集上,分别获得0.67和0.56个BLEU值的性能提升。
其他文献
企业在参与市场经营的过程中,各个主体主要以合同的形式来完成相关的经济业务活动。企业随着经营规模的不断壮大,遇到的合同的数量、种类越来越多,复杂程度也越来越深,如何做好企业的合同管理、建立合同管理制度,是现代企业内控制度建设的重要内容。本文主要从财务角度出发,分析合同管理中财务管控的重要性,以及财务管控在合同管理中可能存在的问题,并对这些问题提出几点建议,以期对企业合同管理方面的财务管控工作起到一定
应急管理部门档案是指在应急事件管理过程中形成的各种原始记录的总称。在实践中,应急管理部门档案从应急或突发类型进行多角度分析,使应急管理部门档案具有决策咨询、评估依据及科研助手等用途。随着应急管理部门新组建,整合、收集及建立专题档案已刻不容缓。
这篇文章讨论了在中国社会科学院语言研究所研制的系列英汉机器翻译系统中采用的语言模型、翻译策略、算法和系统运行机制,以及它们在计算机上的实现方法.
无人机倾斜摄影测量技术实际上是以三维建模技术为主要应用的高新测绘技术,采用高精度、高效率,一体化全自动建模技术,成为当前地理信息采集与三维场景构建的重要技术手段。在城市发展规划中,能为城市实景三维建模提供新的技术方向,在助力城市整体空间数据的搭建上起到至关重要的作用。近些年,无人机倾斜摄影测量技术是应用最多及最广的测绘高新技术,它能从大范围内更多角度高精准、高效率的尽可能采集到更多影像数据,
本文借用鲍曼世界音乐研究方法,从跨文化对话视角剖析张维良中国民乐创新之路,为中国民乐发展与世界音乐研究提供一种参照与启示。
转型时代中国司法的定位问题实质上是转型时代中国司法与外部社会间的基本关系问题。从司法与外部社会间的沟通关系看,应将转型时代中国司法定位为一种"制度性、累积性、平和可控的有计划社会变迁工具"。其中,制度性是指司法与体制外的、非官方的、非系统性的社会变迁策略之区别;累积性是指司法只应当也只可能"以司法的方式"促成社会转型;"平和可控"是指司法促成社会转型所具有的避免转型动荡、降低转型风险之优势。证成中
上班时,大家都紧盯着电脑屏幕,一上午忙下来,同事们不是说自己近视加重了,就是喊自己提前患老花眼了。眼睛是心灵的窗户,大家都想好好呵护它,所以午休时间,大家群策群力,纷纷献出了自己呵护眼睛的小宝典。同事小张说,用冰敷眼贴缓解眼部不适效果特别好。同事小王听后立即反驳,说她用热敷眼罩效果更好。冷敷、热敷,到底哪种效果更好呢?