基于上下文的汉字简繁转换系统的实现

来源 :中国科学院软件研究所 | 被引量 : 0次 | 上传用户:wanyuequn
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
由于历史的原因导致了海峡两岸四地存在一简一繁两种文字制度。近年来海峡两岸日趋广泛和深入的交流与合作,导致了对简繁转换系统的迫切需求,现有的简繁转换系统都存在这样或者那样的问题,不能满足正式文档简繁转换的需求。   本文围绕一个基于上下文的简繁转换系统的实现,主要做了如下工作:   第一,详细分析了简繁转换中涉及的编码、单字、词语等各方面存在的问题,分析了简繁转换的复杂性所在。提出了在Unicode基本多文种平面内完成简繁转换,并包括对BMP平面内非兼容区的所有汉字的简繁转换的支持。指出了多目标字词的存在导致了简繁转换的复杂性。   第二,指出了规范的中文分词将导致上下文信息的丢失,从而无法充分利用上下文信息保证简繁转换的正确性。提出了以词语转换消除单字转换歧义、以长词转换消除短词转换的歧义的转换策略。   第三,提出了简繁转换中单字转换与词语转换的协作。分析了部分多目标字的某些目标字只在个别或者少数词中使用的情况,当在词语转换中收录了这些词语以后,就可以将这个单字当作单目标字处理。   第四,提出了简繁转换正确性评估的方法。根据分级结果在输出时实行区别显示,使用户能够方便地找到哪些字词可能出现了错误,以便有针对性地进行校对。   第五,提出了将命名实体识别、搭配关系、词性标注等技术应用到简繁转换系统中,保证转换结果符合用户的需求,并保证系统转换的正确率。   第六,实现了基于上下文的简繁转换系统并给出了测试结果。
其他文献
真实感渲染技术是当今计算机图形学关注的一个热点,它被广泛地应用于电影制作、室内设计、工业展示等领域。路径跟踪算法是真实感渲染中一个重要的算法,它可以模拟真实场景中所
手机芯片检测技术是手机生产中的重要一环。对大批量手机芯片的检测不仅需要硬件设备的支持,还需要相应的软件平台的支持。然而,中国大陆的手机芯片检测技术比较落后,基本上
数据库压缩是一种常用的提升关系数据库性能和节省存储空间的技术。MySQL数据库几乎是应用最为广泛的开源数据库,针对目前MySQL数据库存在的磁盘访问密集且CPU利用率不足的情
数据挖掘技术是当前计算机技术的研究热点之一。当前的数据挖掘研究主要在命题逻辑的框架内,存在描述能力弱和不便于利用背景知识的局限性。而且,这些方法多采用单表假设,算法寻
本文阐述了基于Freescale HCS08的嵌入式系统实验平台的研究背景、软硬件设计及其实现方法。首先介绍了本课题的研究背景以及本论文将要完成的工作。随着嵌入式应用技术的迅
计算机群集是一种把多台计算机组织起来,通过统一的资源整合与任务调度,模拟成一台功能更为强大的机器,通过分布式计算来协同完成各种任务的技术。随着计算机硬件性能的提高,群集
信息隐藏是保密通信研究的核心领域,它的目的是隐敝重要信息,不让人察觉到重要信息的存在。信息隐藏的实质就是将一块信息隐藏于另一块信息。对于图像信息隐藏,最关心的问题是使
学位
体育视频摘要技术是近年来多媒体领域内的一个研究热点,它有着巨大的应用前景,是许多新型视频应用技术的关键和基础。体育视频摘要技术具有广泛的应用前景,如视频检索,视频点播,视
学位
以图像格式出现垃圾邮件是新近出现的一种垃圾邮件的表现形式,甄别这样的垃圾邮件是一项难度较大,而极具意义的研究课题,它涉及到图像处理、模式识别、计算机视觉、人工智能等多
协同计算是指计算机技术支持的环境中,一个群体通过协同开展的广义计算活动来解决某个复杂问题的过程,它的有效开展在一定程度上依赖于协同理论和技术。作为一种实现过程自动化