论文部分内容阅读
由于历史的原因导致了海峡两岸四地存在一简一繁两种文字制度。近年来海峡两岸日趋广泛和深入的交流与合作,导致了对简繁转换系统的迫切需求,现有的简繁转换系统都存在这样或者那样的问题,不能满足正式文档简繁转换的需求。
本文围绕一个基于上下文的简繁转换系统的实现,主要做了如下工作:
第一,详细分析了简繁转换中涉及的编码、单字、词语等各方面存在的问题,分析了简繁转换的复杂性所在。提出了在Unicode基本多文种平面内完成简繁转换,并包括对BMP平面内非兼容区的所有汉字的简繁转换的支持。指出了多目标字词的存在导致了简繁转换的复杂性。
第二,指出了规范的中文分词将导致上下文信息的丢失,从而无法充分利用上下文信息保证简繁转换的正确性。提出了以词语转换消除单字转换歧义、以长词转换消除短词转换的歧义的转换策略。
第三,提出了简繁转换中单字转换与词语转换的协作。分析了部分多目标字的某些目标字只在个别或者少数词中使用的情况,当在词语转换中收录了这些词语以后,就可以将这个单字当作单目标字处理。
第四,提出了简繁转换正确性评估的方法。根据分级结果在输出时实行区别显示,使用户能够方便地找到哪些字词可能出现了错误,以便有针对性地进行校对。
第五,提出了将命名实体识别、搭配关系、词性标注等技术应用到简繁转换系统中,保证转换结果符合用户的需求,并保证系统转换的正确率。
第六,实现了基于上下文的简繁转换系统并给出了测试结果。