一个基于多代码页的中文屏幕实时解释引擎的设计

来源 :中文信息学报 | 被引量 : 0次 | 上传用户:bright202
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
目前,在计算机中汉字有多种代码页,汉字的多代码页并存现象将长期存在.为了实现汉字多代码页并存,需要汉字代码页自动识别技术的支撑.屏幕实时解释引擎是目前各种在线字典、词典以及教学软件的核心技术,此技术目前存在不能跨代码页,取词不全面、不正确等缺陷.本文主要针对以上情况,描述了采用汉字内码的代码页自动识别技术以及优化的自动屏幕取词技术的中文屏幕实时解释引擎的系统架构,并阐述了数据词典的设计以及在设计中采用的关键技术.对五百万汉字样本的测试中,应用此引擎的在线词典对有意义短字符串(不包括单字)代码页的识别率可以
其他文献
研究生成选词问题对改善机翻系统的翻译质量有重要意义,基于语义模式的选词方法是常用的选词方法,在混合选词模型也扮演了重要角色.本文针对该方法的不足,提出了语义模式自动
任何一种中文输入法的研究中都会遇到码本的处理问题.在不同的时期,由于应用需求的不同,使得码本呈现出不同的表现形式.本文首先提出了汉字码本数据库的概念,它是指能够实现
2008年末,《医改方案征求意见稿》出台。方案甫出,社会各界反响激烈,批评意见迭起。论者从不同专业角度、部门利益角度、特定阶层利益角度建言献策,慎思明见,不绝于耳,然缺乏法律论
改革开放30年来,我国高校内部管理体制不断完善,为建立现代大学制度打下了良好的基础。为了建设具有中国特色的高等教育强国,促进高校科学发展上水平,我国高校内部机构设置及运行
在多年学习、使用、翻译与参与评审几种规范IT名词集的基础上,本文将系统分析方法用于对此类名词集的定名与评价.其基本方法,一是从名词集中拆分出基础要素--名词元;二是提出
Linux系统对少数民族文字的支持需要建立在国际化机制基础上,本文在总结现有Linux国际化框架层次结构基础上,分析了X核心系统国际化的一些关键问题,并以增加藏文支持的实践为