超大字库及其相关技术的研制

来源 :中国中文信息学会中文信息处理技术研讨会 | 被引量 : 0次 | 上传用户:danfengtaoyang
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
自计算机发明以来,汉字集合的选择、组织形式、特别是汉字编码问题,曾长期困扰着中文信息科技的发展.直到八十年代初,正式确立的中文简体字国家标准(GB2312)后,中文信息才有了统一的交换平台,应用软件也才得以蓬勃发展.但是,由于硬、软件环境的限制,以及编码工作本身的复杂性,虽然继GB2312标准之后推出了扩展标准(GBK)和GB18030,但常规的应用软件只能处理2万多个汉字,即使普通人在使用电脑时都可能遇到一些生僻字无法处理,比如人名、地名以及一些专用名词,而面对浩如烟海的中华古籍,2万余字的处理能力远远不够,长久以来一直让编纂辞书、整理古籍的专业人士扼腕痛惜.为了让源远流长的华夏文明能够凭借先进的计算机技术发扬光大,我们研制了超大字库及其相关的应用技术,不仅彻底解决了大量汉字的编码、显示问题,还经过长期积累,探索出超大字库录入的全新方法,并配备了排版、检索等工具.在中文信息处理方面为专业出版单位开拓了更为广阔的应用领域.近年来,该成果已不仅成功应用于古籍、辞书的编排与印刷,而且在医疗保险、户籍管理和历史档案的检索等方面,建立起了高水信的应用系统.
其他文献
藏文字符集标准发布较晚,导致目前使用的藏文编码多种多样.本文按编码所属体系分类介绍了26种藏文编码,讨论了藏文编码转换中的关键问题,介绍了藏文结构特点和统计学特征,介
本文叙述了25年来中国藏语信息处理领域有关藏语文本及电子词典工作的发展过程以及目前的进展状况.叙述的内容有藏语文本统计计算和熵值计算研究,有藏语资源和词典构建讨论,
观察1形码、2拼音、3声形、4手写、5语音这五种类型汉字键盘输入法的发展状况来看,作者分析其前景、最终将由语音法来统一天下,理由是客观的需求所决定.
本技术根据汉字起源于象形文字,经指事、象形、形声、会意、转注和假借而发展演化、始终具有"形声相益"的特性,以汉语言文字中能独立存在和运用的单字、双字、三字及四字以上
本文定义和描述了汉字编码理论模式,并对三种规范编码模式的优缺点进行了分析.本文还对汉字编码的评测提出了新思路,并探讨了汉字编码的发展方向.
本文首先阐明了为什么要开展适应中小学教学用的编码研究,较详细的说明适应中小学教学用的汉字编码的特点.强调汉字编码应符合国家语言文字的有关标准和规范,最后指出汉字键
元根码是为解决汉字和特殊字符的信息化书写问题,在发展了汉字编码理论的基础上开发的新一代汉字输入方法.元根码立足于汉字博大精深的文化底蕴,依据国家语言文字规范,选定15
由于CAD软件的特殊性,点阵字库和曲线轮廓字库都不是合适的字体格式,本文将介绍一种专门为CAD软件系统设计、开发的一种字库技术—单线字库.
《华升汉字编码》简称《华升码》,是一种以阿拉伯数字为代码的,在《四角号码》基础上发展起来的汉字编码系统,编码的依据是汉字部首和字根,以产生单字或字组的代码、输入/输
本文首先回顾了中文输入法的三个阶段,提出对评价输入法应本着简单化、数字化、规范化的客观标准实事求是地衡量各种输入法的优劣.同时介绍了蓝联数码输入法.