论文部分内容阅读
随着中文信息处理技术的迅猛发展,人们对汉字的信息化需求日益增加。在信息化系统中汉字用一个编码代替,可以实现信息的记录、检索等各种功能。但是,对于汉字本身的信息处理(如汉字的结构、两个汉字的异同)还没有一个较好的、系统的方法。例如,要想把一个没有编码的汉字字形描述清楚,目前只能用图形图像来描述,没有一种能比较全面、准确描述汉字的方法。
但是,随着信息技术的发展,汉字研究领域(汉字搜集整理、字库制作等)需要有一种准确的描述汉字的方法来支持信息时代的汉字研究。现在,ISO/IEC10646字符编码标准中收录的汉字超过七万,加上IRG(表意文字工作组)正在整理的汉字,总数已超过十万;2007年新闻出版总署筹划的“中华字库”项目,专家组调研后预计汉字数量将超过25万。这些汉字的收录和整理还是靠专家记忆和辅助工具人工查重,随着字数的不断增加,这将成为一项繁重的工作。此外,冷僻字(尚未编码的字)的记录、传输、检索等都需要一种能准确描述汉字构形的方法。
本文在分析了现有的汉字构形研究成果的基础上,利用能够得到汉字内部结构信息的优势,结合轮廓字字库和汉字的特征,提出一种基于XML的汉字构形描述方法——GDL(Glyph Description Language),从字库中获取构形特征,并设计实现了构形分析系统和字形查重工具,实现了对字形的描述和查重功能。
GDL比CDL多了五个特征:汉字的连通数、欧拉数、笔画相对长度\宽度、四向码和笔画轮廓编码。构形分析系统根据轮廓字的特点,通过图像处理、特征提取、匹配分类的方法,对字库进行自动分析并生成汉字的构形描述,得到构形描述信息库。用户通过字形查重工具提供的图形界面拼写汉字,工具自动计算并生成该字的构形描述信息,与构形信息库中的字形进行比较和认定。
实验在含有字形结构信息的方正宋体轮廓字库的基础上,通过对GB2312-80的6763个汉字提取构形信息,组织成三层的XML构形描述信息库,并通过查重工具对此信息库进行验证和扩充。实验结果实现了字形的查重功能,表明该构形描述表达方法在一定规模字数范围内基本可以满足汉字同一性认定的要求。该方法为相关汉字处理程序提供了较详细的汉字构形信息,可以减少汉字自动处理过程中的工作量,为大批量的自动获取汉字构形描述提供了参考。