一种基于XML的汉字构形描述方法的研究与实现

来源 :北京大学 | 被引量 : 0次 | 上传用户:hebeihuazi
下载到本地 , 更方便阅读
声明 : 本文档内容版权归属内容提供方 , 如果您对本文有版权争议 , 可与客服联系进行内容授权或下架
论文部分内容阅读
随着中文信息处理技术的迅猛发展,人们对汉字的信息化需求日益增加。在信息化系统中汉字用一个编码代替,可以实现信息的记录、检索等各种功能。但是,对于汉字本身的信息处理(如汉字的结构、两个汉字的异同)还没有一个较好的、系统的方法。例如,要想把一个没有编码的汉字字形描述清楚,目前只能用图形图像来描述,没有一种能比较全面、准确描述汉字的方法。   但是,随着信息技术的发展,汉字研究领域(汉字搜集整理、字库制作等)需要有一种准确的描述汉字的方法来支持信息时代的汉字研究。现在,ISO/IEC10646字符编码标准中收录的汉字超过七万,加上IRG(表意文字工作组)正在整理的汉字,总数已超过十万;2007年新闻出版总署筹划的“中华字库”项目,专家组调研后预计汉字数量将超过25万。这些汉字的收录和整理还是靠专家记忆和辅助工具人工查重,随着字数的不断增加,这将成为一项繁重的工作。此外,冷僻字(尚未编码的字)的记录、传输、检索等都需要一种能准确描述汉字构形的方法。   本文在分析了现有的汉字构形研究成果的基础上,利用能够得到汉字内部结构信息的优势,结合轮廓字字库和汉字的特征,提出一种基于XML的汉字构形描述方法——GDL(Glyph Description Language),从字库中获取构形特征,并设计实现了构形分析系统和字形查重工具,实现了对字形的描述和查重功能。   GDL比CDL多了五个特征:汉字的连通数、欧拉数、笔画相对长度\宽度、四向码和笔画轮廓编码。构形分析系统根据轮廓字的特点,通过图像处理、特征提取、匹配分类的方法,对字库进行自动分析并生成汉字的构形描述,得到构形描述信息库。用户通过字形查重工具提供的图形界面拼写汉字,工具自动计算并生成该字的构形描述信息,与构形信息库中的字形进行比较和认定。   实验在含有字形结构信息的方正宋体轮廓字库的基础上,通过对GB2312-80的6763个汉字提取构形信息,组织成三层的XML构形描述信息库,并通过查重工具对此信息库进行验证和扩充。实验结果实现了字形的查重功能,表明该构形描述表达方法在一定规模字数范围内基本可以满足汉字同一性认定的要求。该方法为相关汉字处理程序提供了较详细的汉字构形信息,可以减少汉字自动处理过程中的工作量,为大批量的自动获取汉字构形描述提供了参考。
其他文献
区块链技术在2008年出现,在近10年的发展应用过程中,区块链技术在数字货币、医疗、保险、数据存证领域应用广泛。在去中心化的、无信任的网络中,可靠的传递价值与信任是区块链带
无线传感器网络因具备获取和传输工作区域内目标信息的能力受到越来越多的关注与应用。拓扑控制为各节点选择适当的邻居节点,有效地降低了网络的通信能耗以延长网络的生存时
RFID即射频识别技术是一项正在蓬勃发展中的技术。RFID技术通过射频信号自动识别目标对象并获取相关数据,对带有标签的目标物体进行定位和跟踪。在物流和供应管理、生产制造和
我国有不少橘园建在山坡地上,有为数不少的山地橘园没有机动车道,肥料等农资和果品的运输都是依靠人力来完成的,人工运输方式运送效率低,劳动强度大,成本高。简易的工程索道凭借其
本文从网页质量的角度出发,以用户的浏览体验为依据,构建了网页质量评估模型。文章使用TREC的GOV2作为实验的数据源,构建GOV2上的检索系统作为实验平台,检索系统的构造包括DOM树
猪舍是猪只活动的场所,为猪只提供适宜的舍内环境,能充分发挥猪只生产潜力和保证猪只的健康生长。但是长期以来,国内的猪舍环境监控方式仍以人工为主,这种传统的监控方式具有自动
当前,对业务流程管理的重视正在影响着信息系统的构建方式。业务流程模型在信息系统构建中的地位越来越重要,同时数据模型描述了业务数据,是信息系统重要的结构模型。在很多情况
维基百科是一个自由免费、内容开放的百科全书协作计划,目前发展极为迅速。它作为人工参与构建的数据,用户参与程度高,质量好,规模大,已经成为用户检索的重要信息来源。现有的对百
随着处理器频率的提高,处理器与存储系统之间的性能差异越来越大。存储层次的设计,成为计算机系统设计中的重要研究对象。现代微处理器通常使用MMU来对内存空间进行管理。如何
目前,关于数据流系统的研究在传感器网络、金融分析、网络流量监测等领域有着大量应用。而针对数据流本身快速、连续、时变、瞬时等特性,如何为数据流管理系统设计一个具有自适