论文部分内容阅读
该文是在作者主持国家自然科学基金项目《基于汉字字形西夏文字信息处理》(No.69863002)课题基础上,对手写西夏字识别进行了系统的研究.该文所完成的主要工作和创新点如下:1.对西夏字的字量、字形、字义等属性进行了系统的分析,为西夏文字的信息处理 研究作了基本的理论铺垫.对西夏字I/O处理的数学模型进行研究,有助于西 夏文字信息处理系统数学模型的建立,有益于讨论西夏字I/O模块的结构、效 率和性能,并能进一步研究它们的规范化和标准化问题.2.对西夏字字形进行了结构分析、统计分析,还对其字形树结构进行了详细描述. 就西夏文字、汉字的混合编辑排版系统进行了深入的研究.提出的西夏文字四角号码输入方法的实施方案,解决了西夏字的键盘输入技术.同时还解决了西夏字字形的存储、显示和打印等问题,研制的夏汉混合编辑系统可用于西夏字、汉字的混合编辑、排版和印刷.3.对手写西夏字识别预处理进行了系统的探讨,其中包括二值化、西夏字的细化及平滑处理、版面的倾斜校正、西夏字的规范化处理以及西夏字文本的切分算法等问题.4.对西夏字的统计特征和结构特征进行了详细的研究和系统分析,提出了西夏字特征解决办法.5.将神经网络技术和传统的模式识别技术相结合,在第一级识别,系统采用了粗外围特征、粗网格特征、笔划密度特征和投影Walsh特征,对6000个西夏字进行了特征提取,取得了87.77﹪的识别率;在第二级识别,系统又设计了网格象素分布特征、轮廓方向特征、方向距离分布特征等三种互补的特征对相似的西夏字进行了再识别,取得了88.27﹪的识别率,提高了整体识别率.两级集成识别中提取到的特征中既包含有统计信息,又包含有西夏字的结构信息,各特征相互独立,具有一定的互补性.实验证明:走多种特征互补组合及多方案集成的道路,是提高识别率,使像汉字、西夏字这样的复杂文字识别走向实用化的有效途径.对笔划复杂的西夏字识别,不但要采用多种特征组合,还要避免特征维数过高,要采用适当的降维技术,即提高识别率也不影响神经网络收敛速度.