论文部分内容阅读
在移动互联网时代,智能手机越来越普及,手写输入方式也得到更多用户的关注。与此同时,手写输入法等相关应用也对手写文本识别技术提出了更高的要求。鉴于此,本文对手写中文文本识别方法进行研究,并针对现有技术的不足提出相应的改进措施。本文主要工作如下:1)本文收集并整理了一个手写中文单字数据库:SCUT-onHCCTest DB。该数据库书写风格多样,且包含了9798个类别(包括196个符号和785个生僻字)共45万个样本,其分为简体中文集、繁体中文集、简繁混合中文集、生僻字集和符号集等5个子集。该数据库可用于手写中文识别、手写文本切分算法等多方面的研究。2)在重叠、文本行手写模式下进行单字输入,单字可能被过切分算法误切成多个片段,最终导致识别率的下降。为此,本文提出二元类别无关几何模型来改善这种情况。实验表明,在重叠、文本行手写输入模式下,二元类别无关几何模型使得单字被误切分的概率分别由11.51%、27.68%下降到3.89%、4.40%;单字首候选正确识别率分别由90.07%、81.27%提升到93.63%、93.88%,其对应的相对错误率比例(RERR)分别达到65.61%、88.68%。实验也表明,二元类别无关几何模型优于线密度模型。3)针对传统基于文件查表方式的联想词和N-gram语言模型的局限性,本文构建了基于长短时记忆递归神经网络(Long-Short Term Memory Recurrent Neural Network,LSTM)的语言模型。通过改进,模型在SogouCA语料库上取得25.32的混乱度。实验表明,LSTM语言模型在联想词方面优于传统的方法,同时也能提升手写文本识别系统的整体性能。4)本文提出了无约束手写输入模式,实现单字、重叠、文本行手写输入三个模式的统一。其核心为两级切分网络的实现。实验结果也验证了本文方案的可行性。最后,本文将该方案应用到SCUT gPen手写输入法和慧笔手写输入法上,每天为超过8万用户提供服务。