论文部分内容阅读
文档分析与理解在内容分析与识别、以及基于内容的检索等领域具有重要意义,一直以来受到极大关注。从图像文档中自动获取信息可以大幅度提高信息处理效率,并具有重要的应用价值。包含表格的复杂文档存在于生活的方方面面,针对这些文档的文本信息自动提取和识别具有很大的应用前景。本文以病历表图像和快递单图像为研究对象,对包含表格的复杂文档图像预处理、表格检测、文本提取等内容进行了较为深入的研究。论文的主要工作如下:(1)表格区域定位及矫正。给出了基于直线交点交角的区域定位算法,把图像中表格区域从原图像中定位分离出来,很大程度提高了后续处理的准确性和效率。之后采用透视变换算法实现图像矫正处理,克服了图像畸变对图像处理的影响。实验结果表明,该方法能较好地从复杂图像中定位并矫正表格区域。(2)表格检测。首先改进基于边缘图像的局部自适应二值化算法,使之对本文研究处理的表格图像具有良好的二值化效果。然后改进邻接图算法(Block Adjacency Graph,BAG),增强了该算法表格线检测的有效性。检测表格线之后,通过分析直线结构、表格特点,最大限度地修补缺失的表格线。实验证明该算法能够有效实现表格区域图的表格检测。(3)文本提取。完成表格检测后,改进邻接向量连接算法,补全字符的断裂笔画,从而保证了文本信息的完整性。接着根据表格线进行文本段落定位处理,最后通过分析联通部件的特征实现文本行的分割。实验表明该方法能够较好完成表格文档的文本分割、提取工作。为测试算法的有效性,本文对300幅快递单以及40幅病历文档图像进行了实验,实验结果表明了论文方法的有效性。