论文部分内容阅读
随着科学技术的发展,文字识别成为了日常生活中使用最为频繁的技术,特别是在图书馆、报社等地方。为节省成本,大量的图书、报纸和杂志等文本文档要以电子文档的形式进行存储。借助于不断更新换代的电子设备产品和技术,在对图书馆中的图书、期刊,报社的报纸、杂志或以图片形式保存的文字等进行OCR(Optical Character Recognition,光学字符识别)成为了实现智能输入的重要环节,不仅提高了行事效率又节省了成本开支。利用OCR技术进行文字信息识别时,只需要将文字载体制作成图片形式进行保存,进而输入到文字识别系统里即可。随着信息时代的发展,各国语言字体精确、快速地被成功识别成为了计算机科学领域的重要课题之一。因为要用到OCR技术对文字进行识别操作,所以原始文字图片的获取是文字可以被精确识别的一个重要因素。最为理想的图像采集设备是扫描仪,它不仅能保证图像没有任何背景并且还可以确保图像正面成像。但是扫描仪却不是生活中常具备的,多数情况下是使用手机摄像头进行文字图像的拍摄,虽然方便,但是这样拍摄出来的图像质量比较低,会出现一些不可预测的问题,比如不均匀的光线造成的失真,相机对焦不准确造成的图像模糊等。为了解决这些问题,论文首先对图像做了一系列的预处理工作,如图像二值化、锐化增强处理、去噪、矫正等。图像预处理过程是确保文字被正确识别的一个重要因素,同时也是训练自定义字符库时,常见文字被覆盖全面的重要保证。然后是Tesseract引擎源码的研究和使用,通过对源码的研究,更深层次研究文字识别的原理和流程。针对如何训练自定义字符库及训练过程的优化进行研究,并结合自定义的训练库实现文字识别系统。最后基于对图像处理的研究、C++11的应用以及tesseract引擎的研究对文字识别的整个过程进行封装,并使用MFC应用程序框架在VS2015环境下开发一款可视化界面工具,实现文字识别操作的整个流程。同时,对这个可视化工具进行了严格的黑盒、性能等测试工作,验证工具的健壮性和稳定性。