【摘 要】
:
[目的]文档图像是一类广泛存在且具有重要应用价值的数据。从文档图像中检测文字并转化为计算机内码(电子文本)是文档识别的主要目标。自上世纪50年代以来,文档识别(又称文字识别,OCR)的研究和应用取得了巨大的进展。本文为科研人员和工程人员提供一个比较全面的文档图像识别技术总体介绍,便于大家开展技术创新和技术应用。[方法]本文在介绍文档识别应用背景的基础上,对该领域历史上主要方法进行回顾,对当前技术状
【机 构】
:
中国科学院自动化研究所,模式识别国家重点实验室,北京 100190中国科学院大学,人工智能学院,北京 100049;中国科学院脑科学与智能技术卓越创新中心,北京 100190;