OCR简介与个人理解
OCR,即:Optical Character Recognition ,个人谨译作“可视化字符识别”。可简单的理解为【人眼基于光学散射所见文字可以方便的被提取为电子文档,进而方便地阅读,打印,传播等】
这款技术带来的直接便利就是 :提取照片上文字、扫描“可视化文档”转换成易于处理的“普通电子文档”。
相关软件
得益于计算机技术的迅猛发展,软件层面即可简单的实现OCR基本功能。
PDFelement ,就是一款不错的软件,大家可以一试,具体操作自行谷歌、百度。
OCR发展简史
以下资料源于互动百科
OCR的概念是在1929年由德国科学家Tausheck最先提出来的,后来美国科学家Handel也提出了利用技术对文字进行识别的想法。而最早对印刷体汉字识别进行研究的是IBM公司的Casey和Nagy,1966年他们发表了第一篇关于汉字识别的文章,采用了模板匹配法识别了1000个印刷体汉字。
中国在70年代末开始进行汉字识别的研究,到1986年,我国提出“863”高新科技研究计划,汉字识别的研究进入一个实质性的阶段,清华大学的丁晓青教授和中科院分别开发研究,相继推出了中文OCR产品,现为中国最领先汉字OCR技术。早期的OCR软件,由于识别率及产品化等多方面的因素,未能达到实际要求。同时,由于硬件设备成本高,运行速度慢,也没有达到实用的程度。只有个别部门,如信息部门、新闻出版单位等使用OCR软件。进入20世纪90年代以后,随着平台式扫描仪的广泛应用,以及我国信息自动化和办公自动化的普及,大大推动了OCR技术的进一步发展,使OCR的识别正确率、识别速度满足了广大用户的要求。