相信很多战友在收集素材的过程中,会积累到一些含有文字的图片资料。这张图片也许是制作很精美的一首诗,也许是手机拍的一段重要文字……在我们写作的时候,想要用这些图片中的文字,通常就会照着图片手打一遍。这样做会花很多时间,而且也容易出错。
如何很快地将图片中的文字复制出来,以文本形式导出呢?
OCR软件很好地解决了这个问题。
OCR的英文全称是Optical character recognition,直译过来就是光学字符识别。更加详细的介绍在百度和谷歌上有很多,作为处理素材的我们,最好的方式还是先用起来。这里粽子君会介绍3款OCR软件,希望战友在处理图片素材的时候能提高效率。
一、 微软的Onenote
在遇到Onenote之前,粽子君应对图片里面文字的办法,就是照着图片打一遍。当时会安慰自己,这样还可以加深一些印象呢。当我第一次用Onenote把图片中那么长的文字几秒钟导出来,对于微软顿时充满敬意。后来再遇到图片,主要就是用Onenote来处理了
具体的操作方法非常简单:
1.导入图片
操作方法和在word中一样,只要将图片复制后直接在里面粘贴就好了。
这里注意的是,最好将图片预先剪切一下,去除掉无用的信息,否则会影响识别的效果。
2.复制图片到文本
将光标移动到图片位置,右击鼠标,在出现的菜单中选择“复制图片到文本(E)”
3.导出文本
新建一个文本文件(比如这里用了印象笔记文件),粘贴上去即可
从图片③可以看到,此次导出的文本没有错别字。唯一的问题是格式多了许多原先没有的换行符,看起来就是分了很多段,只要把这些换行符删掉就好了。
那么处理纸质书拍照的结果如何呢?
下面是手机拍的吴军老师《智能时代》的一页,上面还加了标记和下划线。
从导出结果看:
(1) 圆框圈中的一段没有出现错别字
(2)手写的五角星和下划线没有产生任何影响
(3)每两行文字之间有一个空行,需去除
之所一个将Onenote放在第一来写,因为它有如下几个好处:
a.操作简单(包含在Office套餐里,无需另外安装)
b.导入图片方便而且很快
c.识别速度极快
d.文本导出方便
当然它也存在如下缺点:
a.对于复杂图片识别率较低(比如思维导图)
b.没有段落划分的问题
如果使用的目的仅仅是写作素材的收集和处理的话,Onenote基本是够用了。所以,这是粽子最常用的,也是这里最推荐的一款软件。
最后要说到版本问题,这里粽子用的是Office 2016版的,不过看网上的介绍从Office 2007就可以实现这个功能了。当然,有些战友出于各种原因没有使用Onenote的,有没有其他方法呢?当然是有的,下面就介绍2款。
二、万能扫描王
万能扫描王就是CamScanner,它的强大在于它的扫描功能,通过拍照可以很好地将任何文字或者图形保存为PDF格式的文件。
也许有些战友还不知道它也有很好用的OCR功能。
这里粽子还是用之前的两张图片来进行演示,具体步骤如下:
1.图片导入
从手机客户端上传这个图片,保存后就会上传到云端,这样就可以在网页版中打开。
2.文字识别
由于这个软件没有PC版,在电脑上处理需要打开网络版的扫描王。在里面找到上传的文件并打开,点击右下方的OCR选项,会即刻得到识别的结果:
3.导出文本
从识别结果可以看出,里面有很多原先没有的“< br >”字符,这个在手机客户端里面就是换行符。需要做的就是直接将整个文本复制到word里,将“< br >”字符整体删除掉。结果如下:
用同样的方法对手机拍照的照片进行处理,结果如下:
从最终结果可以看到,会出现几个明显的错误(还出现了日文),但准确率还可以接受的。对照图片将错误的地方改正,会比直接手抄快很多。
这里要注明的是,万能扫描王的OCR功能是要付费的,一个月30元左右。不过好消息是,第一次用手机安装注册后,会自动拥有三个月的免费使用权限。所以,可以有三个月的时间决定是否需要这个软件。下面贴上下载链接:
三、Abbyy Finereader
最后介绍的这一款,可以说是OCR里面最好的软件,官网上介绍的识别准确率为99.8%,关于它的褒奖,可以浏览知乎上OCR相关问题排名第一的回答:
相对于前两款软件,这款软件更加专业化,可以直接根据图片文件导出Excel表格,这是Onenote和万能扫描王不能比的。
也正因为如此,这款软件也不便宜。目前官网上最普通的版本,也要¥508。好在这款软件可以直接在官网下载试用,第一个月是免费试用的,粽子君就处在试用阶段~
如上是软件下载的网站,软件的安装很方便,只要按照指引一步步装就好了。下面主要谈谈使用效果:
1.导入图片
这里先点击文件后,点击在OCR编辑器中打开:
2.图片识别
选择好图片,确认后,就会自动开始识别:
很多次扫描完后,都会出现以下这个提示,根据这个提示调整分辨率后可以提高识别的准确率:
这里还要注意一点的是,一定要根据目标内容选定好语言,这一点对于识别的准确性有很大的影响。
3.识别文本处理
大概十几秒钟会得到识别的结果,在“查看”里面选择“仅显示文字面板”,可以看到此次识别得出的完整文本:
中间用红框标注的部分就是识别完成后的文本,可以看出,不仅没有出现错误,而且很好地保持了原有的分段。
用同样的方法,对手机照片的处理结果如下:
由于该内容较长,通过右上方的“发送到Word”选项,在word中进行处理,结果如下:
可以看出,Abbyy可以很好的保持照片的原貌,甚至粽子当时画的五角星都保存了下来。不过同时,自己画的下划线对识别结果产生了一定的影响,造成了一些多余的点和线条。除去划线部分产生的影响,Abbyy扫描结果没有出现错别字。
这里也可以看出,Abbyy识别的敏感性更强,对许多细微的信息都能很好地捕捉到。如果对于识别能力有较高要求的话,这个软件是必须推荐的。
这里就是粽子介绍的三款OCR软件,希望对大家有用!