文档扫描和识别

这是「笔记和文档」系列之六

本文结构

  • 扫描类 App 推荐
    • #1 Office Lens
    • #2 Scanbot
    • #3 扫描全能王(CamScanner)
    • #4 FineScanner
    • #5 Scanner Pro
  • Scanner Pro 使用简介
    • #1 扫描
    • #2 检查
    • #3 手动调整
    • #4 App 设置
  • OCR 类 App 推荐
    • #1 TextGrabber
    • #2 白描
    • #3 小嘿扫描
  • 白描使用简介
    • #1 页面扫描
    • #2 文字识别

有位著名的符号学家说,任何文本都是不自足的,其意义是在跟其他文本交互参照、交互指涉的过程中产生的。在吸收新信息时,很重要的一点是理清它与原有信息的关系,这有助于我们理解和记忆。

我建议用户尽量将所有信息都汇入印象笔记,借助标签系统、内部互链构建信息的网状结构,并养成汇入新信息前查询原有信息的习惯。在汇入新信息前查询笔记内的相关信息,不但使先前的记忆被巩固,还加深了对新信息的印象。

尽管纸质出版物的阅读体验更好,但进行后续的整理和转化并不方便。很多人在纸质书上所做的标记、批注,都只是随书被尘封,并不产生其他作用。

在这一点上,电子书还是方便一些,比如多看阅读就支持将批注直接导出到印象笔记:

将多看阅读里的读书批注导出到印象笔记

为了将阅读纸质书时的摘抄和随记都汇入印象笔记,只能多费些工夫来进行数字化。最好能找到书的电子版,找不到的话,只能用扫描类 App、文字识别(OCR)类 App 来分别对付图像和文字。

扫描类 App 推荐

扫描类 App 主要有以下功能:

  1. 提示拍摄的角度、距离和稳定性;
  2. 根据色差识别边缘,裁去不需要的部分;
  3. 细微变形的纠正;
  4. 调节亮度和对比度。

和备忘录一样,印象笔记 App 自带扫描功能,如果扫描文件不做其他处理,只是直接存放在笔记中,那么用自带的足够;如果用到更多功能,就需要下载专门的扫描 App。在 App Store 上 Office LensScanbot扫描全能王(CamScanner)FineScannerScanner Pro 的表现比较出色。

#1 Office Lens

极简设计,基本无法干预;能将 OCR 识别的结果导出为 Office 文档,尽量还原版面;有 Android 版。

Office Lens

#2 Scanbot

设计精美,功能强大,能自定义工作流;有 Android 版。

Scanbot

#3 扫描全能王(CamScanner)

各方面功能都不错;有 Android 版。

扫描全能王

#4 FineScanner

为扫描书籍优化,自动识别对开页,能将弯曲行拉直;OCR 功能强;有 Android 版。

FineScanner

#5 Scanner Pro

获得「编辑精选」荣誉的扫描 App,由 Readdle 推出,在 PDF Expert 中调用时,可以直接在现有 PDF 中插入页面;支持自定义工作流。

Scanner Pro

Scanner Pro 使用简介

Scanner Pro 主界面

打开 Scanner Pro,界面中间是文件列表,以缩略图的形式显示。上方有三个按钮,

  • 点左边的齿轮图标进入 App 设置界面。

  • 点中间的雷达图标可以选择相册中的照片进行处理。

    Scanner Pro 会自动识别照片该保留的区域,雷达上的红色角标表示推荐处理的照片数量;在选择界面中,照片会被加框示意保留区域。

  • 右边的「选择」按钮用于管理扫描文件。

#1 扫描

下方用橙色圆形强调的「+」,用于扫描新的内容。

点击按钮,首先进入拍摄界面。Scanner Pro 的拍摄功能为扫描定制,它会自动寻找扫描区域,建议拍摄角度。它会用透明的蓝框追踪识别的区域。当手机保持稳定,蓝框“合焦”时,它会自动拍摄照片。

用 Scanner Pro 扫描书籍封面

#2 检查

在拍摄完成之后,点右下角的图标进入文件查看界面:

查看扫描文件

在此界面可以左右划动切换页面,逐一检查页面的处理情况。

#3 手动调整

我们看到 App 对书籍封面自动处理的结果不理想,所以点右下角的「编辑」按钮进行手动调整。

手动调整扫描文件

首先用下方按钮进行调整。挽救不了的页面,用左边第一个按钮删除或重拍。

第二个按钮用于调整裁剪区域。扫描类 App 都是根据色差来识别边缘,只要边界明显,通常都能自动正确裁剪。

在裁剪界面,左下角灰色按钮的功能在「寻找边框」和「选择全部」之间切换。通过拖动白框四个角上的蓝色圆点来手动调整保留区域,App 提供了放大镜来辅助微调。

调整保留区域

最右边的按钮用于选择颜色模式:

  • 彩色照片模式是高保真模式,缺点是文件体积大,无法彻底去掉环境光导致的灰影。
  • 彩色文档模式是折中的模式,既保留了颜色,又压缩了文件体积。它能够更强力地去灰影,使颜色更饱和,但容易破坏中间调。
  • 黑白文档模式是最强力的处理模式,比彩色文档模式更进一步去掉了颜色信息,和彩色文档模式一样容易破坏中间调。
  • 灰阶照片模式是在彩色照片模式的基础上去掉颜色,和和彩色照片模式一样无法彻底去掉环境光导致的灰影。

App 总是选择折中的彩色文档模式,然而在上面可以看到,经处理封面出现了大块白斑,颜色严重失真。

根据需要选择了合适的颜色模式之后,如果出现色斑或灰影,可以通过调节亮度、对比度来尝试解决。

App 通常能自动识别页面规格,但也有时也会出错,如果显示比例不对,则需要手动选择规格。

#4 App 设置

合理设定一些参数可以使 Scanner Pro 用起来更方便。

  1. 自动命名模板

    在增加新的扫描文件时 Scanner Pro 会根据模板自动为文件命名,在这里设定适合自己的模板,可以省去一些手动改名的工夫。

    自动命名模板
  2. 连接云服务

    支持 OneDrive 等同步盘和印象笔记、OneNote 两种笔记服务。

    连接云服务

    云服务也可以在 App 的分享面板里添加。

    分享面板
  3. 网络接入

    打开「Wi-Fi 接入」的开关之后,在同一局域网的其他设备可以在网络或文件浏览器中输入 IP 地址访问文件。

    Wi-Fi 接入
  4. 扫描设置

    本节设置项主要可以:

    • 安装 OCR 引擎,启用/禁用自动识别功能;
    • 设定扫描的默认参数;
    • 定制工作流程(按顺序执行一系列操作),支持分享、上传及文件管理三类操作。
    扫描设置

    工作流程也可以在 App 的分享面板里添加。

OCR 类 App 推荐

上述扫描 App 都具备 OCR 文字识别功能,但跟专门的 OCR App 相比,要么是识别率较低,要么是缺乏辅助工具。比如 Scanner Pro 的 OCR 功能只支持识别整个文档,不支持仅识别某个页面或区域,因此极不实用。

App Store 里的 OCR 类 App 有 TextGrabber白描小嘿扫描三款值得推荐。

#1 TextGrabber

TextGrabber

老牌的 OCR App,和上面的 FineScanner 一样出自 Abbyy 之手。Abbyy 拥有自家的 OCR 技术,因此 TextGrabber 可以实现离线识别。

如图所示,因为是离线识别,TextGrabber 无需拍照就能实时识别,并且能将识别内容中的网址、邮箱和电话号码转化为链接,点击即可启动相应操作。

TextGrabber 的识别率较高,但是面对中文有些水土不服,错误处理换行,识别为英文标点,乱码,诸如此类的问题时常出现。

TextGrabber 有 Android 版。

#2 白描

白描

白描使用了百度的 OCR 接口,因此只能在线识别。白描识别中文的速度和效果比 TextGrabber 更好,此外作者还提供了校对功能,将原图置于识别结果下方,方便检查错误。

白描也有 Android 版。

#3 小嘿扫描

小嘿扫描

小嘿扫描与白描比较相似,同样是在线识别,同样提供校对功能,不同的是,小嘿扫描为批量识别做了优化,进行多页识别更便捷。

白描使用简介

#1 页面扫描

白描自带扫描处理功能

白描自带简单的扫描处理功能,和 Scanner Pro 一样,白描会自动检查扫描区域,给出拍摄建议,并在符合条件的时候自动拍摄。

白描同样支持自动识别和手功调整裁剪区域,同样支持调整颜色模式,但不支持手动调节亮度、对比度,也不支持纠正失真。

#2 文字识别

白描扫描的页面不能像扫描类 App 那样保存为图片或 PDF,只能进行识别操作。

点击右下角的「文字识别」按钮,稍等片刻,来到文字选择界面。

选择要识别的文字

白描将图片上的文字用绿色边框框出,可通过点击或划动来选择识别区域,选中的区域显示为绿色实框。

选好区域后点右下角「查看文字」按钮获得识别结果,在识别结果界面可以进行复制、导出、翻译、校对等操作。

支持校对,方便了用户清除识别错误,然而在校对界面,原图被放在识别结果下方,让人感觉别扭。一是输入法会挡住图片,不方便拖动;二是伸手操作识别的文字时不可避免挡住了视线。

名片全能王在校对识别结果时,会自动显示原图的相应位置,如果白描和小嘿扫描能实现逐行校对,这个功能的实用性会大幅提高。


题图来自 Unsplash,作者 Eli Francis

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,902评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 84,037评论 2 377
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,978评论 0 332
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,867评论 1 272
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,763评论 5 360
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,104评论 1 277
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,565评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,236评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,379评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,313评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,363评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,034评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,637评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,719评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,952评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,371评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,948评论 2 341

推荐阅读更多精彩内容

  • 1、通过CocoaPods安装项目名称项目信息 AFNetworking网络请求组件 FMDB本地数据库组件 SD...
    X先生_未知数的X阅读 15,967评论 3 119
  • 用到的组件 1、通过CocoaPods安装 2、第三方类库安装 3、第三方服务 友盟社会化分享组件 友盟用户反馈 ...
    SunnyLeong阅读 14,592评论 1 180
  • 现在比较流行使用html5 开发移动应用,毕竟只要写一套html页面就可以适配各种移动设备,大大节省了跨平台应用的...
    进阶的蚊子阅读 1,945评论 0 3
  • 夜未静、月色未深、夜几更,清风流水径自去。 到愁时,方知少年穷。 问尘世:少年不食愁滋味,为何老大生秋心?
    孤祭阅读 103评论 0 0
  • 一.产品 1.柴家成。港投,募集备案,中信,托管资料提交,等结果。FOF,需要盯一下,等反馈。去杭州,搞结构化。刘...
    琳郎_3411阅读 260评论 0 0