UiPath使用ABBYY Flexicapture OCR

[TOC]

1. ABBYY Flexicapture简介

ABBYY FlexiCapture(简称AbbyyFC)使开发人员可以快速开发解决方案,用于从固定格式或半结构化格式的表单、文档中提取数据。有如下特点:

  • 灵活的导出选项

导出时可以选择 PDF/A 格式,导出带标记的 PDF,PDF 的快速 web 视图选项,导出为 UTF 时不写入 BOM(字节顺序标记) 字符。减少文档存储所需空间,可以管理输出文件的大小与质量,从而最大限度提高数据存储效率。

  • 更好、更快的 OCR

ABBYY FlexiCapture SDK采用最新一代的 ABBYY OCR 技术。借助引擎背后的新一代核心技术,可以更快、更高质量地处理阿拉伯语、中文、日文及韩语文本。

  • 云部署

云环境越来越受欢迎,越来越多的客户将他们的服务托管在云上。新的 FlexiCapture SDK可以运行在这些虚拟环境、容器及虚拟机上。UiPath或其他RPA工具仅通过访问协议即可实现将待处理的文件上传下载的过程。

  • 发票处理是现成的模组

FlexiCapture FlexiCapture具有可扩展性,发票处理是一个现成提供的附加功能,包括预定义设置、验证规则、先进的数据库查询和特定UI增强设定。。

  • 支持不同类型文档的数据采集

通过自定义识别的模板,ABBYYFC可以从不同类型的文档中快速定位所有必需的数据字段,并以合适的格式提取出来。

  • 高性能与快速响应

通过创建并行运行在不同进程上的处理器池,我们可以改进服务器应用程序的性能和响应能力。客户端请求由不同的 CPU 核心独立处理,无须在队列中等待,服务器应用程序因此响应更快。另外,单一长任务拆分成多个小任务并行处理,能够合理利用多核 CPU 的运行能力,从而提高性能。如下图,可以对核心数进行分配。


image
  • 通过训练来创建文档定义

AbbyyFC能够自动学习新文档类型并识别数据提取相关字段。

2. AbbyyFC与UiPath的集成前准备

说明:此部分比较繁琐复杂,每一节都形成一个文档或视频记录。通常,如果客户购买了ABBYYFC的license,都会有专门的工程师协助完成此部分内容,并且会根据客户及UiPath所处理的文档结构,协助完成识别模板的定制。

2.1 ABBYYFC安装

ABBYY Flexicapture12安装

2.2 ABBYYFC识别模板设置

https://www.bilibili.com/video/av76982066/

2.3 ABBYYFC批量识别测试

https://www.bilibili.com/video/av76590982/

3. Demo1:在UiPath中集成ABBYYFC Activities

使用ABBYY FC相关的Activities与UiPath集成。

缺点:

  • 1.使用了外部的Activities,对ABBYY FC存在依赖。
  • 2.官方Demo中使用到了Orchestrator中的Queue,使其调试繁琐。

优势:

  • 1.通过Activities对AbbyyFC的相关参数进行灵活的配置。
  • 2.灵活切换多任务和单任务的处理模式

3.1 下载ABBYYFC相关Activities

FlexiCapture Connector是一系列UiPath中的Activities,可在FlexiCapture企业平台和UiPath之间提供集成,从而自动处理非结构化内容(文档,图像和文本),从而将其转换为结构化的可操作数据。

官方下载地址: FlexiCapture Connector for UiPath

百度云地址: 链接:https://pan.baidu.com/s/1heC2KWjsqiY38OlO0vcRBw 提取码:21bs

百度云中下载的压缩包中同时包含多任务处理和单任务处理的Activities。

3.2 安装ABBYYFC相关Activities

打开UiPath中Manage Packages窗口,如下图所示,自定义包源的名称,在Source中添加Activities所在文件夹,点击Add.


image

如下图,分别安装如下三个Package并Save,退出。


image

安装完毕之后,会有如下几个Activities出现

image

3.2 测试ABBYY FC的单任务处理

所谓单任务处理,是指ABBYY在对PDF或者Image识别时,会将一张PDF(Image)作为一个批处理任务进行处理。而多任务处理,是指ABBYY可以同时获取多张PDF(Image),并且利用CPU的多核心,对PDF(image)进行并发处理,以提高处理效率。

建立UiPath的Workflow,如下图所示(文章最后会贴出代码地址):


image
image

相关参数:

image

3. Demo2:在UiPath中直接使用ABBYY FC输出结果

通过将ABBYY FC配置为windows后台任务,自动处理输入的待识别文件,识别完之后自动输出到指定文件夹。UiPath的工作仅需要将所有待识别文件移动到ABBYYFC指定的读取文件夹,待识别结束之后,UiPath只需要从结果文件夹中获取结果进行处理即可。

优势:

  • 1.无需对UiPath做任何配置或安装Activities。
  • 2.开发只需要关注输入输出即可。

缺点:

  • 1.不能灵活的对ABBYY输入输出及其他参数进行设置
  • 2.若存在需要人工校验的文件,则需要等到所有文件都识别完成之后,才可以进行校验(等待时间可能比较长)。

3.1 ABBYY FC配置输入输出文件夹

设置ABBYY FC自动读取的文件夹、读取时间间隔、批处理文件数量(每次指定个数、文件夹所有文件、子文件夹文件、单个文件)、批处理模式、处理完成之后文件的处理方式(删除、移动至其他文件夹)以及处理失败的文件该如何处理(留在源文件夹或移动至指定目录)

3.1.1 配置共享文件夹

如下图,将ABBYY文件夹共享出来,后续将会使用到网络路径 \Cnpxxxx591\abbyy

image

3.1.2 配置ABBYY FC定时读取文件夹

如下图所示,安装步骤进行设置


image
image
image

设置已处理图片存放目录和处理失败图片存放的目录,若不存在,则自行创建即可。


image
3.1.3 配置ABBYY FC文件输出目录

设置导出规则


image
image
image

其他信息可以单击对应的button查看详细的设置规则。之后点击OK,保存项目并publish即可。

之后按照如下图进行最后一步设置,即可完成ABBYY FC的自动输入输出文件夹的设置,让ABBYY FC作为后台任务帮助机器人完成OCR识别或其他任务。


image

3.2 UiPath与ABBYY FC的结合使用

如下为UiPath代码,通过将待识别文件主动放入ABBYY FC扫描目录,之后再从输出目录中获取到想要格式的文件。

用到的依赖:

PDF_Activities=1.0.1 (用于计算PDF张数)
image

4. 代码获取

从Github上获取:
sombie007/RPA/AbbyyFC

若有帮助,请点个Star。


image

附2 . 关于RPA知识星球

之前有很多文章和心得发布在"小专栏"中,但是最近由于各种原因,后续不准备再发一些文章上去,全部迁移至知识星球。知识星球中内容全部由我运营,会定期输出与RPA相关内容,包括但不限于:

  • RPA实施方法论
  • RPA实施技术架构
  • RPA应用场景分析理解
  • RPA实施中填坑之路......

为什么要收费:

  • 建立门槛,过滤掉观光客;
  • 逼自己尽可能多地思考和输出内容;
  • 通过输出内容,和一帮志趣相投的朋友们一起,激发出更多好玩的机会;
  • 利用知识星球连接铁杆粉丝,做出高品质社群
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 206,602评论 6 481
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 88,442评论 2 382
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 152,878评论 0 344
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 55,306评论 1 279
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 64,330评论 5 373
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,071评论 1 285
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,382评论 3 400
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,006评论 0 259
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,512评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,965评论 2 325
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,094评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,732评论 4 323
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,283评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,286评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,512评论 1 262
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,536评论 2 354
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,828评论 2 345

推荐阅读更多精彩内容