有用过Uipath的Tesseract OCR功能的小伙伴都知道,系统默认的语言是英文“en”。对于中文操作环境来说,如果直接使用,出来的肯定是一堆乱码。
在Tesseract OCR的配置面板中,我们可以看到,其实是有一个配置项是来变更目标语言的。而对于各个语言,Tesseract都有一个对应的Language code. 例如:英语对应“en”,中文简体对应“chi_sim”等等。
如何将language设置为其他的呢?其实只需要两步,就可以完成。
1.下载语言包到Uipath本地运行环境
语言包下载路径大家可以参考这两个:https://github.com/tesseract-ocr/tessdata_best ,https://github.com/tesseract-ocr/tessdata,
上面以traineddata结尾的文件,就是语言包,大家根据自己需要的进行下载。
下载完成后,将其放置到uipath本地路径。(路径可能有所差异,大家根据实际情况调整)。如果在uipath下没有“tessdata”这个文件夹的话,自己手动新建即可。
2.更改Tesseract OCR面板配置
language如何配置,其实只需要将我们下载下来的包名填充上去即可。例如我下载了chi_sim.traineddata, 那我将“chi_sim”填上去即可。
OK,Tesseract OCR的语言变更就这么多了,其实不难,只是有时候不知道从何下手,希望这个share可以让大家少采坑。
如果觉得有用,不要忘记点赞哦_!