【你一定用的上】利用图片文字识别技术轻松解决复制粘贴文本困扰

工作中,我们经常会遇到需要复制PDF文档、或者图片中大段文字的需求。通常的办法只能老老实实的一个字一个字的手动打出来,但是这种方法效率极低,打字快的话还可以接受,最多落个手酸而已,如果打字比较慢的话这种方式简直不可忍受。不过,利用图片文字识别技术,我们可以轻松的解决这种烦恼。接下来就让我们来看一下比较常用的几种图文识别的方式吧!

方式一:通过tesseract-ocr识别

注意:该方法需要对有一定的计算机基础,不建议小白使用。

Tesseract是一个开源的OCR(Optical Character Recognition,光学字符识别)引擎,可以识别多种格式的图像文件并将其转换成文本,目前已支持60多种语言(包括中文)。

下载地址
具体的安装过程网上一大堆,这里就不重复介绍了。
使用很简单,在命令行输入tesseract input.png result -l chi_sim,其中input.png是你需要识别的图片,result指定识别结果的文件名,-l chi_sim指定使用中文识别。程序执行结束之后,再当前文件夹会有一个result.txt文件,即为识别结果。

输入图片.png

识别结果.png

可以看到,识别的结果还是可以的。

方式二:通过百度AI图文识别接口识别

注意:该方法需要有少量的编程基础,不建议小白使用。
百度AI开放平台
点击上方链接,进入百度AI开放平台,然后点击右上角控制台进入百度智能云-管理中心,需要登录,没有账号的话注册一个账号。

image.png

点击左侧导航的文字识别,创建应用。
image.png

image.png

创建成功之后,进入应用列表,获取AppIDAPI KeySecret Key,调用API需要使用这三个参数。
image.png

接下来,我们需要安装一下百度的SDK pip install baidu-aip,安装好之后就可以开始coding了,直接上代码:

from tkinter import *
import tkinter.filedialog
from os import path
from aip import AipOcr

# 百度OCR AppID  API Key  Secret Key
APP_ID = '**'
API_KEY = '**'
SECRECT_KEY = '**'

#利用百度api识别文本,并保存提取的文字
def baiduOCR(picfile):
    filename = path.basename(picfile)
    client = AipOcr(APP_ID, API_KEY, SECRECT_KEY)
    i = open(picfile, 'rb')
    img = i.read()
    #message = client.basicGeneral(img)  # 通用文字识别,每天 50000 次免费
    message = client.basicAccurate(img)  # 通用文字高精度识别,每天 800 次免费
    i.close()
    # 获取文本内容
    result = []
    for text in message.get('words_result'):
        result.append(text.get('words') + '\n')
    return result  


def chooseFile():
    picfile = tkinter.filedialog.askopenfilename(
        initialdir='C',
        title='选择图片',
        filetypes=(("所有图片", ("*.jpg", "*.jpeg", "*.png")), ('All file', '*.*')))
    if picfile != '':
        label.config(text="开始文字识别处理...")
        words = baiduOCR(picfile)
        for word in words:
            text.insert("insert",word)
        label.config(text="图片文本提取结束!")
    else:
        label.config(text="您未选择文件!")

if __name__ == '__main__':
    root = Tk()
    root.title("图片文本提取")
    root.geometry("400x220")
    label = Label(root, text='')
    label.pack()
    button = Button(root, text='图片识别文字提取', command=chooseFile)
    button.pack()
    text = Text(root, width=45, height=10)
    text.pack(pady=5)
    root.mainloop()

运行程序,测试一下识别效果:


[图片上传中...(文字识别截图.png-45fade-1600836208610-0)]
文字识别截图.png

嗯,识别的是比方式一强了许多。

方式三:通过钉钉的拍图识字功能识别

简单易用,推荐。
操作很简单,准备好要识别的图片,发送到手机钉钉,打开文档的拍图识字功能选择图片识别后复制出文字即可。

截图.png

识别结果.png

综上来看,使用钉钉是最简单的方式了,唯一不方便之处在于只支持手机版App,但瑕不掩瑜,推荐大家使用该方式。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,684评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,143评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,214评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,788评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,796评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,665评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,027评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,679评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,346评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,664评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,766评论 1 331
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,412评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,015评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,974评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,073评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,501评论 2 343