作业笔记11_selenium

  1. 查找tesseract训练的相关资料,尝试训练tesseract
  2. 尝试使用selenium爬取京东上某商品的价格与名称

笔记

动态网页爬虫

  • Ajax和动态HTML
    • Ajax(Asynchronous JavaScript and XML)
    • 经过JS渲染的网页直接去分析后台请求是狠复杂的,在Python中可以利用PhantomJS和Selenium这两个库帮助完成JS解析。
  • PhantomJS
    • PhantomJS是一个无界面的,可脚本编程的WebKit浏览器引擎。它原生支持多种web 标准:DOM 操作,CSS选择器,JSON,Canvas 以及SVG。
    • 嗯,就是一个没有界面的浏览器。它会把网页加载的内容储存到内存上。
    • 下载地址:PhantomJS官网
    • 安装:超简单,解压缩就好。Windows添加一下环境变量。
    • 打开cmd,执行phantomjs -v,出现版本号,就说明安装成功了。
    • 执行phantomjs,进入Phantom环境。可以根据官方文档进行操作了。
  • Selenium
    • 自动化测试工具。它支持各种浏览器,包括Chrome,Safari,Firefox等主流界面式浏览器,如果你在这些浏览器里面安装一个Selenium的插件,那么便可以方便地实现Web界面的测试。换句话说叫 Selenium 支持这些浏览器驱动。

    • 安装:pip下载安装,或官网下载安装。

      C:\Users\yishikeji-05>pip install selenium
      Collecting selenium
        Downloading selenium-3.0.2-py2.py3-none-any.whl (915kB)
          100% |████████████████████████████████| 921kB 439kB/s
      Installing collected packages: selenium
      Successfully installed selenium-3.0.2
      

【这部分笔记参考了静觅这个博客,有一系列关于Python爬虫的文章,值得一看】

文字图像识别:验证码

  • ORC——将图像翻译成文字,光学文字识别(Optical Character Recognition)
  • ORC库
    • Pillow——图像库(已经有了)
    • Teseract——文字识别,GitHub资源
  • Teseract安装
    • Mac OS: brew install tesseract
    • windows: 下载exe的安装文件。我安装在了D:\Program Files\Tesseract-OCR

Tesseract的使用

  • 保存一张图片到Tesseract的安装路径下,扩展名改为tif

  • 进入cmd命令窗,cd D:\Program Files\Tesseract-OCR进入安装目录,执行命令:

    >tesseract pic.tif textoutput
    Tesseract Open Source OCR Engine v3.05.00dev with Leptonica
    
  • 然后在安装目录下就出现了textoutput.txt的文件。

    txt文件内容:This is some text, written in Arial, that will be read by Tesseract. Here are some symbols: !@#$%"&'()


作业

1. 尝试训练tesseract

训练步骤:

  • 下载并安装jTessBoxEditor工具。

  • 准备一张用来训练的tiff格式图片。

  • 将10张图片合并为一张tiff格式的图片orderNo.tif

  • Make Box Files:打开命令行,进入安装目录,执行以下代码。

    tesseract orderNo.tif orderNo batch.nochop makebox
    
  • 使用jTessBoxEditor打开orderNo.tif文件,需要记住的是第2步生成的orderNo.box要和这个orderNo.tif文件同在一个目录下。逐个校正文字,后保存。

  • Run Tesseract for Training:执行如下命令

    tesseract orderNo.tif orderNo nobatch box.train
    
  • Compute the Character Set:执行如下命令

    unicharset_extractor orderNo.box
    
  • 新建字体文件“font_properties”,执行命令

    mftraining.exe -F font_properties -U unicharset orderNo.tr
    
  • Clustering

    cntraining orderNo.tr
    
  • 此时,在目录下应该生成若干个文件了(并没有),把unicharset,inttemp,normproto,pffmtable这四个文件加上前缀“orderNo.”。然后输入命令:

combine_tessdata orderNo.

以上是老师给的资料中的训练步骤,然而我尝试之后并没有成功。GitHub文档所介绍的像是用Linux系统做的,究竟也没有搞明白。

2. 使用selenium爬取京东上某商品的价格与名称

代码部分:

from selenium import webdriver
import time

driver = webdriver.PhantomJS()
driver.get("http://item.jd.com/3438929.html#")
#driver.page_source
time.sleep(1)
price = driver.find_element_by_class_name("p-price").text
print('商品名称:', driver.title, '\n', '商品价格:', price)
driver.close()

结果输出:

商品名称: 【JDtabJ01】JDtab 魅族 哈曼 富士康 乐视 京东联袂打造7.9英寸平板电脑 2K视网膜屏 4GB+64GB 香槟金 J01 【行情 报 价 价格 评测】-京东
商品价格: ¥1499.00

做的很勉强,用selenium提取信息不太熟练,总是出现InvalidSelectorException这个错误。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,793评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,567评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,342评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,825评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,814评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,680评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,033评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,687评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,175评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,668评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,775评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,419评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,020评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,206评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,092评论 2 351
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,510评论 2 343

推荐阅读更多精彩内容