十分钟做一个有价值的爬虫

⒈背景

大概就是前几天吧,一个初中同学急匆匆的来找我,要我帮忙,做一张宣传图,当时大概脑热,答应了,结果,答应之后,我在想没有电脑,又没有ps的素材,要我怎样?
接着在网上找到了一个app,叫图痒,这名字够骚,当时就下载了,发现用起来还不错,最后成功帮了同学的忙,没完呢,我发现里面的素材真心好,可惜不能离线,于是就有了爬取ps素材的想法(๑>؂<๑)
上几张素材图

图片发自简书App

图片发自简书App

图片发自简书App

漂亮得不要不要ヽ(≧Д≦)ノ的

⒉分析思路

但是,我们平常爬取的都是网页,现在是app,HOW DO,于是我就想到了抓包,不得不说,这家公司的安全性,简直太低了。直接就是get一个网址,返回一个json,json里面包括了素材的类型,图片的地址,好了,数据有了,就是分析json了

3.json的分析

大概是我从来都没学json,这个步骤,累得我快崩溃,还好最后还是细心分析了,做事要认真

{
  code: 0,
  data: [
    /////{
      id: "89",
      name: "复活节",
      is_new: true,
      images: [
        {
          id: "2165",
          name: "FH10",
          url: "http://fileicyouxxxxxxxxxxxx",
          big_url: "http://file.pxxxxx.png",
          category_id: "89",
          pure_color: "1",
          width: "750",
          height: "750",
          is_new: true
        },////
         ////{  
          id: "2165",
          name: "FH10",
          url: "http://fileicyouxxxxxxxxxxxx",
          big_url: "http://file.pxxxxx.png",
          category_id: "89",
          pure_color: "1",
          width: "750",
          height: "750",
          is_new: true
}///]]}

这是简化的json,但都是如此循环的,data里有多个字典,但这里只给出一个,而字典里又有一个images的列表,列表里又有字典,只要在这个字典里获取big_url的值,就是获取了素材的下载地址,好乱,是不是,我一开始,也是懵比的

3.废话少说,代码

要用的话,文件的地址要改
要用的话,文件的地址要改
要用的话,文件的地址要改

#-*-coding:utf8;-*-
import os,re,requests,json,time
head={'User-Agent':'Mozilla/5.0 (iPhone; U; CPU iPhone OS 4_0 like Mac OS X; en-us) AppleWebKit/532.9 (KHTML, like Gecko) Version/5.0.5 Mobile/8A93 Safari/6531.22.77'}

r=requests.get('http://api.picyoung.com/static/json/assets_lib_v2.json?tm=25048106',headers=head)#获取json

data=json.loads(r.text.encode('utf8'))#将网页加载给json解析

for item in data['data']['category'][0]['child']:#这里的0很重要,因为一共有6个主题,所以当0爬取完时,就填1,以此类推,填到5,当然你也可以通过一个循环自动爬取全部
  filename=item['name'].replace(' ','').encode('utf8') 
   if False==os.path.exists('/sdcard/to/%s'%filename):#判断文件夹存在,不存在,就创建

   os.mkdir("/sdcard/to/%s"%filename)

  a=0

  for items in item['images']:#遍历images列表里的字典
   url=items['big_url']#从字典里取图片的下载地址
   r=requests.get(url,headers=head,timeout=10)#加载图片

   with open('/sdcard/to/%s/%s.png'%(filename,a),'wb') as code:

    print '正在下载[%s]/%s'(item['name'].encode('utf8'),a)
    code.write(r.content)#写入图片
   a+=1
   time.sleep(0.5)#每爬取完一张,就休眠0.5秒,防止被网站发现

写在最后

感谢图痒这个公司,同时推荐大家使用
我的QQ1208662778,随时可问问题
数据大概这么多

图片发自简书App

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,319评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,801评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,567评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,156评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,019评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,090评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,500评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,192评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,474评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,566评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,338评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,212评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,572评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,890评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,169评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,478评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,661评论 2 335

推荐阅读更多精彩内容