python爬取美空网女神图片,小心你的内存走火

爬虫分析

首先,我们已经爬取到了N多的用户个人主页,我通过链接拼接获取到了

www.moko.cc/post/da39db…

在这个页面中,咱们要找几个核心的关键点,发现 平面拍摄 点击进入的是图片列表页面。 接下来开始代码走起。

获取所有列表页面

我通过上篇博客已经获取到了70000(实际测试50000+)用户数据,读取到python中。

这个地方,我使用了一个比较好用的python库pandas,大家如果不熟悉,先模仿我的代码就可以了,我把注释都写完整。

importpandasaspd# 用户图片列表页模板user_list_url ="http://www.moko.cc/post/{}/list.html"# 存放所有用户的列表页user_profiles = []defread_data():# pandas从csv里面读取数据df = pd.read_csv("./moko70000.csv")#文件在本文末尾可以下载# 去掉昵称重复的数据df = df.drop_duplicates(["nikename"])# 按照粉丝数目进行降序profiles = df.sort_values("follows", ascending=False)["profile"]foriinprofiles:# 拼接链接user_profiles.append(user_list_url.format(i))if__name__ =='__main__': read_data() print(user_profiles)复制代码

数据已经拿到,接下来我们需要获取图片列表页面,找一下规律,看到重点的信息如下所示,找对位置,就是正则表达式的事情了。

快速的编写一个正则表达式 <p class="title"><a hidefocus="ture".*?href="(.*?)" class="mwC u">.*?\((\d+?)\)</a></p> 引入re,requests模块

import requestsimport re复制代码# 获取图片列表页面def get_img_list_page():# 固定一个地址,方便测试test_url ="http://www.moko.cc/post/da39db43246047c79dcaef44c201492d/list.html"response = requests.get(test_url,headers=headers,timeout=3) page_text = response.textpattern = re.compile('.*?\((\d+?)\)')# 获取page_listpage_list = pattern.findall(page_text)复制代码

运行得到结果

[('/post/da39db43246047c79dcaef44c201492d/category/304475/1.html', '85'), ('/post/da39db43246047c79dcaef44c201492d/category/304476/1.html', '2'), ('/post/da39db43246047c79dcaef44c201492d/category/304473/1.html', '0')]复制代码

继续完善代码,我们发现上面获取的数据,有"0"的产生,需要过滤掉

# 获取图片列表页面def get_img_list_page():# 固定一个地址,方便测试test_url ="http://www.moko.cc/post/da39db43246047c79dcaef44c201492d/list.html"response = requests.get(test_url,headers=headers,timeout=3) page_text = response.textpattern = re.compile('<p class="title"><a hidefocus="ture".*?href="(.*?)" class="mwC u">.*?\((\d+?)\)</a></p>')# 获取page_listpage_list = pattern.findall(page_text)# 过滤数据forpageinpage_list:ifpage[1] =='0':page_list.remove(page) print(page_list)复制代码

获取到列表页的入口,下面就要把所有的列表页面全部拿到了,这个地方需要点击下面的链接查看一下

www.moko.cc/post/da39db…

本页面有分页,4页,每页显示数据 4*7=28 条 所以,基本计算公式为 math.ceil(85/28) 接下来是链接生成了,我们要把上面的链接,转换成

http://www.moko.cc/post/da39db43246047c79dcaef44c201492d/category/304475/1.htmlhttp://www.moko.cc/post/da39db43246047c79dcaef44c201492d/category/304475/2.htmlhttp://www.moko.cc/post/da39db43246047c79dcaef44c201492d/category/304475/3.htmlhttp://www.moko.cc/post/da39db43246047c79dcaef44c201492d/category/304475/4.html复制代码page_count = math.ceil(int(totle)/28)+1foriinrange(1,page_count):# 正则表达式进行替换pages = re.sub(r'\d+?\.html',str(i)+".html",start_page) all_pages.append(base_url.format(pages))复制代码

当我们回去到足够多的链接之后,对于初学者,你可以先干这么一步,把这些链接存储到一个csv文件中,方便后续开发

# 获取所有的页面defget_all_list_page(start_page,totle):page_count = math.ceil(int(totle)/28)+1foriinrange(1,page_count): pages = re.sub(r'\d+?\.html',str(i)+".html",start_page) all_pages.append(base_url.format(pages)) print("已经获取到{}条数据".format(len(all_pages)))if(len(all_pages)>1000): pd.DataFrame(all_pages).to_csv("./pages.csv",mode="a+") all_pages.clear()复制代码

让爬虫飞一会,我这边拿到了80000+条数据

好了,列表数据有了,接下来,我们继续操作这个数据,是不是感觉速度有点慢,代码写的有点LOW,好吧,我承认这是给新手写的 其实就是懒 ,我回头在用一篇文章把他给改成面向对象和多线程的

我们接下来基于爬取到的数据再次进行分析

例如 www.moko.cc/post/nimusi… 这个页面中,我们需要获取到,红色框框的地址,为什么要或者这个?因为点击这个图片之后进入里面才是完整的图片列表。

我们还是应用爬虫获取 几个步骤

循环我们刚才的数据列表

抓取网页源码

正则表达式匹配所有的链接

def read_list_data():# 读取数据img_list = pd.read_csv("./pages.csv",names=["no","url"])["url"]# 循环操作数据forimg_list_pageinimg_list:try: response = requests.get(img_list_page,headers=headers,timeout=3) except Exceptionase: print(e)continue# 正则表达式获取图片列表页面pattern = re.compile('<a hidefocus="ture" alt="(.*?)".*? href="(.*?)".*?>VIEW MORE</a>')img_box = pattern.findall(response.text) need_links = []# 待抓取的图片文件夹forimginimg_box: need_links.append(img)# 创建目录file_path ="./downs/{}".format(str(img[0]).replace('/', ''))ifnotos.path.exists(file_path): os.mkdir(file_path)# 创建目录forneedinneed_links:# 获取详情页面图片链接get_my_imgs(base_url.format(need[1]), need[0])复制代码

上面代码几个重点地方

pattern = re.compile('<a hidefocus="ture" alt="(.*?)".*? href="(.*?)".*?>VIEW MORE</a>')img_box = pattern.findall(response.text) need_links = []# 待抓取的图片文件夹forimginimg_box: need_links.append(img)复制代码

获取到抓取目录,这个地方,我匹配了两个部分,主要用于创建文件夹 创建文件夹需要用到 os 模块,记得导入一下

# 创建目录file_path ="./downs/{}".format(str(img[0]).replace('/',''))ifnotos.path.exists(file_path): os.mkdir(file_path)# 创建目录复制代码

获取到详情页面图片链接之后,在进行一次访问抓取所有图片链接

#获取详情页面数据def get_my_imgs(img,title): print(img)headers= {"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"}response= requests.get(img,headers=headers,timeout=3)pattern= re.compile('

最后编写一个图片下载的方法,所有的代码完成,图片保存本地的地址,用的是时间戳。

def downs_imgs(img,title): headers ={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.106 Safari/537.36"} response = requests.get(img,headers=headers,timeout=3)content= response.contentfile_name= str(int(time.time()))+".jpg"file ="./downs/{}/{}".format(str(title).replace('/','').strip(),file_name) with open(file,"wb+") as f: f.write(content)print("完毕")复制代码

运行代码,等着收图

代码运行一下,发现报错了

原因是路径的问题,在路径中出现了...这个特殊字符,我们需要类似上面处理 / 的方式处理一下。自行处理一下吧。

数据获取到,就是这个样子的

代码中需要完善的地方

代码分成了两部分,并且是面向过程的,非常不好,需要改进

网络请求部分重复代码过多,需要进行抽象,并且加上错误处理,目前是有可能报错的

代码单线程,效率不高,可以参照前两篇文章进行改进

没有模拟登录,最多只能爬取6个图片,这也是为什么先把数据保存下来的原因,方便后期直接改造

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,524评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,869评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,813评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,210评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,085评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,117评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,533评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,219评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,487评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,582评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,362评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,218评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,589评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,899评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,176评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,503评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,707评论 2 335

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,497评论 18 139
  • 李畋先师 唐朝有个皇帝叫李世民,李世民有个宰相叫魏征。据说,魏征权力很大,"日管人间,夜辖阴曹"。一次,一个叫八河...
    沅沨阅读 190评论 0 1
  • 早上7点出发,出发地,佛山禅城,目的地百色
    随缘spring阅读 523评论 0 0
  • 在林依逢走后,陈精去了第八号当铺,想把莫飞的灵魂给释放出来。不料,邪恶的韩诺不仅不让离开,还欲强留她在当铺。 幸好...
    寒樰阅读 10,207评论 8 23
  • 原文连接 Abstract 虽然目前已经有比较高效的GBDT实现,如XGBoost和pGBRT,但是在特征维度很高...
    SSIGMA阅读 1,422评论 0 0