爬点小黄图-1-简单无需登录无禁爬虫网页

你知道wanimal么?你知道他拍的的小黄图么?
还是很文艺的,喜欢他拍的tits,breast,so beautiful!!!


哈哈,事情并没有想象的那么顺利,今天解决的事情是正则匹配和python的一点知识。但是主要还是阻挡在,wanimal的网页可爬,但是图片服务器不允许,也可能是被墙了,所以图片暂时还不能保存到本地,做一个悲伤的表情。可能就要放到下次的伪装浏览器里面去解决了。


事实证明是被屏了,开个全局vpn就ok了


# encoding=utf-8
import urllib;
import urllib.request;
import re;
from collections import deque;

class DownLoadPic:#先来个类,用它来下载wanimal的图喽
    #######################################
    #学到点什么呢,就是类里面的这个全局变量更类似于C++里面的static
    #是所有类共享的
    #哈哈,事实不是这样的
    #self.value这样访问变量就不是static,即非共享,
    #self.__class__.value这样访问才是static,原来还和访问方式有关!!!
    #20161101今天才知道,自由static才在这里定义,也许也不需要在这里定义(没试),但是非static直接在用的时候self.var就行了
    #######################################
    __m_deque=deque();#存放将要访问的下一页
    __m_visited=set();#根据集合的特性,存放已经访问过网址,包括图片的和下一页的
    __file=open('e:/forLook.txt','w',encoding='utf-8'); #存放解析出来的网址,就是为了看结果对不对
    __adress=open('e:/adress.txt','w',encoding='utf-8');#因为现在图片不能存在本地,那就先把图片链接存到本地,因为有人说可以用迅雷下载,但是我没装迅雷。
    __url_init="";#网页入口
    __m_cnt=0;#当前第几页
    __page_limit=0;#页数限制
    #######################################
    #学到点什么呢,这个就是构造函数了,而且类里面所有的函数都必须有参数self
    #注意到这些变量和函数前面的__了吧,加了__就是私有的
    #######################################
    def __init__(self,url_tmp,cnt_limit=99999999):#构造函数
        self.__url_init=url_tmp;
        self.__m_deque.append(self.__url_init);
        self.__m_cnt=1;
        self.__page_limit=cnt_limit;

    def __del__(self):#析构函数
        self.__url_init='';
        self.__m_cnt=0;
        self.__m_visited={};
        self.__m_deque=[];
        self.__file.close();
        self.__adress.close();
    
    def DLP(self):#有了网址就开始解析下载了
        while(self.__m_deque and self.__m_cnt<=self.__page_limit):
            #print(self.__m_deque);
            cur_url=self.__m_deque.popleft();
            self.__m_visited |={cur_url};
            print("已经抓取 ",self.__m_cnt," 页 +++","当前网页--->",cur_url,"\\n");
            self.__m_cnt +=1;
            try:
                url_opening=urllib.request.urlopen(cur_url);
            except:
                self.__file.write("网页打开失败--->"+cur_url+"\\n");
                continue;
            if 'html' not in url_opening.getheader('Content-Type'):
                continue;
            try:
                page_data=url_opening.read().decode('utf-8');
            except:
                self.__file.write("网页解码失败--->"+cur_url+"\\n");
                continue;
            linkNext='http://wanimal1983.org/page/'+str(self.__m_cnt);#哈哈,先默认从第一页开始吧,刚开始写正则太辛苦了
            self.__m_deque.append(linkNext);#把下一页放到待解析队列
            self.__m_visited |={linkNext};#访问过的网页
            imageDiv=re.compile('<img src=.+?>');#img标签
            imageLink=re.compile('http:.+?\\.jpg');#图片连接
            nameLike=re.compile('[^/]+\\.jpg');#取出图片名称
            for img in imageDiv.findall(page_data):#取出当前页所有img标签
                #print(len(imageDiv.findall(page_data)));
                imgLink=imageLink.findall(img);#从当前img标签取出图片连接
                if(1 <= len(imgLink)):
                    get_img=imgLink[0];
                else:
                    continue;
                if 'http' in get_img and get_img not in self.__m_visited:
                    self.__m_visited |={get_img};
                    name=nameLike.findall(get_img)[0];#取出图片名字
                    self.__file.write("图片名字-->"+name+"\\n");
                    self.__file.write("图片链接-->"+get_img+"\\n");
                    print("正在保存图片",name,end="==========\\n");
                    self.__adress.write(get_img+"\\n");
                    #picFile=open(name,"wb");#暂时直接爬是不行的,好像图片服务器禁止了简单爬虫,那就下一次在伪装浏览器行为,先把链接都保存下来,用其他下载器下载吧
                    #pic=urllib.request.urlopen(get_img).read();
                    #picFile.write(pic);
                    #picFile.close();

#调用
a=DownLoadPic("http://wanimal1983.org/",150);
a.DLP();
del a;

所以这么写算是更标准的格式


# encoding=utf-8
import urllib;
import urllib.request;
import re;
from collections import deque;

class DownLoadPic:
    
    def __init__(self,url_tmp,cnt_start=0,cnt_limit=99999999):#构造函数
        self.__url_init=url_tmp;
        self.__m_deque=deque(); 
        self.__m_deque=deque(); 
        self.__m_deque.append(self.__url_init);
        self.__m_cnt=cnt_start;
        self.__page_limit=cnt_limit;
        self.__file=open('e:/forLook.txt','w',encoding='utf-8');

    def __del__(self):#析构函数
        self.__url_init="";
        self.__m_cnt=0;
        self.__m_visited={};
        self.__m_deque=[];
        self.__file.close();
    
    def DLP(self):#有了网址就开始解析下载了
        while(self.__m_deque and self.__m_cnt<=self.__page_limit):
            cur_url=self.__m_deque.popleft();
            self.__m_visited |={cur_url};
            print("正在抓取 ",self.__m_cnt," 页 +++","当前网页--->",cur_url,"\\n");
            self.__m_cnt +=1;
            try:
                url_opening=urllib.request.urlopen(cur_url);
            except:
                self.__file.write("网页打开失败--->"+cur_url+"\\n");
                continue;
            if 'html' not in url_opening.getheader('Content-Type'):
                continue;
            try:
                page_data=url_opening.read().decode('utf-8');
            except:
                self.__file.write("网页解码失败--->"+cur_url+"\\n");
                continue;
            linkNext='http://wanimal1983.org/page/'+str(self.__m_cnt);
            self.__m_deque.append(linkNext);#把下一页放到待解析队列
            self.__m_visited |={linkNext};#访问过的网页
            imageDiv=re.compile('<img src=.+?>');#img标签
            imageLink=re.compile('http:.+?\\.jpg');#图片连接
            nameLike=re.compile('[^/]+\\.jpg');#取出图片名称
            for img in imageDiv.findall(page_data):#取出当前页所有img标签
                #print(len(imageDiv.findall(page_data)));
                imgLink=imageLink.findall(img);#从当前img标签取出图片连接
                if(1 <= len(imgLink)):
                    get_img=imgLink[0];
                else:
                    continue;
                if 'http' in get_img and get_img not in self.__m_visited:
                    self.__m_visited |={get_img};
                    name=nameLike.findall(get_img)[0];#取出图片名字
                    self.__file.write("图片名字-->"+name+"\\n");
                    self.__file.write("图片链接-->"+get_img+"\\n");
                    print("正在保存图片",name,end="==========\\n");
                    picFile=open('e:/'+name,"wb");
                    pic=urllib.request.urlopen(get_img).read();
                    picFile.write(pic);
                    picFile.close();

#调用
if __name__=='__main__':
            a=DownLoadPic("http://wanimal1983.org/",150);
            a.DLP();

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 199,711评论 5 468
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 83,932评论 2 376
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 146,770评论 0 330
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 53,799评论 1 271
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 62,697评论 5 359
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,069评论 1 276
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,535评论 3 390
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,200评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,353评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,290评论 2 317
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,331评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,020评论 3 315
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,610评论 3 303
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,694评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,927评论 1 255
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,330评论 2 346
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 41,904评论 2 341

推荐阅读更多精彩内容

  • 发现 关注 消息 iOS 第三方库、插件、知名博客总结 作者大灰狼的小绵羊哥哥关注 2017.06.26 09:4...
    肇东周阅读 11,982评论 4 60
  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,263评论 25 707
  • 柴柴 2017/01/13 22:20 如何说HTT课程感受 为什么我来到这里,成年人的学习一定是基于一定目...
    柴火棍阅读 603评论 1 0
  • 我不爱你, 你是你,我是我。 我若爱你, 你还是你,我还是我。 只是,我希望啊, 你是更好的你, 我是更好的我, ...
    火星姑娘阅读 234评论 0 0
  • 从2010年开始,智能手机就成为用户最宠爱的终端设备之一。到2014年更是迎来一次大规模爆发,到了今天… 标配:人...
    城东那个小丑阅读 386评论 4 5