鸟与虫(二)代码敲累了?来个段子

  • 哈罗又见面了,我就是那个菜鸟。
  • 这次我看着知乎大佬爬嗅事百科的案例,自己爬了下挖段子网,来分享一下。
  • 代码敲累了?爬几个段子了一下,段子五分钟代码两小时。
'''
    根据知乎大神

    代码作者:高佳乐

'''
import re                         ##导入re库
import requests                   ##导入requests
import time                       ##导入time
#from bs4 import BeautifulSoup    ##导入bs4
##定义一个去空格的类
class Tool():                     ##定义一个类,这个类是去除空格
    def replace(self,html):       ##方法,有两个参数
        html = re.sub(re.compile('<br/>|<br />','',html))  ##html=re.sub是替换函数,re.compile是换成正则表达式。
        return html

class Spider(object):                                      ##定义一个类,名字叫爬虫的类
    ##初始化方法
    def __init__(self):                                     ##初始化
        self.url = 'http://www.waduanzi.com/'               ##他的url是首页,因为后边的都是首页加数字了
        self.tool = Tool()                                  ##他的tool是清理后空格

    ##定义一个发送请求的方法
    def Request(self,getUrl):                               ##定义request方法,参数是geturl
        html = requests.get(getUrl)                         ##html是请求参数的地址
        html_text = html.text                               ##html_text是html的text后
        return html_text                                    ##返回他的text格式

    ##定义一个获取准确字节的方法
    def Obtain(self,obtain):                                ##定义Obtain方法,有两个参数
        html_text = self.Request(obtain)                    ##html_text是他的参数,用上个方法返回来的text
        ##下边是定义一个正则表达式可以这么说了,好吧我承认,我不熟练,这个表达式我配了一阵,我看着谷歌配成功的,别的浏览器属性会跑。
        regular = re.compile('<div.*?post-box.*?post-author.*?<img target.*?>.*?<a.*?_blank".*?>(.*?)</a>.*?item-detail.*?item-title.*?item-content">(.*?)</div>.*?item-toolbar.*?fleft.*?<a.*?>(.*?)</a>.*?fleft.*?<a.*?>(.*?)</a>.*?</li>',re.S)
        itmes = re.findall(regular,html_text)               ##items 获取到findall所有符合到的,不过格式是一个列表,每项是元组
        number = 1                                          ##number=1就是计数器
        for itme in itmes:                                  ##因为是列表,要用什么,对遍历
            print('第%d个\n楼主:%s\n正文:%s\n点赞:%s\n踩:%s'%(number,itme[0],itme[1],itme[2],itme[3]))##输出格式是这样额
            print()                                         ##这个是换行输出
            number+=1                                       ##计数器就要+1
        return itmes                                        ##返回那个集合

    ##保存文件
    def save(self,data,name):                               ##定义save方法两个参数
        filName = 'page'+name+'.txt'                        ##定义一个名字
        f = open(filName,'wb')                              ##f = 定义的名字和能读写模式
        f.write(data.encode('utf-8'))                       ##写入data的utf8模式
        f.close()                                           ##关闭文件,随开随关才是好孩子

    ##操作打开保存
    def onesave(self,url,save):                             ##定义一个方法,就是打开后保存
        html = self.Obtain(url)                             ##html是运用上一个方法获取列表
        self.save(str(html),str(save))                      ##保存(str(html),str(save))第一个str是转换成字符串,第二个也是因为第二个要+连接的

    ##第几页
    def page(self,star,end):                                ##定义第几页的方法,两个参数,开始和结束
        if star == 1:                                       ##如果输入的1
            print('正在读取第1页')                            ##正在读取第一页
            self.onesave(self.url,star)                     ##就是打开保存第一页,url是初始化的首页
            print('第一页获取结束')                            ##第一页获取结束
            number = 2                                      ##然后number=2是要计数,因为第一页已经开始的所以从第二个
            for i in range(number,end+1):                   ##然后循环,从第二个开始,到end+1结束,为什么,因为for取头不取尾
                print('正在读取%s页'%i)                       ##正在读取i
                page = self.url+'/page/'+str(i)             ##page是页数,因为在网页得知几页几页是,主页+/page/几页的
                self.onesave(page,i)                        ##然后打开保存
                print('%s页结束'%i)                          ##输出结束
                time.sleep(2)                               ##等待时间,爬虫嘛,要有礼貌的爬
                number+=1                                   ##计数器
            if number == end+1:                             ##上边循环完了判断,计数器是不是=end+1了。不出意外就会
                print('加载结束')                             ##加载结束
                return False                                ##返回False
        elif star>1:                                        ##如果开始是大于一的
            number = star                                   ##就让计数器=输入的
            for i in range(star,end+1):                     ##循环从输入的和结束+1循环
                print("正在读取%s页"%i)                       ##正在读取
                page = self.url+'/page/'+str(i)             ##就是获取网址的
                self.onesave(page,i)                        ##打开,保存
                print('%s读取结束'%i)                         ##读取结束
                time.sleep(2)                               ##礼貌,要礼貌,论爬虫的素养
                number+=1                                   ##计数器不+1还有什么意义
            if number == end+1:                             ##循环结束了等于end+1
                print('加载已结束')                           ##循环结束
                return False                                ##返回False


duqu = Spider()                                             ##实例化
duqu.page(star=(int(input('请输入你要获取的开始'))),end=int(input('请输入结束页数')))  ##实例的page获取的开始,结束

  • 我怕缩进出问题我就复制粘贴了我的代码。就是这么懒,打我啊。
  • 代码完成是这样子滴。


    搜狗截图20180527151549.png
  • 好了我的代码就是这些。我类也是刚刚学的,所以就用了类
  • 可能是我总是试一试,网站好像emmm,把我拦截了,我没有用代理,不太熟就没做。
  • 爬虫嘛,要礼貌,礼貌。
好了又该下次见了,等我学了新知识,做下一个案例,砸门,下一次见,拜拜。!
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,530评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,403评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,120评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,770评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,758评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,649评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,021评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,675评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,931评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,751评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,410评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,004评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,969评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,042评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,493评论 2 343

推荐阅读更多精彩内容