Cookies池的搭建

平时我们在对网站进行数据抓取的时候,可以抓取一部分页面或者接口,这部分可能没有设置登录限制。但是如果要抓取大规模数据的时候,没有登录进行爬取会出现一些弊端。

  • 对于一些设置登录限制的页面,无法爬取
  • 对于一些没有设置登录的页面或者接口,一旦IP访问频繁,会触发网站的反爬虫

所以我们可以构建一个Cookies池,存储用户名和cookie的映射。


以下是它的功能模块


Cookies池架构.png


1 . 存储模块


功能:存储着用户名与密码,用户名与cookie。这里我们使用redis中的散列的数据结构来存储关系映射。在Python中使用redis这个库来获取连接。


redis库中对散列的操作方法

  • hset(name,key,value) (为键名为name的hash表添加键值对)
  • hget(name,key) (返回键名为name的hash表中key的值)
  • hincrby(name,key,amount=1) (为键为name的hash表中key字段的值加上amount)
  • hdel(name,*keys) (删除键名为name的hash表中的key的映射)
  • hlen(name) (获取键名为name的hash表中键值对的个数)
  • hkeys(name) (获取键名为name的hash表中的所有键值对的键名)
  • hvals(name,key) (获取键名为name的hash表中的key的值)
  • hgetall(name) (获取键名为name的所有键值对)



    class RedisClient(object):
          def __init__(self,type_,website):
              self.client StrictRedis(host=REDIS_HOST,port=REDIS_PORT,\
                        password=REDIS_PASS)
              self.website = website
              self.type = type_
            
          def name(self):
              return "{type}:{website}".format(type=self.type,\
                        website=self.website)      
            
          def set(self,username,value):
              return self.client.hset(self.name(),username,value)
            
          def delete(self,username):
              self.client.hdel(self.name(),username)
                
          def count(self):
              return self.client.hlen(self.name())
            
          def get(self,username):
              return self.client.hget(self.name(),username)
            
          def username(self):
              print(self.client.hkeys(self.name()))
              return self.client.hkeys(self.name())
        
          def all(self):
              return self.client.hgetall(self.name())
        
          def random(self):
              return random.choice(self.client.hvals(self.name()))



2 . 生成模块


功能:是通过迭代取出accounts散列表(存储用户名和密码)中所有的用户名,判断在cookies散列表中是否有对应账号的cookies,如果没有,就调用模拟登录程序去获取cookie,然后写入redis中



    class CookieGenator(object):
        def __init__(self,website):
            self.website = website
            self.accounts = RedisClient('accounts',website)
            self.cookies = RedisClient('cookies',website)
            self.init_browser()
        
        def init_browser(self):
            # 根据浏览器类型初始化一个浏览器并返回
            
        def __del__(self):
            self.close()
    
        def close(self):
            # 执行关闭浏览器操作
        
        def process_item(self,cookies):
            # 遍历所有的cookie,取出每一个cookie的name和value字段,
            # 组成一个json并返回
    
        def run(self,accounts,cookies):
            # 判断每一个账号是否生成对应的cookie
        
        def new_cookies(self,username,password):
            # 不同的站点获取的cookie的方式不同,所以不同的站点可以扩展该类
            # 的子类,然后重写这个方法,实现各自获取cookies的方法
            



3 . 检测模块


功能:通过迭代拿出所有账号的Cookies,然后使用requets测试一下是否可用,如果返回的状态码不是200,那说明无效,把对应的用户名与cookie的映射删除。



    class VerifyCookie(object):
    
        def __init__(self,website="default"):
            self.website = website
            self.accounts = RedisClient("accounts",self.website)
            self.cookies = RedisClient("cookies",self.website)
    
        def test(self,username,cookie):
            # 测试对应站点,返回200说明cookie有效
            # 不同站点可以以此为父类进行扩展,重写该方法,实现自己的测试逻辑
            
        def run(self):
           # 迭代拿出所有的cookies,然后循环调用`test`方法测试是否可用
           # 如果cookie失效,就在redis删除对应的键值对
    



4 . 接口模块


功能:为爬虫提供接口,用于获取随机cookie(Cookie池最终也是要被爬虫使用的,所以需要提供一个网页接口用于获取Cookies)



    from flask import g,Flask
    
    __all__ = ['app']
    app=Flask(__name__)
    
    def get_conn():
        # 在g对象中设置属性
        # key:散列表的键名与value:RedisClient对象的映射
        # eg   accounts:weibo ----  RedisClient("accounts","weibo")
    
    @app.route("/")
    def index():
        # 首页内容
        return "<h2>Welcome to Cookies Pool System</h2>"
    
    @app.route("/<website>/count")
    def count(website):
        # 获取cookies的数量
        
    
    @app.route("/<website>/add/<username>/<password>")
    def add_attr(website,username,password):
        # 通过在url中填入相应信息为散列表中添加对应站点的用户名和密码
    
    @app.route("/<website>/random")
    def random(website):
        # 获取随机cookie
    
    def run():
        app.run()
    


5 . 调度模块


功能:开启三个进程,打开接口,生成Cookie,检测Cookie ,定时检测Cookie的可用性,生成Cookies,删除hash表中无用Cookies。



    class Scheduler(object):
    
        @staticmethod
        def api():
            print("API接口开始运行")
            app.run(host=API_ADDRESS,port=API_PORT)
            
        
        @staticmethod
        def generate_cookies(cycle=CYCLE):
            print("开始生成cookies")
            while True:
                try:
                    # 通过eval生成对应的生成器对象,然后生成Cookies
                except Exception as e:
                    raise e    
    
        @staticmethod
        def verify_cookies(cycle=CYCLE):
            print("开始检查cookies")
            while True:
                # 通过eval动态生成对应的测试类对象,然后执行测试
        
    
        def run(self):
            # 开启三个进程,调用上面三个方法
    


note: 附上代码地址Cookies池


小结:Cookies池对与爬取大规模数据很有用(有些页面设置了登录限制),单账号爬取太快可能会被封IP,可以通过切换账号来解决这个问题,另外要提升爬取效率的话可以配合使用代理来避免被反爬。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 195,898评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,401评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,058评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,539评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,382评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,319评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,706评论 3 386
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,370评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,664评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,715评论 2 312
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,476评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,326评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,730评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,003评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,275评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,683评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,877评论 2 335

推荐阅读更多精彩内容

  • 转载,觉得这篇写 SQLAlchemy Core,写得非常不错。不过后续他没写SQLAlchemy ORM... ...
    非梦nj阅读 5,359评论 1 14
  • 会话(Session)跟踪是Web程序中常用的技术,用来跟踪用户的整个会话。常用的会话跟踪技术是Cookie与Se...
    chinariver阅读 5,582评论 1 49
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,510评论 18 139
  • 湿衣小姐姐
    babybud阅读 272评论 0 2
  • 因为一些特殊情况,最近在家里休息,可是科室的一些事情,我都没有落下,就像最近又有哪个病人病情危重啦,哪个主任又是半...
    李苏珊阅读 336评论 0 0