240 发简信
IP属地:河南
  • 爬取苏宁图书

    爬取苏宁图书 创建项目 创建爬虫 首页大分类 首页大分类下的小分类 小分类下的图书

  • 下载中间件

    下载中间件 下载中间件是scrapy提供用于用于在爬虫过程中可修改Request和Response,用于扩展scrapy的功能 使用方法: 编写...

  • Scrapy下载图片

    下载文件和图片 scrapy为下载item中包含的文件提供了一个可重用的item pipelines,这些pipeline有些共同的方法和结构,...

  • scrapy模拟登录

    scrapy模拟登录 为什么需要模拟登录? 获取cookie,能够爬取登录后的页面 回顾: request是如何模拟登录的? 1 直接携带coo...

  • Scrapy中CrawlSpider

    之前的代码中,我们有很大一部分时间在寻找下一页的URL地址或者内容的URL地址上面,这个过程能更简单一些吗? 思路: 1.从response中提...

  • Resize,w 360,h 240
    Pipeline-item-shell

    1 使用pipeline 从pipeline的字典形可以看出来,pipeline可以有多个,而且确实pipeline能够定义多个 为什么需要多个...

  • Resize,w 360,h 240
    scrapy框架

    为什么要学习scrapy 什么是Scrapy Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架,我们只需要实现少量的代码,就能...

  • Python-GIL

    面试题 描述Python GIL的概念,以及它对Python多线程的影响 1.主线程死循环 while True: pass 2.2个线程死循...

  • Resize,w 360,h 240
    多任务-进程

    进程和程序 进程:正在执行的程序 程序:没有执行的代码,是一个静态的 进程的状态 使用进程实现多任务 multiprocessing模块就是跨平...

个人介绍
人生苦短,我用Python