爬虫:一段自动抓取互联网信息的程序
价值:互联网数据,为我所用!
简单爬虫架构
简单爬虫架构-运行流程
URL管理器
URL管理器:管理待抓取URL集合和已抓取URL集合
- 防止重复抓取、防止循环抓取
- 实现方式
网页下载器
网页下载器:将互联网上URL对应的网页下载到本地的工具
python有哪几种网页下载器?
Resource is from www..imooc.com/learn/563
- 防止重复抓取、防止循环抓取
- 实现方式
Resource is from www..imooc.com/learn/563