1. 我为什么要学习爬虫?
- 为了更好的学习python
- 可以实践到很多的前端知识
- 可以熟练使用selenium来定位元素
- 可以更好的了解网站的架构
- 可以更好了理解http/https协议
- 可以锻炼编码能力
2. 爬虫前的思考
- 网站对于爬虫着的限制
- robots.txt
- 搜索引擎访问网站时,访问的第一个文件,在站点根目录下搜寻该文件
- 怎么找到该文件?
在网站的根目录下
- 通过站点地图来了解网站的URLs
Sitemap.xml怎么找到?
- 估算网站规模
- 识别网站所使用的技术: python的模块builtwith
- 识别网站的所有者:python的模块python-whois