一、HTML原理
二、网页基本原理
对于爬虫程序员来说,只要记住网页基本构成:HTML,CSS和JavaScript。
Html相当于骨架,Css相当于皮肤,JavaScript相当于肌肉
三、爬虫基本原理
1、基本流程
2、注意事项
2.1 首先用浏览器打开目标网站,进入开发者工具模式,分析网页结构或规则
2.2 获取网页源代码后,使用status查看状态码验证读取网页是否成功
2.3 明确要抓什么数据: Html代码、Json字符串(api接口,手机端大部分是这种数据格式)、二进制文件(图片,音频,视频等)、其他拓展名文件(css,JavaScript,各种配置文件等)
2.4 Javascript渲染页面处理:分析ajax接口,或使用selenium等库实现模拟JavaScript渲染
2.5 cookies在浏览器端,在访问动态网页时候浏览器会自动附带上它发送给服务器,服务器通过识别cookies并鉴定其是哪个用户,判断其是否登录状态,然后返回对应的响应
2.6 爬虫代理,突破自身IP访问限制,访问团体内部资源,提高访问速度,隐藏真实IP (防止被封禁或输入验证码登录)
2.7 检查robots.txt,在网站根目录后面加入‘/robots.txt’检查。 Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。当一个搜索蜘蛛访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果存在,搜索机器人就会按照该文件中的内容来确定访问的范围;如果该文件不存在,所有的搜索蜘蛛将能够访问网站上所有没有被口令保护的页面。