通过前面的学习,你应该已经知道怎么提取到爬虫数据了。但是提取数据之后,我们应该讲数据保存起来,或者进一步应用起来,爬虫才有意义。爬虫最常用的数据...
在学习本小节的知识之前,对于Xpath的语法最好有一个简单的了解。如果不是很了解的,可以看一下我的另一篇文章Xpath之爬虫常用方法总结。 爬虫...
Xpath简介 XPath即为XML路径语言(XML Path Language),它是一种用来确定XML文档中某部分位置的语言。XPath基于...
什么是JSON JSON 指的是 JavaScript 对象表示法(JavaScript Object Notation),是轻量级的文本数据交...
json.dumps(),用于数据类型的转换json.dumps()用于将dict类型的数据转成str,因为如果直接将dict类型的数据写入js...
之前的文章中讲到,有很多网站为了防止爬虫程序爬网站造成网站瘫痪,所以我们的程序在模拟浏览器访问这些网站时,需要携带一些headers头部信息才能...
timeout参数的使用 在某些网络情况不好或者服务器端异常的情况会出现请求慢或者请求异常的情况,这个时候我们需要给请求设置一个超时时间,而不是...
如果你尝试了我在Python爬虫(二)Requests库题中讲述的response方式,发现有可能会获取不到网页源码(登陆知乎一定可以获取不到)...
什么是Requests Requests是用python语言基于urllib编写的,采用的是Apache2 Licensed开源协议的HTTP库...