python2的好处:1,稳定;2,成熟的模块和库;3,实际生产中多;4,掌握python2后过渡python3容易
获取数据的方式:1,企业产生的数据;2,数据平台购买;3,政府机构公开的数据;4,数据管理咨询公司;5,爬取网络数据
html抓取(crawl),html解析(parse),scrapy框架,scrapy-redis框架,爬虫(spider)、反爬虫(anti-apider)、反反爬虫(anti-anti-spider)
网络爬虫:通用爬虫、聚焦爬虫
NDS是由解析器和域名服务器组成
https在http下加入加入ssl层
ssl在传输层对网络连接进行加密
http端口:80
https端口:443
协议://ip或域名:端口/路径/?参数#锚点
报文的一般格式:(请求行,请求头部,空行,请求数据)
请求行:请求方式|空格|url|空格|协议版本|回车|换行符
请求头:头部字段名...值|回车符|换行符
...
请求头:头部字段名...值|回车符|换行符
回车符|换行符
请求数据:
http响应:(状态栏、消息报文、空行、响应正文)
cache-control:no-cache,'那就不缓存呗'
request参数:url,data(默认空|默认是get,有数据的是否自动改为post),headers(默认空|参数为字典报文头的键值对)
urllib2默认只支持get和post请求
urllib提供了urlencode方法产生get查询字符串
编码工作使用urllib的urlencode()函数