网络爬虫:就是模拟客户端发送网络请求,接收请求相应,一种按照一定的规则,自动地抓取互联网信息的程序。
网页的三大特征:
网页都有自己的URL(Uniform Resource Locator,统一资源定位符)来进行定位,每个网页都有一个位移的URL。
网页都用HTML(超文本标记语言)来描述页面信息。
网页都用http/https(超文本传输协议)协议来传输数据。
爬虫的设计思路:
1、首先设定需要爬取的网页的URL地址;
2、通过HTTP协议来获取响应的HTTP页面;
3、提取HTML页面的信息:
a、如果有用的数据,那就保存起来;
b、如果是需要继续爬取的链接,重新指定第二步。
python3环境下str与bytes类型数据的转换:
bytes:二进制
互联网上数据都是以二进制的方式传输的
str:unicode的呈现形式
注意点:encode方法与decode方法需要解码方法一致,默认为utf-8如:a.encode('utf8'),另外还有gbk。如使用a.encode('utf8'),则,a.decode('utf8'),这两个方法的参数必须对应一致。
Unicode UTF8 ASCII的补充
字符(Character)是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等
字符集(Character set)是多个字符的集合
字符集包括:ASCII字符集、GB2312字符集、GB18030字符集、Unicode字符集等
ASCII编码是1个字节,而Unicode编码通常是2个字节。
UTF-8是Unicode的实现方式之一,UTF-8是它是一种变长的编码方式,可以是1,2,3个字节