网页可分为三大部分——HTML(网页源代码)、CSS(样式)和JavaScript(交互、动画效果)。
爬虫就是获取网页并提取和保存信息的自动化程序,主要可分为以下三个步骤:
(1)获取网页源代码(向网站服务器发送一个请求,返回的响应体便是网页源代码)。用来请求源代码可使用的库:urllib、requests等;
(2)提取信息(分析网页源代码,提取信息)。用来提取信息的方式有:正则表达式、BeautifulSoup等;
(3)保存数据。用来保存数据的库有MySQL、MongoDB等。
Attention,Please!
JavaScript渲染界面:现在网页越来越多采用Ajax、前端模块化工具来构建,整个网页可能都是由JavaScript渲染出来的,也就是说原始的HTML代码就是一个空壳;
在网页查看页面源代码时,Elements选项卡中的源代码可能经过JavaScript操作而与原始请求不同,需要从Network选项卡部分查看原始请求得到的源码。