例子:本文使用requests、xpath库模拟爬取糗事百科的段子内容。
导入爬虫时所用的库
import requests #导入requests 库
from lxml import etree # 导入lxml
建立user-agent(用户代理):,模拟浏览器访问。
headers = {'user-agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko) Chrome/14.0.835.163 Safari/535.1'}
单页数据爬取和多页数据爬取
#爬取单页内容
url='https://www.qiushibaike.com/hot/'
r= requests.get(url,headers=headers,timeout=20).text #使用get方法获取数据,timeout:设置设定秒数结束之后停止等待响应
s= etree.HTML(r)
xiaohua=s.xpath('//a[1]/div/span/text()')
#爬取多页内容
for page in range(9):#定义页数为9。
r=requests.get('https://www.qiushibaike.com/hot/page/{}/'.format(page),headers=headers,timeout=100).text
s= etree.HTML(r)
xiaohua=s.xpath('//a[1]/div/span/text()')
爬取后导入txt文件中
with open ('xiaohua.txt','w',encoding='utf-8')as f:
for i in xiaohao:
f1.write(i)
爬取后导入到CSV文件中
import pandas as pd #导入pandas库
b1=pd.DataFrame(xiaohua)#需将list内容先转化为DataFrame类型
b1.to_csv('xiaohua.csv')
本文仅做学习专用,未做商业活动,如有侵权,请联系删除