思路:网页>需要页的链接>请求链接>获取链接中需要的内容>保存
import requests
import bs4
from bs4 import BeautifulSoup as bs
for i in range(1,11)://获取11页的新闻数据
if i==1:
url="http://news.gzcc.cn/html/xiaoyuanxinwen/index.html"
else:
url="http://news.gzcc.cn/html/xiaoyuanxinwen/"+str(i)+".html"
r=requests.get(url)//获取每一页的链接
r.encoding='utf-8'//转化编码格式
soup=bs(r.text,'html.parser')//使用BeautifulSoup对数据进行格式化处理
a=soup.select('.news-list li a ')//获取HTML中的新闻页所在的a标签
for j in a:
w=j.get('href')//获取链接
w1=requests.get(w)
w1.encoding='utf-8'//转换编码格式
soup=bs(w1.text,'html.parser')
c=soup.select('.show-content')
d=c[0].get_text()//获取文本
path="C:\\Users\\Administrator\\Desktop\\zcy\\text"//设置保存地址
f=open(path+"\\"+w.split('/')[-1]+'.txt','a+',encoding='utf-8')//打开文件
f.write(d)//把数据写进文件
f.close()//关闭
path1="C:\\Users\\Administrator\\Desktop\\zcy\\photo"//创建图片保存地址
e =soup.select('div[style="text-align: center;"] img')//获取图片所在标签
for z in e:
r3=z.get('src')
r4=requests.get(r3)
f=open(path1+"\\"+r3.split('/')[-1],'wb')
f.write(r4.content)
r.close()
---------------------
作者:不要怂,就是干
来源:CSDN
原文:https://blog.csdn.net/weixin_42013825/article/details/86746347
版权声明:本文为博主原创文章,转载请附上博文链接!