简单爬取松花江新闻网新闻[http://www.shjnet.cn/ms/msxw/]
1、先分析网页的源码查看要爬取的内容在什么位置
2、分析html取到想要的内容
1、 查看源码
发现我们要的数据在<h4 标签下
2、通过编码通过requests获取网页源码
html = requests.get(url).content
然后通过BeautifulSoup找到我们想要的标签
links = soup.find_all('h4', class_='blank')
这样就爬取到新闻列表的数据
3、接下来通过列表爬取到的url去获取详情的内容,方法同上面一样
直接贴源码:
#!/usr/bin/env python
# coding:utf8
import sys
import requests
from bs4 import BeautifulSoup
reload(sys)
sys.setdefaultencoding("utf8")
url = 'http://www.shjnet.cn/ms/msxw/index.html'
def getNewsList(url, page=0):
if (page != 0):
url = 'http://www.shjnet.cn/ms/msxw/index_%s.html' % page
html = requests.get(url).content
soup = BeautifulSoup(html, 'lxml')
links = soup.find_all('h4', class_='blank')
for link in links:
detailUrl = "http://www.shjnet.cn/ms/msxw/" + link.a.get('href').replace('./', '')
print "-------------------------"
print "新闻标题:" + link.a.get_text() + " 详情地址:" + detailUrl
getNewsDetail(detailUrl)
page = int(page) + 1
print soup.select('#pagenav_%s' % page)
if (soup.select('#pagenav_%s' % page)):
print u'开始抓取下一页'
print 'the %s page' % page
getNewsList(url, page)
def getNewsDetail(detailUrl):
html = requests.get(detailUrl).content
soup = BeautifulSoup(html, 'lxml')
links = soup.find_all('div', class_='col-md-9')
for link in links:
# print link.span.get_text()
# print link.h2.get_text()
# print link.find('div', class_='cas_content').get_text()
if (link.find('div', class_='col-md-10').select('img')):
imgs = link.find('div', class_='col-md-10').find_all('img')
for img in imgs:
print "图片:" + detailUrl[:detailUrl.rfind('/')] + "/" + img.get('src').replace('./', '')
if __name__ == '__main__':
getNewsList(url)
效果:
本文使用的python为2.7
爬取中遇见的问题
- 打印
html = requests.get(url).text
乱码
咨询了小分队群里的同学们,得到解答。
.text
返回的是Unicode型数据。
.content
返回的是bytes型也就是二进制的数据
然后把html = requests.get(url).content
解决乱码问题 - 拼接详情url时,去掉
./
多余的字符串
link.a.get('href').replace('./', '')
- 获取详情内容时报错
原因是需要添加
http://
开头
- 第一次使用BeautifulSoup 查看了向右老大的简书了解使用方法