首先使用chrome浏览器,找到网页要爬取内容的代码,鼠标选中,右键,选择菜单项“检查”
之后,就会在页面下方该选中位置的源代码,
这时,就可以查看class, p, title等标签。写python代码进行爬取了。
爬取凤凰新闻页面的新闻标题,简介,时间和链接。
代码如下:
import requests
from bs4 import BeautifulSoup
web_data =requests.get('http://news.ifeng.com/listpage/101231/1/list.shtml')
soup = BeautifulSoup(web_data.text,'lxml')
a = 1
for data in soup.select('.box_list'):
detail =data.select('.box_txt p')[0].text
time =data.select('span')[0].text
title =data.select('h2 a')[0]['title']
link =data.select('h2 a ')[0]['href']
print('%d.'%a,title,link,detail,time)
a = a+1
print("新闻条数:",a-1)
爬取截图如下: