import scrapy
from bs4 import BeautifulSoup
class BdSpider(scrapy.Spider):
name = 'bd'
allowed_domains = ['news.baidu.com']
start_urls = ['http://news.baidu.com/ns?word=%E4%B9%A0%E8%BF%91%E5%B9%B3&tn=news&from=news&cl=2&rn=20&ct=1']
def parse(self, response):
# print(response.body.decode())
response = response.body
response=BeautifulSoup(response,'lxml')
newslist = response.select('div.result')
for news in newslist:
title = news.select('h3 a')[0].text.strip()
print(title)
pass
Python 爬虫 bs4 简用
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- 不止一次让我感谢一个人,那就是程程老师!从零基础开始学起Python爬虫过程中,从完全无知,到逐渐了解了专业的一些...
- 【作者:0han 未经授权请不要转载】 8/29更新: 由于发现昨天的代码所爬的网站资源太少,而且没有翻页,所以换...