Python网络爬虫的Scrapy实战一

任务

使用递归抓取简书用户信息

解释:获取到一个初识的用户url,我们需要对其进行请求,解析出这个用户的关注的和粉丝中再抽取url,循环往复,周而复始,获取他们的

  • 昵称-nickname

  • 关注数-followed

  • 粉丝数- following

  • 文章数-articles

  • 文字数-charlength

  • 喜欢数-likes

创建scrapy项目

scrapy startproject JianShu

生成爬虫

切换到项目文件夹中,在这里是JianShu文件夹,代码如下

cd  JianShu

然后生成爬虫,注意爬虫名不能与项目名相。

scrapy genspider 爬虫名 域名

scrapy genspider jianshu https://www.jianshu.com

构建爬虫各功能模块

scrapy爬虫框架,概括起来是

  • spider下的爬虫脚本负责业务逻辑,发起请求,解析数据。

  • middleware负责对爬虫进行伪装或者加代理

  • item将爬虫脚本中的请求解析的数据封装到数据容器

  • 并传递给pipeline以保存到csv、txt或者数据库中去。

  • settings存储项目各种参数

  • main主程序,运行开始爬数据

伪装请求头

更好地伪装浏览器,防止被Ban。

更换不同的user_agent,Scrapy使用Middleware即可

Spider 中间件(Middleware) 下载器中间件是介入到 Scrapy 的 spider 处理机制的钩子框架,可以添加代码来处理发送给Spiders的 response 及 spider 产生的 item 和 request。

步骤一

创建一个中间件(HeadersMiddleware)

middlewares.py

from scrapy.downloadermiddlewares.useragent import UserAgentMiddleware
from JianShu.settings import UserAgentList
import random

class HeadersDownloaderMiddleware(UserAgentMiddleware):
     """
    给请求随机加入伪装头headers
    """
    def process_request(self, request, spider):
        ua = random.choice(UserAgentList)
        if ua:
            request.headers.setdefault('User-Agent', ua)

步骤二

在scrapy中,我们先在settings.py中加入多个浏览器User-Agent,取消DOWNLOADER_MIDDLEWARES的前的注释,激活中间件。

settings.py

DOWNLOADER_MIDDLEWARES = {
   'JianShu.middlewares.HeadersDownloaderMiddleware': 400,
   'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
}

UserAgentList = ["Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
"Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;",
"Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)",
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)",
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1",
"Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1",
"Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11",
"Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11"
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; TencentTraveler 4.0)"
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; The World)",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Avant Browser)",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)",
]

settings.py中的MIDDLEWARES的路径,应该是:

     yourproject.middlewares(文件名).middleware类

如果你的中间件的类名和文件名都使用了RandomUserAgentMiddleware,那这个路径应该写成:

yourproject.RandomUserAgentMiddleware.RandomUserAgentMiddleware

tem容器-整理数据

将item理解成存储数据的容器,类似于字典。只不过这个字典可以还有很多功能,可以在scrapy中飞来飞去的

from scrapy import Item,Field

class JianshuItem(Item):
    nickname = Field()
    description = Field()
    followed = Field()
    following = Field()
    articles = Field()
    charlength = Field()
    likes = Field()

pipeline-存储到csv文件中

经过item整理后的数据,我们就可以通过pipeline保存到csv中去

import csv

class CSVPipeline(object):
    
    def __init__(self):
   #初始化csv

        self.csvf = open('data.csv', 'a+', encoding='gbk', newline='')

        self.writer = csv.writer(self.csvf)

        self.writer.writerow(('nickname', 'description', 'followed', 'fpllowing', 'articles', 'charlength', 'likes'))
        
        self.csvf.close()
        
    def process_item(self, item, spider):

        with open('data.csv', 'a+', encoding='gbk', newline='') as f:

            writer = csv.writer(f)

            writer.writerow((item['nickname'], item['description'], item['followed'], item['following'], item['articles'], item['charlength'], item['likes']))
        
        return item

再打开settings.py,取消ITEM_PIPELINES注释。让item与pipeline完美衔接,一个负责整理数据,一个负责保存数据。

ITEM_PIPELINES = {
    'JianShu.pipelines.CSVPipeline': 300,}

编写爬虫

使用到xpath解析

注意,response.xpath()得到的是selector对象(而且是selector列表),selector对象有extract方法。所以

解析都是一个人的关注、粉丝、文章数等信息的提取

nickname = response.xpath("//div[@class='main-top']/div[@class='title']/a/text()").extract()[0]

#返回li的selector对象列表

info_selectors = response.xpath("//div[@class='main-top']/div[@class='info']/ul/li")
        
followed_url = 'https://www.jianshu.com'+info_selectors[0].xpath("./div/a/@href").extract()[0]

followed = info_selectors[0].xpath("./div/a/p/text()").extract()[0]following = info_selectors[1].xpath("./div/a/p/text()").extract()[0]

articles = info_selectors[2].xpath("./div/a/p/text()").extract()[0]charlength = info_selectors[3].xpath("./div/p/text()").extract()[0]
        
likes = info_selectors[4].xpath("./div/p/text()").extract()[0]
        
description = re.sub('\s','',''.join(response.xpath("//div[@class='js-intro']/text()").extract()))   
        

关注列表解析,递归批量获取简书用户信息

  pages = int(float(followed)/10)

for page in range(1,pages+1):

    userlist_url = followed_url + '?page={page}'.format(page=page)
    
    yield Request(userlist_url, callback=self.parseuserlist, dont_filter=True)


def parseuserlist(self,response):
    
    url_list = response.xpath("//ul[@class='user-list']/li/div[@class='info']/a/@href").extract()
    
    url_list = ['https://www.jianshu.com'+url for url in url_list]
    for url in url_list:
         yield Request(url,callback=self.parse,dont_filter=True)

整理汇总爬虫-jianshu.py

from scrapy import Spider, Request
from JianShu.items import JianshuItem
import re


class JianshuSpider(Spider):
    name = 'jianshu'
    allowed_domains = ['https://www.jianshu.com']
    start_urls = ['https://www.jianshu.com/u/cf09bc3817a7']


    def start_requests(self):
        start_url = 'https://www.jianshu.com/u/1562c7f16a04'
        yield Request(start_url, callback=self.parse)
        
    def parse(self, response):
        item = JianshuItem()
        
        nickname = response.xpath("//div[@class='main-top']/div[@class='title']/a/text()").extract()[0]
        info_selectors = response.xpath("//div[@class='main-top']/div[@class='info']/ul/li")
        
        followed_url = 'https://www.jianshu.com'+info_selectors[0].xpath("./div/a/@href").extract()[0]
        followed = info_selectors[0].xpath("./div/a/p/text()").extract()[0]


        pages = int(float(followed)/10)


        for page in range(1,pages+1):
            userlist_url = followed_url + '?page={page}'.format(page=page)

            yield Request(userlist_url, callback=self.parseuserlist, dont_filter=True)
            

        
        following_url = 'https://www.jianshu.com' + info_selectors[1].xpath("./div/a/@href").extract()[0]
        following = info_selectors[1].xpath("./div/a/p/text()").extract()[0]
        print(following_url,following)
        
        articles_url = 'https://www.jianshu.com' + info_selectors[2].xpath("./div/a/@href").extract()[0]
        articles = info_selectors[2].xpath("./div/a/p/text()").extract()[0]


        charlength = info_selectors[3].xpath("./div/p/text()").extract()[0]
        likes = info_selectors[4].xpath("./div/p/text()").extract()[0]


        description = re.sub('\s','',''.join(response.xpath("//div[@class='js-intro']/text()").extract()))


        item['nickname'] = nickname
        item['description'] = description
        item['followed'] = followed
        item['following'] = following
        item['articles'] = articles
        item['charlength'] = charlength
        item['likes'] = likes
        
        yield item
        
    def parseuserlist(self,response):
        url_list = response.xpath("//ul[@class='user-list']/li/div[@class='info']/a/@href").extract()

        url_list = ['https://www.jianshu.com'+url for url in url_list]
        for url in url_list:
            yield Request(url,callback=self.parse,dont_filter=True)

当然为了方便调试,我们在项目的根目录创建一个main.py文件

main.py

from scrapy.cmdline import execute
import os,sys

sys.path.append(os.path.dirname(os.path.basename(__file__)))

#注意,jianshu是爬虫名,不是项目名

execute(['scrapy','crawl','jianshu'])

运行main.py文件即可。

这里再贴上完整的配置settings.py

settings.py

BOT_NAME = 'JianShu'

SPIDER_MODULES = ['JianShu.spiders']
NEWSPIDER_MODULE = 'JianShu.spiders'
"""
DOWNLOADER_MIDDLEWARES = {
    'JianShu.middlewares.HeadersDownloaderMiddleware': None,
}
"""
ITEM_PIPELINES = {
    'JianShu.pipelines.CSVPipeline': 300,
}

DOWNLOAD_DELAY = 0.1

ROBOTSTXT_OBEY = False


DOWNLOADER_MIDDLEWARES = {
   'JianShu.middlewares.HeadersDownloaderMiddleware': 400,
   'scrapy.downloadermiddlewares.useragent.UserAgentMiddleware': None,
}


UserAgentList = ["Mozilla/5.0 (Macintosh; U; Intel Mac OS X 10_6_8; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
"Mozilla/5.0 (Windows; U; Windows NT 6.1; en-us) AppleWebKit/534.50 (KHTML, like Gecko) Version/5.1 Safari/534.50",
"Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;",
"Mozilla/4.0 (compatible; MSIE 8.0; Windows NT 6.0; Trident/4.0)",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 6.0)",
"Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)",
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10.6; rv:2.0.1) Gecko/20100101 Firefox/4.0.1",
"Mozilla/5.0 (Windows NT 6.1; rv:2.0.1) Gecko/20100101 Firefox/4.0.1",
"Opera/9.80 (Macintosh; Intel Mac OS X 10.6.8; U; en) Presto/2.8.131 Version/11.11",
"Opera/9.80 (Windows NT 6.1; U; en) Presto/2.8.131 Version/11.11"
"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_7_0) AppleWebKit/535.11 (KHTML, like Gecko) Chrome/17.0.963.56 Safari/535.11",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Maxthon 2.0)",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; TencentTraveler 4.0)"
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; The World)",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Trident/4.0; SE 2.X MetaSr 1.0; SE 2.X MetaSr 1.0; .NET CLR 2.0.50727; SE 2.X MetaSr 1.0)",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; 360SE)",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1; Avant Browser)",
"Mozilla/4.0 (compatible; MSIE 7.0; Windows NT 5.1)",
]
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,189评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,577评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,857评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,703评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,705评论 5 366
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,620评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,995评论 3 396
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,656评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,898评论 1 298
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,639评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,720评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,395评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,982评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,953评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,195评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,907评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,472评论 2 342

推荐阅读更多精彩内容