20180807_Scrapy源码第一天

(只是为了记录自己对于scrapy框架的学习路径)

废话不多说先上图(跟先人学的)


老板要求,写个爬虫框架出来,结果自己直接import scrapy,被老板劈头盖脸骂过来,直接怂的不行,认错,收拾心情开始看源码。鉴于之前写的一部分scrapy的代码,结合上面的这个图,第一天也就说说自己对scrapy框架的一些基本理解。


目前我做的工程,主要目的是爬取,百度学术的一些论文数据。包括它的标题,摘要,作者等等。从这个工程的分布来看,主要有几个模块。

第一个模块就是spider里面的py文件,这个文件规定了一些基本信息包括爬虫的名称,start_url,以及页面response的主要解析过程。



我这边用parse来处理主要的url以及获取下一页url,再用request方法,callback里面设置parse_detail方法去解析每一个具体论文的网页。


有别的大神说如果你的爬虫写的够完美,利用了scrapy框架之后,遇到新的网站,你只要修改一个parse解析方法,就可以了。我不知道是不是吹牛皮,但至少现在看来,还是要修改很多东西的。包括item,数据库连接等等。

第二个部分就是item的部分。在其他地方好像也叫管道,他规定了scrapy存储下来数据的方式。在第一个模块中进行声明和实例化:


这个跟上面的parse_detail相对应。

第三个部分就是middleware,pipeline部分,其实实质上可以把两个都看成中间件,一个是固化中间件,一个是存储中间件。白话说就是,,,,middleware就是每次你跟网页请求的时候,过去的request经过一下middleware中间件,稍微给你做一个处理:


比如我这边就写了一下这个类,然后利用里面规定的process_request方法来处理并返回request,接受spider是为了跟你第一部分声明的spider相对应。这边有两种方法,一种是直接用spider的name跟middleware对应,一种是用meta,自己上去第一部分找一下meta的句子你就懂了,为什么在详情界面需要meta?因为需要点击“更多”这个按钮,来确保摘要加载完全。

接下来就是pipeline,你可以理解为管道,存储用的。我这边写了两个,一个是把结果写成json的class,另一个是把结果存到数据库的class:


好了,管道都铺好了,你们应该可以发现,上面的都是类,怎么实例化?或者说,怎么调用里面的方法?那就要说到最后一部分,setting了,设置管道在那儿,设置middleware在那儿,设置spidername,初始化等等。


具体运行机制或者说怎么调用我还不太清楚,但是这边就这么设置,最后还有两个要设置。

一个是浏览器非机器人模式,也就告诉浏览器,这不是一个robot在偷你东西。


另一个是利用user_agent.


两个都是为了防止浏览器反爬虫,都在setting里面加进去就好了。还有好多东西比如设置代理ip等等,我还没看,等看到再详谈。

第一次写,希望可以坚持下去,希望可以加油。

有什么不对的地方,欢迎大家狠狠批斗我,不能误导他人,谢谢。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 202,802评论 5 476
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,109评论 2 379
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 149,683评论 0 335
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,458评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,452评论 5 364
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,505评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,901评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,550评论 0 256
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,763评论 1 296
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,556评论 2 319
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,629评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,330评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,898评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,897评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,140评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 42,807评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,339评论 2 342

推荐阅读更多精彩内容