学习python 115小时后,告诉想学爬虫的你,别怕,爬虫,没那么难抓!

文|寻找不同的蜜蜂

学习python 115h,约4.8天,5堂爬虫课,3个实战项目(豆瓣图书,51job和爱奇艺),编程小白的我,也可以悠然自得,爬取网页信息了。这点成绩,在编程大神眼中,不值得一提。但在自己眼中,确实是一个飞跃,一个突破。

1/ 编程,心中的痛

2008年的7月,那是我过的最不开心一个暑假。90多分的高数带着50多分的C语言回家。这是我大学期间第一个挂科。都说没有挂科的大学是不完整的,但是等你挂了以后,才发现更不完整。

仔细回想那一学期的学习状态,这样的结果也算是合情合理。

首先,在学习C语言时,仅靠上课和少量的课后习题,压根不够。相比在高数上花的时间,没法比。这就是典型的偏科。话说,看到那些代码,就头晕发怵。

其次,对于计算机编程而言,最重要的就是码代码,然后不断调试,最后输出结果。这才是,这门课正确地打开方式。按不说人话的方式解释:及时反馈,在学习过程中的正向激励作用。

2/ 怎样学编程

编程就如同你学习开车,即使,你可以一口气,说出一辆车的全部零部件,以及内燃机进气、压缩、做功和排气过程,但你就是不去练如何开车,怎么上路。你确定,你敢开吗?你敢开,我也不敢坐。

图片发自简书App

同样地,学十几年的英语,应该也有10000 h+,按照一万小时定律,你我英语水平应该都不错,至少能和老外谈笑风生了吧!

实际呢?面对漂亮的金发女郎,你不敢说,缺乏自信,怕嘲笑,中式英语,说一句想十句。妹子撩不到,反而成为笑柄。

英语面试时,灵活的问题让你力不从心,之前的准备,全部成泡影。最终,专业面过,却死在英语上,不能得到心仪工作。多么可惜!

图片发自简书App

学习编程、开车和英语,都有一个共同特征:需要不断练习,练习,再练习。最终,达到,像卖油翁一样境界。我亦无他,惟手熟尔!

掌握一门新技能,上课只能吸收10%,与人交流吸收20%,大量练习才能掌握70%。这就是著名的721定律。

3/ 初识python

大学4年,硕士3年,留学2年,这些年,我和编程形同陌路,不再交集。曾想,编程那段黑历史,将会被埋藏于心,永远不在触及。

人总是会把话说的太早,太绝而不留余地。每次都是不断打自己脸,不停地打,打到已经无感。

2018年某一天,python突然变得很火。媒体宣传学习python的巨大好处与前景。原因很简单,人工智能将python推向了顶峰。

一时间,全民编程的浪潮此起彼伏。python 列入全国计算机二级取代VB,部分城市试点,python引入高中。互联网时代,已经离不开编程。

爬虫、开发网页、开发游戏、数据分析几大用途映入眼帘。第一次听说爬虫,倍感好奇。曾猜想,编一个蜘蛛出来,什么鬼?查阅后才知道,通过程序,爬取网页数据,达到数据收集目的。

图片发自简书App

此时,脑洞大开,放只爬虫,游离于互联网,爬取最热图书、最热电影、批量下载图片和歌曲和招聘信息等等。

这是多么有意思事情。想到这个,不免会心一笑。但是,一想到,大一C语言的黑历史,就只能,呵呵!

大一编程学那么差,都挂科了,50分啊!时隔9年,你觉得,编程小白,能学会的概率有多少,别搞笑了,好吗?

这是充满否定和鄙视的挑衅。(我怎么可以这么说自己!)如果,换成以前的我,我会认怂。是的,我不敢跨越黑历史,我不敢揭开那伤疤,我不想被嘲笑,我怕失败。

但是,现在的我,却发生巨大变化。认知的提升,思维的转变,一个新的指南针,在迷茫中,给我方向。

感谢那些,曾陪我度过孤单岁月的鸡汤、励志、认知和思考类的书籍。

不管,这些书是否含有成功学的意味,但是,我深深的明白,我快30岁了,我能试错的机会,越来越少,成本越来越高。

岁月流逝,未曾感受,如此之快。

保持学习新知识的能力,将成为今后快速迭代升级必备能力。多一个技能,多条路。用20%的时间,掌握一个技能的80%,就是胜利。记不清在哪,看过这样一句话,不管有多难,请把自己活成一支军队。

如何用有限的班后时间,做到入门爬虫这个技能,是我当前的主要目标。我清楚,我不需要花大量时间和精力,让它如数家珍。

因为,我不是专业出身,我已经不在年轻,能扛得住N年码代码的身心俱疲。毕竟,中年危机就在不远的5-6年。码代码,最后,拼的也是身体!

4/ python学习之路

前面也谈过著名的721定律,因此,学习python最好方法,就是以练带学,不断思考和总结。

1)上课,过一遍基础知识点

对于小白的我来说,一定要先过一遍基础知识,了解这个语言的语法规则和结构,比如,常用的列表、字典等的用法。

建议通过视频学习,这样不但节省时间,而且效果很好。学习网站可参照之前文章<<如果,这辈子不这么做,你也只能活在妒忌别人的怪圈中,而无能为力>>

图片发自简书App

2)上课,过一遍爬取流程

在熟悉基本基础后,就可以了解爬虫的基本模块,以requests和beautifulsoup为例。

Requests用来下载html 到本地,也就是网页源代码。Beautifulsoup用来解析html,使用css选择器,选取指定的信息(如:评论、阅读量等等)。

最后,将爬取信息,保存在txt和csv格式,用于后续数据分析。这份信息汇总,包含你需要的所有内容。

3)做项目,练习总结

在掌握流程和基本知识以后,就可以实战做项目。在做第一个项目时,问题一定特别多,不要急。这是一个快速爬坡的过程。能否回忆起那个陡峭的学习曲线?问题越多,学的越快。

我做的第一个项目,爬取豆瓣不同标签下最热书单,最终生成词云图(目前,阅读量2800+,感谢大家的支持)。

在本次实战中,问题真是,接连不断,非常打击自信心。自己问过了,无力。度娘问过了,无解。大神问过了,不理。

清晰记得,好几个晚上,毫无进展,停滞不前。对着闪动的光标发呆,写了删,删了写,不断报错,无法debug。

一晚上,碌碌无为,无奈、无助和无解,换来疲惫的身体和大脑。怀疑人生,似乎变得更加有意义。

这些问题,你是否也遇到过?

1)CSS就是选择不上需要内容,输出结果,不是空,就是空!html代码,看得云里雾里。

2)爬下来html一堆乱码,csv结果无法识别,又是乱码,全是乱码,你大爷的,抓狂心都有了。

3)爬一半,报错,无法解码,index 出错,各种错,你错上瘾了,是吧!

4)爬取下来,列表里面数字,无法进行列表的乘除运算,已经int()过,怎么破!

5)代码没变,刚才还能爬下内容,过一会,一个毛也爬不下来,什么情况啊!一下午,就这么浪费了,砸电脑的心的都有。

第一个项目,往往是最难的,但也是刻骨铭心的。流程不熟悉,结构不了解,体系不全面,知识碎片,散落一地,没有形态,真是一地鸡毛。

但就在这种让人近乎绝望的情况下,各个知识之间的关系,逐渐清晰起来,一张知识网逐渐形成。加把劲,这才刚刚开始。

在此基础上,还需要做2件事情,会帮助完善,这张独一无二的知识网,并且越来越密,却来越结实。

4)出报告

每完成一个项目,总结报告,必不可少。一份报告记录这个任务的目的、分析过程和结论,其中,很多细节,将帮助你,加深对项目的理解,以及相关知识的应用。梳理框架,对后续类似项目都有指导意义。

先注重流程逻辑,再考虑设计,不断思考去完善。报告,教程,作品,它们之间的距离,会越来越模糊,你的个人品牌,会越来越显著。

图片发自简书App

5) 总结,搭建知识网络

仔细回忆做项目的过程,拿出纸笔记录流程,几个项目下来,你的项目网络框架就基本搭建完成。

其中,高频知识点,将通过这张网有逻辑地链接起来,它们彼此之间,具有很强的相关性。

还记得初中化学,学过的化学分子结构吗?碳原子通过单键、双键和三键彼此连接,键越多,越难断裂。

知识点彼此连接,越紧密,越难忘记。这就解释了,为什么你孤立地学习一些知识,很容易忘记,真正用的时候完全想不起来的原因。

就拿爬虫为例,在爬取网页时,

(1)需要html中css的知识,找出对应内容的css选择器;

(2)需要列表的知识,将爬取下来的内容,分别存放在不同的列表中;

(3)需要字符串的知识,剔除爬取下来的无用信息等等。

孤立的学习这些知识,顶多让你知道它是什么,仅此而已。而不会知道,在什么情况使用,以何种逻辑关系相互连接。

结构化学习,才是你我需要真正培养的能力。

图片发自简书App

115个小时,我进入一个陌生领域-爬虫(聪明的你,完全不需要这么久)。疯狂练习,结构化思考,将帮助你,快速遇见未来的自己。


相关文章:

1)爬取豆瓣近4000本书,爬虫告诉你,在热门标签下,大众都喜欢看什么书?

2)爬取60000个岗位,爬虫告诉想要找或换工作的你,城市和行业,该怎么选?

3)那些在爱奇艺10000000000+播放量的影视作品,你追过几部?

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 196,099评论 5 462
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 82,473评论 2 373
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 143,229评论 0 325
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,570评论 1 267
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,427评论 5 358
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,335评论 1 273
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,737评论 3 386
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,392评论 0 254
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,693评论 1 294
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,730评论 2 312
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,512评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,349评论 3 314
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,750评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,017评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,290评论 1 251
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,706评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,904评论 2 335

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,140评论 25 707
  • 捻一段红尘添袖香,掬一池清水染红装。 花开花落有时尽,独留芳香绵更长。 收到一捧花,放在房间内,淡淡清香若隐若现。...
    牧戎云越阅读 283评论 0 0
  • 亲爱的菡妤宝宝 你好! 时光在青春的草地上沉淀的浅斟低唱,岁月在我们不经意间悄悄溜走。凝...
    管小妤阅读 512评论 4 12