学习情况概要
学习时间:1个月
操作环境:Python版本,2.7;PyCharm版本,2017.1;电脑:Win7
学习资源:『Python爬虫小分队』作业布置
学习过程回顾
我是出于换工作的目的来学习python爬虫的,很幸运的进入到了@向右奔跑的爬虫微信群的学习大家庭中。由于对这门语言了解有限,并且网上也没比较好的学习方法途径,所以自己每天就是跟着老师布置的作业来学习的,目前来看的话这样做入门学习比较好的方法:
- 了解知识点
- 结合小项目实际操作理解
- 群内自主提问答疑
当然最关键的是,老师会根据自己的理解,让大家有重点的学习掌握他认为比较关键的知识点
我就是根据上图的课程安排来学习的
准备开发环境,Python语法基础#####
在准备开发环境和Python语法基础上自己遇到的困难相对少一些,道理很简单,这个时候大多以看书/视频为主,涉及自己敲代码的机会还不是很多,并且之前自己是有一定的编程基础的,所以这2门课程自己学的还比较顺利,逻辑思维3题训练,虽然万年历这个作业一直没来得及做:(
HTML基础,网页结构特点#####
对于HTML基础,网页结构特点,这一门课程来说,自己属于一笔带过的,实在是学习时间有限,当然这也给后续的学习带来了很多困扰
正则表达式#####
爬虫的核心结构有三点,请求,解析,以及存储
正则表达式就是解析办法的一种,正则的知识点也比较多,一开始花了很大精力去研究,后来发现很多情况用(.*?)
去解决就行了,如果想测试自己的正则写的对不对,百度正则表达式测试工具,可以获得结论。在学这门课程的时候,自己投入的时间比较多,并且大多用urllib
去解析网页,后来发现这不是后期爬虫的主要方法,有点忧伤T T
BeautifulSoup#####
这是解析网页的另一种办法,利用第三方库来获取url中你想要的东西
find(),find_all(),select()
是三种比较常用的方法,我用的比较多的是用select()
,按照标签逐层查找到所需要的内容,怎么说呢,BeautifulSoup跟正则表达式来说各有各的好,我也讲不清哪里好,反正能获取你要的东西就行
其余的课程#####
没学
学习总结#
从结果来看,1个月就学了这点东西说实话其实是很少的,问题在于自己的学习时间的确有限,自己把能利用的时间都投入到Python的学习中,可是效率的确低了点。除了时间有限之外,不知道是不是自己的学习方法有问题,我遇到问题时大都一脸懵逼,然后就去百度看别人的代码,一不小心,就把自己的代码全改了,只能说明基础知识掌握的还是太差,解决问题的能力几乎为0。就像写作文的时候,别人拿到个题目就开始奋笔疾书,可我想了半小时,不知道该写点什么。说实话有时候自己也挺有挫败感,第一感觉代码都是抄别人的,自己写不来;第二遇到问题搞了很久就是解决不了,时间都花上去了,问题可没解决。看着其他小伙伴进步飞速,自己颇感压力,不过值得庆幸的是,自己学习欲望还是比较强烈的。回过头来看,自己所学所用还真的只是皮毛,革命尚未成果,同志还需努力啊!
后续学习过程要解决的问题就是,如何在有限的时间内,更高效的学习。
另外提一点,自己在后续学习过程中,私下问@攀攀同学的次数较多,因为之前直播分享如何爬虫的时候,感觉他的声音很友好,好感指数+1。当然@向右奔跑彭老师也很负责,说实话我心里满满的钦佩之情。该有的感谢还是需要表达一下的
学习成果#
虽然效率低了点,但是自己还是较一开始有所进步的
首先自己会爬一些貌似叫静态网页的图片
其次自己会用
BeautifulSoup
爬糗百的段子和相关信息,不过很可惜自己还没按自己的想法保存到本地Python!Python!小弟我多久以后才能和你在工作中并肩作战呢?