老婆是影楼做后期的,经常要下载模板,看老婆点开86ps.com网站,一个一个点,然后找下载地址,这过程真是麻烦,既然咱是搞程序的,虽然前面学python都是跳过爬虫这一块,但看一下,在实践一下,爬下网站的下载地址是没问题的。
先看总结吧
主要用到的模块和相关软件
urllib,re,scrapy,mysql,raspberry,multiprocessing,python3
第一阶段为初步学习阶段
先看一下最基础的爬下一个页面的原理
非常简单,这几句话就行了。就能看到整个网站的html结构
然后我们分析一下网站的html结构
然后在用正则匹配(我当时爬的时候他们是ThumbImg的class,后来换了)
这里我是匹配的下载的那个div,最开始是直接匹配下载地址,后来看到下载地址有很多一不样,就先匹配这个div,在匹配到这里面的地址
由于网站的多个地址都是一个下载地址,只返回一个就够了。
有人问我这里怎么不直接匹配下载地址,看到有的页面有时候不只有这个文件的下载,还有一些其它的东西,就先匹配到这个div,在来找地址。
在看网站的页数,直接开始循环
下面开始循环工作,我这里从34开始是断电了,然后就停止了,就从34直接开始了,后面会讲讲一个系统怎么完善。
然后等他工作完成,完成后点开sz.txt看到所有下载地址全部爬完