小猪前三页的抓取。。。最基本的东西全忘了。导致只抓了3行数据经过老师开导自己研究。。发现时懒癌再生直接copy selector了上述是错误的。
当selector如下后就抓取到了好多的网站。
然后就是关于不停测试导致
出现好多重复的情况。如何去重昨天查了一下好像比较简单。但是对于一个比较懒的人。。还是等需要的时候在研究下。。
大致如上。。如何去重
手机号的爬取
这个是手机号的抓取。。然后太懒了。。没写headers。因为觉得单纯加headers代码的健壮性还是不够。之后大作业会有大量数据抓取光是headers应该没什么大用
58同城。。。
先提取所有连接,主要还是观察页面。后面有用,,,
分页具体的信息爬取但是还是无法剔除zhuanzhuan
跳过404页面
主程序有时候导入不进去库不知道为什么。。自己再看看吧
![Uploading Paste_Image_270456.png . . .]
算下数字。。
还不知道能爬多少。等等再试试
赶集大作业。。。
粗略看了下第三周课程。。。真他妈难。。
爬了上海的。。因为想看看是不是自己有用的到的地方。。
代理上面还存在问题可能是代理的IP有问题。暂时无法做到很好的反爬数据爬个几万条就被抓到了。。。下次试试用各种手机端模仿登录再试试。
![Uploading Paste_Image_394864.png . . .]
404抓取。。好怕下次发现不了有什么就不会了。。
不太明白断点续传的问题。。。还是需要重新检测一遍MONGDB里面存不存在再爬还是什么。。多进程。。不敢用不知道自己电脑是啥程度。。
![Uploading Paste_Image_514857.png . . .]
记数字、、