前两周闲来无事,哦……也不是闲来无事,有事做的。有论文要读的,但是精神已经处于除了科研其他都想搞的状态,就把老早之前想练练手的爬虫项目拿出来琢磨琢磨。你说不误正业么?也不是啊,至少我是在学编程,码代码,大数据不爬拿来的数据?但是对于爬虫这个东西,我觉得搞搞就可以了,不用更深入研究,毕竟成熟的框架和语言在那里,直接改为自己的参数,然后调用,花点时间学习使用 就能学会的,所以我就一直没花时间学习……
之前看过很多网上的文章介绍爬虫以及实战项目,但是觉得爬的内容不喜欢,不喜欢爬漂亮妹子的图,不喜欢爬淘宝图片,也不喜欢爬今日头条,所以就一直搁着没管。前些天看到有爬微博及其对应评论的介绍,这个还要点兴趣,毕竟微博也是我比较多接触的APP,而且有想看的人和内容。所以就留意了下,并且集合百家之言,并且自己加了点东西,当然还是有不完美的地方,比如说不能爬图片,表情等。(但是这个可以通过访问wap格式 的网站爬取到,我闲费事,不想弄了)
=========================================
前面是废话,下面是正经的
这个脚本的功能主要有两个,
1. 爬取某个特定用户的微博信息,包括粉丝数,关注数,发微博的渠道,以及所发过的微博历史及其每一条微博下的评论用户,评论内容,评论渠道等等;这个功能是免登陆实现的,但是需要提供要爬取对象的 uid号。
2. 自动对某个用户的N条微博发表M条评论,N,M 都自定义,类似于水军刷评论的感觉………对,没错,就是那个。但是这个是要用自己的account账户登录的,而且小心一点,评论太多,微博会检测出你异常的,然后会封账号或者ip之类的。第一点爬内容的时候也是,爬取的次数太多,间隔太少,也会被封,貌似微博的反爬虫还是很不错的。所以,要想不被发现,相邻两次评论和爬取都要间隔一些时间,sleep一会。
下面放个图:
原谅自己太懒了,真的,今天真的没有做好写总结的状态~~
设置的是每个评论之间间隔60s,可以看到评论时间大概就是一分钟左右的间隔。
啊,好累啊。我发现要从头开始结束爬取的流程和方法要好多啊,突然就不想写了,……想弃坑了~~
想起来再更吧,我要会宿舍了。应该会传到github上吧。
路上爪机码字感悟,
我肯定没有成为知名博主的天分,!
不要脸的是不是可以求打赏,