爬虫入门到放弃系列04：我对钱没有兴趣

前言

我们身处大数据时代，数据趋于透明化、公开化，我们是否就可以拿着数据为所欲为？几年前很多人向往着"车厘子自由"，同样在也有很多人也追求着技术自由。时至今日，我们可以在合法的范围内自由应用技术，那么对于爬虫的合法化，到底有哪些的法律可以来界定？

在很长的一段时间内，很多人谈爬虫色变，同时很多调侃爬虫的段子也应运而生。

因为兴趣学习了爬虫，后来也承担下了爬虫开发的工作。我也是被调侃大军中一员，甚至有一段时间我也都有点不敢开发爬虫了，现在想想，有点盲目了... 所以本篇文章着重于这一方面来展开，毕竟克服恐惧最好的方法就是去了解它。

法律条文

我曾经跨过山和大海，也穿过人山人... 经过我的百度，发现和爬虫直接相关的法律条文就只有两条：

从上图可以看出，在上述法律中只要爬虫程序不破坏别人的服务器、不影响网站正常运行即可，一般通过限制请求的频率和线程数量就可以避开这个雷区。但是，往往最简单的问题都会伴随着一个经典案例。

2019年，某互联网公司200人因为一段爬虫程序被抓的消息传得沸沸扬扬，起因是一技术小哥对爬虫程序没有限制请求频率、并增加了线程数后进行测试，下班忘了停止程序，大半夜导致目标网站的服务器宕机了，然后被顺着网线找到了... 当然，最后200人大多数都没事，技术小哥承担了主要责任，而一开始技术小哥由于缺乏这一方面的法律认知，抱着"技术无罪"的心态，导致这个事情走向了极坏的结果。

从这个案例可以明白，限制请求频率是多么重要！！正如我前面文章所写，开发爬虫要不仅要考虑本身程序性能，更要考虑网站用户数量级对应的网站服务器规模和性能，有的网站的服务器可能只有一台，还是服务共用的。

除了上述的法律规定了爬虫开发规范，是否还有其他的法律可以间接影响着爬虫的应用。

案例分析

非法侵入计算机信息系统罪

《刑法》第二百八十六条还规定，违反国家规定，对计算机信息系统功能进行删除、修改、增加、干扰，造成计算机信息系统不能正常运行，后果严重的，构成犯罪，处五年以下有期徒刑或者拘役；后果特别严重的，处五年以上有期徒刑。而违反国家规定，对计算机信息系统中存储、处理或者传输的数据和应用程序进行删除、修改、增加的操作，后果严重的，也构成犯罪，依照前款的规定处罚。

非法入侵系统，这不是黑客的工作么，这个和爬虫程序有啥关系，爬虫又不能进入到后台系统？网站的反爬技术一般是通过参数加密等手段，类似于操作系统的密码，以此来阻止爬虫获取数据，在广义上爬虫破解反爬技术也算是非法入侵的一种。而爬虫衍生出来的产业：验证码识别服务贩卖、SEO，如果为不法分子提供了相关的服务，同样也算是非法入侵。

经典案例：

知乎某极验破解者自述被抓
永嘉警方揪出“黑”百度黑客团伙干扰搜索引擎牟利超七千万元
“快啊答题”AI破解验证码服务开发者被判刑

侵犯公民个人信息罪

《刑法》修正案（九）中将刑法第二百五十三条进行了修订，明确规定违反国家有关规定，向他人出售或者提供公民个人信息，情节严重的，构成犯罪；在未经用户许可的情况下，非法获取用户的个人信息，情节严重的也将构成“侵犯公民个人信息罪”。根据《最高人民法院最高人民检察院关于办理侵犯公民个人信息刑事案件适用法律若干问题的解释》第五条规定，对“情节严重”的解释，（1）非法获取、出售或者提供行踪轨迹信息、通信内容、征信信息、财产信息五十条以上的；（2）非法获取、出售或者提供住宿信息、通信记录、健康生理信息、交易信息等其他可能影响人身、财产安全的公民个人信息五百条以上的；（3）非法获取、出售或者提供第三项、第四项规定以外的公民个人信息五千条以上的便构成“侵犯公民个人信息罪”所要求的“情节严重”。

个人信息数据是万万碰不得的。非法获取和出售个人信息和隐私数据至少三年起步。

经典案例：

简历大数据公司“巧达科技”被一锅端
社保掌上通被下架用户的信息很容易泄露太不安全了
爬虫为何受关注？业内：大数据服务商或因合作方涉套路贷犯罪而被牵连
中数智汇员工私下贩卖工商数据被判刑

侵犯商业秘密罪

《反不正当竞争法》第九条，以不正当手段获取他人商业秘密的行为即已经构成侵犯商业秘密。而后续如果进一步利用，或者公开该等信息，则构成对他人商业秘密的披露和使用，同样构成对权利人的商业秘密的侵犯。

利用无版权的商业数据获利或者获取同行业数据进行非法竞争，都会触及法律红线。

经典案例：

“车来了”涉嫌偷数据被警方立案
裁判文书网数据竟被售卖：爬虫程序抓取或成侵权

案例部分参考：https://github.com/HiddenStrawberry/Crawler_Illegal_Cases_In_China

爬虫还能开发吗

看到这，有点慌。都这样了，爬虫还能开发么，一不小心就踩到红线了。纵观上面的各个案例，都有一个共同点：钱！！！虽然我们没有马老师的财富，但只要有马老师对钱的态度，基本上就避开了很多问题。

在这里插入图片描述

其次，现在公开的数据占了绝大部分，爬虫能合法获取的数据很多，而且有反爬技术的网站基本上是为了保证数据价值或避免商业竞争，例如天眼查、智联招聘等网站，绝大多数网站都没有反爬措施，只要控制好请求频率，基本足够满足日常需求。

那么在个人日常工作中如何能合法的开发爬虫？

合法开发爬虫

我认为爬虫是一种技术爱好，以此来提高数据收集的效率、简化工作，而不是赚钱的手段。帮别人开发爬虫，别人非法使用，追根溯源和开发者脱不了关系。用爬取的数据进行牟利，在利益链上谁也不能保证可以独善其身。

当然，很多网站对爬虫还是很友好的，所以也需要我们抱着同样的态度去开发爬虫。

robots.txt

大部分网站的根路径下都会有robots.txt这个文件，里面记录了爬虫的访问规则，例如哪个url不能爬取、禁止哪个爬虫爬取。

腾讯视频https://v.qq.com/robots.txt：

这个就是腾讯视频规则，一个UA可以对应多个规则，*表示是所有爬虫。Disallow为空表示可以允许所有爬虫访问任何url，这足够友好了吧。

再看其他网站的规则：

Disallow: /user表示所有爬虫不允许爬取根路径下user开头的url。

Disallow:/表示UA代表的爬虫不能爬取此网站所有页面。

破解代码传播

如果对某些网站的反爬技术感兴趣，可以从技术爱好角度研究一下，但是不要进行代码传播或者接口开放，更不要以此牟利，避免影响网站的正常运转。

结语

下一篇将写一下爬虫模块设计，期待下一次相遇。

最后编辑于：2021.02.22 18:34:59

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,772评论 6赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,458评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,610评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,640评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,657评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,590评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,962评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,631评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,870评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,611评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,704评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,386评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,969评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,944评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,179评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,742评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,440评论 2赞 342

爬虫入门到放弃系列04：我对钱没有兴趣

前言

法律条文

案例分析

非法侵入计算机信息系统罪

侵犯公民个人信息罪

侵犯商业秘密罪

爬虫还能开发吗

合法开发爬虫

robots.txt

破解代码传播

结语

推荐阅读更多精彩内容