提到爬虫,对于行内人士来讲感情是复杂的。人人都在用,人人都在防。又有很多人给爬虫分类,初级的、中级的、高级的、善意的、恶意的。对待爬虫的态度也是迥异的,有人专门撰写文章批评、有人举例回击,但大多数人都在默默按自己的想法行动(爬或防)。
不得不承认,我也是一个爬虫作者。因为看多了,听多了,也想表达一下自己对爬虫的看法。我的态度是“请对爬虫多一些宽容,加一点约束”。
“诟病爬虫”的原因
个人见解:不喜欢或诟病爬虫的人,主要是被爬虫骚扰过或正在被骚扰的人或公司。爬虫只是一个技术工具,无关好坏。你诟病是使用爬虫的人。就像一把刀,有人用来切菜,有人用来杀人一个道理。
宽容
互联网本身就是因为宽容和共享而存在。因为宽容,成就了Google和百度,如果每个网站都禁止爬虫,你能想像互联网是什么样子吗?从另一个角度看,有爬虫光顾,说明你的网站还有价值,难道不是吗?就像矛和盾永远是对立的吗?他们是互相依赖的。正是因为有了爬虫,才产生了防爬技术,防爬技术也让爬虫技术飞速发展。同时,也不是防就是不宽容,防只是防新虫或害虫。我们对爬虫宽容,也要对网站宽容。
约束
宽容不是放纵,更不是无底线。我的观点是“约束爬虫、引导新虫、防治害虫”。约束既要公共约束,更要自律约束。特别是对于新虫,通过自律约束,不要发展成害虫。自律约束包括爬取速度设置要合理,爬取时间要合理,以不影响网站正确运营为底线。我相信,做大事的人,永远都会保留底线,遵守底线原则。通过长期的自律约束,我们自然就有了公共约束。约束爬虫,请从每一条虫子开始吧,我希望你尽快加入到爬虫约束队伍。