所谓的爬虫,就是用HTTP请求自动去获取网络上的信息。
可以用的工具和语言有很多。笔者用过python的requests,也用java的httpclient。两种工具各有千秋吧。
python语言编写短小,代码量少。但是遇到问题调试困难。
java语言往往需要创建各种实体类,还需要自己编写反序列化工作。但也有优势,java使用人群多,工具成熟,调试方便。
本系列文章会分两类,一类是用python编写,另外一类是用java编写。主要偏向是使用java编写的爬虫。
内容预告
1、如何进行认证登入
2、如何通过https登入
4、如何保持session
5、采用一定的设计方便开发使用。
6、如何通过单点登入及在各子系统间切换
- ...未完待续,有好的建议请留言