上周,老美有个小伙,看小说治好了毒瘾,真的是23333。国产小说犹如辣条一般,风靡一股世界风!作为一名大学生,看付费小说真的有点伤不起!随手百度一下子自己想看的小说,发现好多小说网站,而且他们这些网站是没经过作者的同意就把小说放上去,这种行为太无耻了!所以我觉得给他们的服务器增加点压力,写个爬虫爬下小说下来,<strong>一</strong>来惩罚了这些无良小说网站,<strong>二</strong>来我也可以看看小说。
<strong>步骤一</strong>:
随便找到一个小说网站
<strong>步骤二</strong>:
分析域名
我把域名后面的619223改为619224就变成第二章了,所以后面数字+1,章数就会+1啦。
<strong>步骤三</strong>:
撸码
//利用Jsoup获取这个网页的Html
Document doc = Jsoup.connect(url).get();
//通过浏览器F12,知道小说内容在Content里面
Element contentOrigin = doc.getElementById("content");
//拿出Content的内容
String contentText = contentOrigin.html();
//把<br>, 无用的字符换成空
String contentFinally= contentText.replaceAll("<br>| ","");
return contentFinally;
这时候我们其实就可以拿到一章小说,可是我们要很多章的,这时候就利用步骤二我们分析的url,用个循环自己获取下一章小说。
然后将每次获取到的小说加到我们的本地盘上。
PrintStream ps = new PrintStream(new FileOutputStream(new File("本地路径", "小说名.txt")));
ps.println("");//一开始用个空字符到小说里面,后面才追加新的小说内容
ps.append("下一章内容")//追加下一章内容
运行结果:
最后结果:
<strong>最后项目发布在Github:https://github.com/Elricyo/SpiderNovel</strong>