JAVA爬虫技术--HttpClient请求

Java爬虫入门简介（一） —— HttpClient请求原文地址链接http://www.datalearner.com/blog/1051501160659926

数据是科研活动重要的基础。

本系列博客将讲述如何使用Java工具获取网络的数据。
首先，我们讲述一下爬虫的基本原理。爬虫的基本原理很简单，就是利用程序访问互联网，然后将数据保存到本地中。我们都知道，互联网提供的服务大多数是以网站的形式提供的。我们需要的数据一般都是从网站中获取的，如电商网站商品信息、商品的评论、微博的信息等。爬虫和我们手动将看到的数据复制粘贴下来是类似的，只是获取大量的数据靠人工显然不太可能。因此，需要我们使用工具来帮助获取知识。使用程序编写爬虫就是使用程序编写一些网络访问的规则，将我们的目标数据保存下来。接下来，让我们开始从头搭建一个爬虫的案例。

环境的准备

这里的环境就是指开发环境，本博客将使用Java编写爬虫程序，因此，需要构建Java的编程环境。需要安装的软件包括（注意，我的电脑使用的是windows X64的程序，请选择对应的JDK版本，要使用8.0及以上）：

1、JDK 8.0: http://download.oracle.com/otn-pub/java/jdk/8u144-b01/090f390dda5b47b9b721c7dfaa008135/jdk-8u144-windows-x64.exe
2、IntelliJ IDEA: https://download.jetbrains.8686c.com/idea/ideaIC-2017.2.exe

JDK的安装和环境变量的配置网上有很多，就不说了。IntelliJ IDEA是个傻瓜式的安装，基本不会有问题。也不说了。

创建工程

安装好环境后，我们打开IntelliJ IDEA，然后创建一个Maven工程，Group Id和Artifact Id自己随便写没关系的。创建完之后我们的目录就如下图所示了。

4c7aae0f-dd93-4183-b474-e7020b2b518f.png

74a1838a-fe90-4da5-b8d1-7b46a20b6c40.png

第一个示例

首先，假设我们需要爬取数据学习网站上第一页的博客（http://www.datalearner.com/blog ）。首先，我们需要使用maven导入HttpClient 4.5.3这个包（这是目前最新的包，你可以根据需要使用其他的版本）。那么，我们在pom.xml中添加如下语句：

<dependencies>
<dependency>
    <groupId>org.apache.httpcomponents</groupId>
    <artifactId>httpclient</artifactId>
    <version>4.5.3</version>
</dependency>
</dependencies>

Java本身提供了关于网络访问的包，在java.net中，然后它不够强大。于是Apache基金会发布了开源的http请求的包，即HttpClient，这个包提供了非常多的网络访问的功能。在这里，我们也是使用这个包来编写爬虫。好了，使用pom.xml下载完这个包之后我们就可以开始编写我们的第一个爬虫例子了。其代码如下（注意，我们的程序是建立在test包下面的，因此，需要在这个包下才能运行）：

  package test;
  import org.apache.http.HttpEntity;
  import org.apache.http.client.methods.CloseableHttpResponse;
  import org.apache.http.client.methods.HttpGet;
  import org.apache.http.impl.client.CloseableHttpClient;
  import org.apache.http.impl.client.HttpClients;
  import org.apache.http.util.EntityUtils;
  import java.io.IOException;
  /**
   * 第一个爬虫测试
   * Created by DuFei on 2017/7/27.
   */
  public class FirstTest {
    public static void main(String[] args) {
      //建立一个新的请求客户端
      CloseableHttpClient httpClient = HttpClients.createDefault();
      //使用HttpGet方式请求网址
      HttpGet httpGet = new HttpGet("http://www.datalearner.com/blog");
      //获取网址的返回结果
      CloseableHttpResponse response = null;
      try {
        response = httpClient.execute(httpGet);
      } catch (IOException e) {
        e.printStackTrace();
      }
      //获取返回结果中的实体
      HttpEntity entity = response.getEntity();
      //将返回的实体输出
      try {
        System.out.println(EntityUtils.toString(entity));
        EntityUtils.consume(entity);
      } catch (IOException e) {
        e.printStackTrace();
      }
    }
  }

如上面的代码所示，爬虫的第一步需要构建一个客户端，即请求端，我们这里使用CloseableHttpClient作为我们的请求端，然后确定使用哪种方式请求什么网址，再然后使用HttpResponse获取请求的地址对应的结果即可。最后取出HttpEntity转换一下就可以得到我们请求的网址对应的内容了。上述程序对应的输出如下图所示：

645d39ff-6bd4-4a19-bb67-caeab3add5a6.png

最后编辑于：2017.12.04 15:55:22

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 203,362评论 5赞 477
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,330评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,247评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,560评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,580评论 5赞 365
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,569评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,929评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,587评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,840评论 1赞 297
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,596评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,678评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,366评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,945评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,929评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,165评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 43,271评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,403评论 2赞 342

JAVA爬虫技术--HttpClient请求

数据是科研活动重要的基础。

环境的准备

创建工程

第一个示例

推荐阅读更多精彩内容