登录注册写文章

HBase BulkLoad批量写入数据

HBase BulkLoad批量写入数据

转载自：https://www.cnblogs.com/smartloli/p/9501887.html

1.概述

在进行数据传输中，批量加载数据到HBase集群有多种方式，比如通过HBase API进行批量写入数据、使用Sqoop工具批量导数到HBase集群、使用MapReduce批量导入等。这些方式，在导入数据的过程中，如果数据量过大，可能耗时会比较严重或者占用HBase集群资源较多（如磁盘IO、HBase Handler数等）。今天这篇博客笔者将为大家分享使用HBase BulkLoad的方式来进行海量数据批量写入到HBase集群。

2.内容

在使用BulkLoad之前，我们先来了解一下HBase的存储机制。HBase存储数据其底层使用的是HDFS来作为存储介质，HBase的每一张表对应的HDFS目录上的一个文件夹，文件夹名以HBase表进行命名（如果没有使用命名空间，则默认在default目录下），在表文件夹下存放在若干个Region命名的文件夹，Region文件夹中的每个列簇也是用文件夹进行存储的，每个列簇中存储就是实际的数据，以HFile的形式存在。路径格式如下：

/hbase/data/default/<tbl_name>/<region_id>/<cf>/<hfile_id>

2.1 实现原理

按照HBase存储数据按照HFile格式存储在HDFS的原理，使用MapReduce直接生成HFile格式的数据文件，然后在通过RegionServer将HFile数据文件移动到相应的Region上去。流程如下图所示：

2.2. 生成HFile文件

HFile文件的生成，可以使用MapReduce来进行实现，将数据源准备好，上传到HDFS进行存储，然后在程序中读取HDFS上的数据源，进行自定义封装，组装RowKey，然后将封装后的数据在回写到HDFS上，以HFile的形式存储到HDFS指定的目录中。实现代码如下：

/**

* Read DataSource from hdfs & Gemerator hfile.

*

* @author smartloli.

*

* Created by Aug 19, 2018

*/

public class GemeratorHFile2 {

static class HFileImportMapper2 extends Mapper<LongWritable, Text, ImmutableBytesWritable, KeyValue> {

protected final String CF_KQ = "cf";

@Override

protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {

String line = value.toString();

System.out.println("line : " + line);

String[] datas = line.split(" ");

String row = new Date().getTime() + "_" + datas[1];

ImmutableBytesWritable rowkey = new ImmutableBytesWritable(Bytes.toBytes(row));

KeyValue kv = new KeyValue(Bytes.toBytes(row), this.CF_KQ.getBytes(), datas[1].getBytes(), datas[2].getBytes());

context.write(rowkey, kv);

}

}

public static void main(String[] args) {

if (args.length != 1) {

System.out.println("<Usage>Please input hbase-site.xml path.</Usage>");

return;

}

Configuration conf = new Configuration();

conf.addResource(new Path(args[0]));

conf.set("hbase.fs.tmp.dir", "partitions_" + UUID.randomUUID());

String tableName = "person";

String input = "hdfs://nna:9000/tmp/person.txt";

String output = "hdfs://nna:9000/tmp/pres";

System.out.println("table : " + tableName);

HTable table;

try {

try {

FileSystem fs = FileSystem.get(URI.create(output), conf);

fs.delete(new Path(output), true);

fs.close();

} catch (IOException e1) {

e1.printStackTrace();

}

Connection conn = ConnectionFactory.createConnection(conf);

table = (HTable) conn.getTable(TableName.valueOf(tableName));

Job job = Job.getInstance(conf);

job.setJobName("Generate HFile");

job.setJarByClass(GemeratorHFile2.class);

job.setInputFormatClass(TextInputFormat.class);

job.setMapperClass(HFileImportMapper2.class);

FileInputFormat.setInputPaths(job, input);

FileOutputFormat.setOutputPath(job, new Path(output));

HFileOutputFormat2.configureIncrementalLoad(job, table);

try {

job.waitForCompletion(true);

} catch (InterruptedException e) {

e.printStackTrace();

} catch (ClassNotFoundException e) {

e.printStackTrace();

}

} catch (Exception e) {

e.printStackTrace();

}

}

}

在HDFS目录/tmp/person.txt中，准备数据源如下：

1 smartloli 100

2 smartloli 101

3 smartloli 102

然后，将上述代码编译打包成jar，上传到Hadoop集群进行执行，执行命令如下：

hadoop jar GemeratorHFile2.jar /data/soft/new/apps/hbaseapp/hbase-site.xml

如果在执行命令的过程中，出现找不到类的异常信息，可能是本地没有加载HBase依赖JAR包，在当前用户中配置如下环境变量信息：

export HADOOP_CLASSPATH=$HBASE_HOME/lib/*:classpath

然后，执行source命令使配置的内容立即生生效。

2.3. 执行预览

在成功提交任务后，Linux控制台会打印执行任务进度，也可以到YARN的资源监控界面查看执行进度，结果如下所示：

等待任务的执行，执行完成后，在对应HDFS路径上会生成相应的HFile数据文件，如下图所示：

2.4 使用BulkLoad导入到HBase

然后，在使用BulkLoad的方式将生成的HFile文件导入到HBase集群中，这里有2种方式。一种是写代码实现导入，另一种是使用HBase命令进行导入。

2.4.1 代码实现导入

通过LoadIncrementalHFiles类来实现导入，具体代码如下：

/**

* Use BulkLoad inport hfile from hdfs to hbase.

*

* @author smartloli.

*

* Created by Aug 19, 2018

*/

public class BulkLoad2HBase {

public static void main(String[] args) throws Exception {

if (args.length != 1) {

System.out.println("<Usage>Please input hbase-site.xml path.</Usage>");

return;

}

String output = "hdfs://cluster1/tmp/pres"; //也就是hfile所在的目录，与上文中的output一致

Configuration conf = new Configuration();

conf.addResource(new Path(args[0]));

HTable table = new HTable(conf, "person");

LoadIncrementalHFiles loader = new LoadIncrementalHFiles(conf);

loader.doBulkLoad(new Path(output), table);

}

}

执行上述代码，运行结果如下：

2.4.2 使用HBase命令进行导入

先将生成好的HFile文件迁移到目标集群（即HBase集群所在的HDFS上），然后在使用HBase命令进行导入，执行命令如下：

# 先使用distcp迁移hfile

hadoop distcp -Dmapreduce.job.queuename=queue_1024_01 -update -skipcrccheck -m10/tmp/pres hdfs://nns:9000/tmp/pres# 使用bulkload方式导入数据

hbase org.apache.hadoop.hbase.mapreduce.LoadIncrementalHFiles /tmp/pres person

最后，我们可以到指定的RegionServer节点上查看导入的日志信息，如下所示为导入成功的日志信息：

2018-08-1916:30:34,969INFO [B.defaultRpcServer.handler=7,queue=1,port=16020] regionserver.HStore: Successfully loaded storefilehdfs://cluster1/tmp/pres/cf/7b455535f660444695589edf509935e9 into store cf (new location: hdfs://cluster1/hbase/data/default/person/2d7483d4abd6d20acdf16533a3fdf18f/cf/d72c8846327d42e2a00780ac2facf95b_SeqId_4_)

2.5 验证

使用BulkLoad方式导入数据后，可以进入到HBase集群，使用HBase Shell来查看数据是否导入成功，预览结果如下：

3.总结

本篇博客为了演示实战效果，将生成HFile文件和使用BulkLoad方式导入HFile到HBase集群的步骤进行了分解，实际情况中，可以将这两个步骤合并为一个，实现自动化生成与HFile自动导入。如果在执行的过程中出现RpcRetryingCaller的异常，可以到对应RegionServer节点查看日志信息，这里面记录了出现这种异常的详细原因。

注意：需在maper-site.xml中配置你的 job history server,

<property>

<name>mapreduce.jobhistory.address</name>

<value>node:10020</value>

</property>

启动 job history server

mr-jobhistory-daemon.sh start historyserver

Hadoop自带了一个历史服务器，可以通过历史服务器查看已经运行完的Mapreduce作业记录，比如用了多少个Map、用了多少个Reduce、作业提交时间、作业启动时间、作业完成时间等信息。默认情况下，Hadoop历史服务器是没有启动的。在bulkload获取hfile的时候需用到。

最后编辑于：2021.06.09 19:10:50

©著作权归作者所有,转载或内容合作请联系作者

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 202,905评论 5赞 476
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,140评论 2赞 379
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 149,791评论 0赞 335
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,483评论 1赞 273
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,476评论 5赞 364
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,516评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,905评论 3赞 395
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,560评论 0赞 256
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,778评论 1赞 296
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,557评论 2赞 319
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,635评论 1赞 329
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,338评论 4赞 318
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,925评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,898评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,142评论 1赞 259
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 42,818评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,347评论 2赞 342

推荐阅读更多精彩内容

HBase BulkLoad批量写入数据实战
1.概述在进行数据传输中，批量加载数据到HBase集群有多种方式，比如通过HBase API进行批量写入数据、使...
吴国友阅读 839评论 0赞 1
使用BulkLoad 向 HBase 中批量导入数据
1 使用 BulkLoad 向 HBase 中批量导入数据 2 背景介绍 2.1 概述我们经常面临向 HBase...
Yobhel阅读 1,555评论 0赞 1
hbase bulkload 写入数据
hbase 写入数据有以下三种方式： 1.利用hbase提供的api写入 2.通过mr任务将数据写入 3.通过bu...
Ivan_030c阅读 1,657评论 0赞 0
将数据文件（csv,Tsv）导入Hbase的三种方法
将各种类型的数据库或者文件导入到HBase，常见有三种方法：（1）使用HBase的API中的Put方法（2...
Tim在路上阅读 12,110评论 0赞 2
Hbase BulkLoad机制
Hbase 是一种基于Hadoop的Nosql的数据库，有高吞吐量的特点，由于近几年国内大数据的概念的快速兴起，H...
一只小哈阅读 8,378评论 1赞 11

赞1赞

赞赏

手机看全文