HBase导入SQL Server数据库数据

[HBase导入SQL Server数据库数据]

在先前的几篇随笔中已经介绍了Hadoop、Zookeeper、Hbase的分布式框架搭建方案，目前已经搭建完成了一个包含11个节点的分布式集群。而对于HBase数据库的使用仅限于测试性质的增删改查指令，为了进一步熟悉分布式框架的使用，本文介绍将已有的数据从关系型数据库SQL Server中导入到HBase中的方法。

要完成从关系型数据库到HBase数据的迁移，我们需要使用Sqoop工具，Sqoop是Apache的一个独立项目，设计目的即是在Hadoop(Hive)和传统数据库（MySQL、postgresql）之间进行数据的传递。Sqoop工具基于数据仓库工具Hive，通过Hive来将数据查询转换成MapReduce任务实现数据的传递。因此，要完成本次数据的迁移，我们需要以下几个准备：

①Hive：apache-hive-2.1.1-bin.tar.gz

②Sqoop：sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz

③JDBC for SQL Server：sqljdbc_3.0.1301.101_enu.tar.gz

④Connector between SQL Server and Sqoop：sqoop-sqlserver-1.0.tar.gz

======================以下所有操作均在Master主机上并且以root用户执行======================

1、安装Hive

①建立hive目录

cd /home

mkdir hive

②解压安装包（安装包移至/home/hive下）

tar -zxvf apache-hive-2.1.1-bin.tar.gz

③设置环境变量

vi /etc/profile

追加以下：

export HIVE_HOME=/home/hive/apche-hive-2.1.1-bin

export PATH=$HIVE_HOME/bin:$PATH

export PATH

追加以下：

export HCAT_HOME=$HIVE_HOME/hcatalog

④使配置生效

source /etc/profile

2、安装sqoop

①建立sqoop目录

cd /home

mkdir sqoop

②解压安装包（安装包移至/home/sqoop下）

tar -zxvf sqoop-1.4.6.bin__hadoop-2.0.4-alpha.tar.gz

③设置环境变量

vi /etc/profile

追加以下：

export SQOOP_HOME=/home/sqoop/sqoop-1.4.6.bin__hadoop-2.0.4-alpha

export SQOOP_CONF_DIR=$SQOOP_HOME/conf

export PATH=$SQOOP_HOME/bin:$PATH

export PATH

④使配置生效

source /etc/profile

3、配置JDBC

①解压（位置随意）

tar -zxvf sqljdbc_3.0.1301.101_enu.atr.gz

②复制jdbc到sqoop下

cp sqljdbc_3.0/enu/sqljdbc4.jar /home/sqoop/sqoop-1.4.6.bin__hadoop-2.0.4-alpha/lib

4、配置SQL Server sqoop Connector

①解压（位置随意，这里是/home）

tar -zxvf sqoop-sqlserver-1.0.tar.gz

②设置环境变量

vi /etc/profile

追加以下：

export MSSQL_CONNECTOR_HOME=/home/sqoop-sqlserver-1.0/

配置生效：

source /etc/profile

③配置到sqoop

cd sqoop-sqlserver-1.0

./install.sh

5、配置sqoop

存在这部分工作的原因是sqoop的默认配置会有一些我们不需要用到的东西，在其配置文件$SQOOP_HOME/bin/configure-sqoop文件中，定义了许多需要预先配置的参数与环境，有些我们已经配置完成，但是另外有些是不需要用到的（目前还没意识到有什么作用），因此，为了防止运行时检查配置不通过，我们直接的处理办法就是取消这部分的配置检查。

注释ACCUMULO相关配置：在configure-sqoop文件中，注释掉与ACCUMULO_HOME相关的所有命令行，并保存退出。

6、目前的环境变量

值得注意的是，之前并没有加入HBase的环境变量，在这里是需要把HBase相关的环境变量加入的。

<pre style="margin: 0px; padding: 0px; white-space: pre-wrap; word-wrap: break-word; font-family: "Courier New" !important; font-size: 12px !important;"># /etc/profile

System wide environment and startup programs, for login setup # Functions and aliases go in /etc/bashrc

It's NOT a good idea to change this file unless you know what you # are doing. It's much better to create a custom.sh shell script in # /etc/profile.d/ to make custom changes to your environment, as this # will prevent the need for merging in future updates.

pathmunge () {
case ":${PATH}:" in
:"$1":)
;; *) if [ "$2" = "after" ] ; then
PATH=$PATH:$1
else PATH=$1:$PATH fi
esac
} if [ -x /usr/bin/id ]; then if [ -z "$EUID" ]; then # ksh workaround
EUID=id -u
UID=id -ru
fi
USER="id -un"
LOGNAME=$USER
MAIL="/var/spool/mail/$USER" fi

Path manipulation

if [ "$EUID" = "0" ]; then
pathmunge /sbin
pathmunge /usr/sbin
pathmunge /usr/local/sbin
else
pathmunge /usr/local/sbin after
pathmunge /usr/sbin after
pathmunge /sbin after
fi

HOSTNAME=/bin/hostname 2>/dev/null
HISTSIZE=1000
if [ "$HISTCONTROL" = "ignorespace" ] ; then
export HISTCONTROL=ignoreboth
else
export HISTCONTROL=ignoredups
fi

export PATH USER LOGNAME MAIL HOSTNAME HISTSIZE HISTCONTROL

By default, we want umask to get set. This sets it for login shell

Current threshold for system reserved uid/gids is 200

You could check uidgid reservation validity in

/usr/share/doc/setup-*/uidgid file

if [ $UID -gt 199 ] && [ "id -gn" = "id -un" ]; then
umask 002
else
umask 022
fi

for i in /etc/profile.d/.sh ; do
if [ -r "$i" ]; then
if [ "${-#i}" != "$-" ]; then
. "$i"
else . "$i" >/dev/null 2>&1 fi
fi
done

unset i
unset -f pathmunge

export JAVA_HOME=/usr/lib/jvm/java-1.7.0-openjdk-1.7.0.131.x86_64
export CLASSPATH=.:$JAVA_HOME/jre/lib/rt.jar:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export PATH=$PATH:$JAVA_HOME/bin #hadoop
export HADOOP_HOME=/home/hadoop/hadoop-2.7.3 export PATH=$PATH:$HADOOP_HOME/sbin
export PATH=$PATH:$HADOOP_HOME/bin #zookeeper
export ZOOKEEPER_HOME=/home/zookeeper/zookeeper-3.4.6/ export PATH=$ZOOKEEPER_HOME/bin:$PATH export PATH #HBase
export HBASE_HOME=/home/hbase/hbase-1.2.4 export PATH=$HBASE_HOME/bin:$PATH export PATH #hive
export HIVE_HOME=/home/hive/apache-hive-2.1.1-bin
export PATH=$HIVE_HOME/bin:$PATH export PATH

export HCAT_HOME=$HIVE_HOME/hcatalog #sqoop
export SQOOP_HOME=/home/sqoop/sqoop-1.4.6.bin__hadoop-2.0.4-alpha
export SQOOP_CONF_DIR=$SQOOP_HOME/conf
export PATH=$SQOOP_HOME/bin:$PATH export PATH

export MSSQL_CONNECTOR_HOME=/home/sqoop-sqlserver-1.0/</pre>

7、数据迁移实验

在执行迁移命令之前，需要在Hbase中建立好对应的表

#hbase shell

进入hbase shell后执行

>create 'test', 'cf'

然后在Terminal中执行

#sqoop import --connect 'jdbc:sqlserver://<IP Address>;username=<username>;password=<password>;database=<database>' --table <sql server table name> --hbase-table <hbase table name> --column-family <hbase table column family name> --hbase-row-key <sql server table primary key>

需要注意：

①如果SQL Server的表是正常的单一主键的表结构，那么可以直接指定hbase-row-key执行上述命令，此时该命令会默认以多个mapreduce任务执行该指令

②如果SQL Server的表是联合主键，那么这样导入就会存在一个问题，无法根据主键分解查询任务，也就没有办法进行MapReduce，那么此时必须指定参数 '-m 1'只用一个mapreduce任务

③针对没有主键的情况，若数据量巨大，必须分为多个mapreduce任务，那么需要找到一个拆分字段，从而hive可以根据该字段拆分任务。此时我们须在导入指令中添加'--split-by <id>'

在我实际的操作中，SQL Server中的表结构是联合主键，第一次导入表中100条数据记录，根据这篇博客的介绍，配置了$SQOOP_HOME/conf/sqoop-site.xml，我指定了'--hbase-row-key <id1>,<id2>'，并指定'-m 1'，导入数据成功。（耗时22sec）

image

第二次尝试将数据库中的近160W条数据记录导入到HBase中，添加参数'--split-by <id>'，并指定'-m 12'，数据同样导入成功。（耗时17min25sec）

image

8、存在问题

对sqoop拆分任务的理解仍然不够深入，自己完成的实验虽然成功，但是并没有做对比实验确定真正的影响因素

9、参考文章

Sqoop User Guide (v1.4.6)

利用SQOOP将数据从数据库导入到HDFS - 我喂自己袋盐 - 博客频道 - CSDN.NET

Sqoop将SQLServer数据导入HBase - nma_123456的专栏 - 博客频道 - CSDN.NET

Centos　利用sqoop从sqlserver导入数据到HDFS或Hive - 王伟挺的专栏 - 博客频道 - CSDN.NET

sqoop并行导入数据 - 东杰书屋 - 博客频道 - CSDN.NET

sqoop针对联合主键的表导入hbase的简单控制技巧 - 黄刚的技术博客 - 博客频道 - CSDN.NET

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 204,053评论 6赞 478
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 85,527评论 2赞 381
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 150,779评论 0赞 337
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 54,685评论 1赞 276
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 63,699评论 5赞 366
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 48,609评论 1赞 281
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 37,989评论 3赞 396
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 36,654评论 0赞 258
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 40,890评论 1赞 298
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 35,634评论 2赞 321
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 37,716评论 1赞 330
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,394评论 4赞 319
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 38,976评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 29,950评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,191评论 1赞 260
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 44,849评论 2赞 349
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,458评论 2赞 342

HBase导入SQL Server数据库数据

[HBase导入SQL Server数据库数据]

System wide environment and startup programs, for login setup # Functions and aliases go in /etc/bashrc

It's NOT a good idea to change this file unless you know what you # are doing. It's much better to create a custom.sh shell script in # /etc/profile.d/ to make custom changes to your environment, as this # will prevent the need for merging in future updates.

Path manipulation

By default, we want umask to get set. This sets it for login shell

Current threshold for system reserved uid/gids is 200

You could check uidgid reservation validity in

/usr/share/doc/setup-*/uidgid file

推荐阅读更多精彩内容