sqoop增量数据迁移

背景

业务系统库数据包含了大量历史数据，核心的表超过千万级甚至亿级后，传统在业务库上做数据分析已不合时宜，需要迁移至大数据平台（hive/spark sql/impala）做数据分析,如果按天全量导入至平台不仅消耗大量服务器资源并且全量读取业务库全表速度也会超慢，这时需要增量导入的功能，因为业务系统的表会用自增ID的标志，可以按天截取新增数据导入平台。

sqoop增量迁移数据方式对比

一种是 append，即通过指定一个递增的列，比如：
--incremental append --check-column num_iid --last-value 0
另种是可以根据时间戳，比如：
--incremental lastmodified --check-column created --last-value '2012-02-01 11:0:00'
就是只导入created 比'2012-02-01 11:0:00'更大的数据。

第一种适合业务系统库，一般业务系统表会通过自增ID作为主键标识唯一性。
第二种适合ETL的数据

sqoop append模式使用

1.使用 sqoop create-hive-table 生成 hive表结构
2.定义 sqoop job,实际上是一个通道，通道的始发站为mysql对应的表，终点站为hive对应的表
3.使用 sqoop job执行增量导入

注：自己写个shell定时跑批或者放到调度系统定时执行

下面为整个迁移的脚本示例：

#!/bin/bash
##############################################
##  $1:日期   $2:表名
##  第一个参数为日期，第二个参数为mysql表名
##############################################

#配置所在数据库地址
conf_dbhost=xxx
#配置所在数据库用户名
conf_username=xxx
#配置所在数据库密码
conf_password=xxx
#配置所在数据库名
conf_dbname=etl
var_etl_date=`mysql -h $conf_dbhost  -u$conf_username -p$conf_password -D $conf_dbname -e "SELECT var_value FROM para_etl_var WHERE var_name='{ETL_DATE}';"`
echo $var_etl_date
sys_date=`date -d'-1 day' +%Y-%m-%d`
if [ ${1} == "-" ]
then
#    cur_date='2016-09-23'
    cur_date=${var_etl_date:10:10}
    echo $cur_date
else
    #echo "$1"
    cur_date=`date --date="${1}" +%Y-%m-%d`
    echo $cur_date
fi
echo "$cur_date"
#exit
year=`date --date=$cur_date +%Y`
month=`date --date=$cur_date +%m`
day=`date --date=$cur_date +%d`
echo "cur_date:"${cur_date}
#hive库名
hdb=rmdb
#hive表名
hive_table=crm_intopieces_dk
#mysql表名
mysql_table=crm_intopieces_dk

#数据仓库基础路径
basedir=/rmdb
#mysql服务器地址
server=xxx

#mysql端口号
port=3306
#mysql数据库名
mysql_database=test
#用户名
username=xxx
#密码
password=xxx

#判断Hive是否存在，不存在执行下面创建语句，否则跳过
#hive -e "use $hdb;select * from $hive_table limit 1;"
if [ $? -ne 0 ]
then
    echo "表不存在，执行创建表结构"
    sqoop create-hive-table 
    --connect jdbc:mysql://$server:$port/$mysql_database?tinyInt1isBit=false 
    --username $username 
    --password $password 
    --table $mysql_table
else
    echo "表已存在，执行增量导入。。。"
fi
#exit
#
#一种是 append，即通过指定一个递增的列，比如：
#--incremental append  --check-column num_iid --last-value 0 
#另种是可以根据时间戳，比如：
#--incremental lastmodified --check-column created --last-value '2012-02-01 11:0:00' 
#就是只导入created 比'2012-02-01 11:0:00'更大的数据。 

echo "创建job"
#append
    sqoop job 
    --create crm_intopieces_dk 
    -- import --connect jdbc:mysql://$server:$port/$mysql_database?tinyInt1isBit=false 
    --username $username 
    --password $password  
    --table $mysql_table 
    --hive-import --hive-table $hive_table 
    --incremental append 
    --check-column id 
    --last-value 0

echo "append增量导入模式启动。。。"

    sqoop job --exec crm_intopieces_dk
exit

最后编辑于：2017.12.05 02:29:45

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 206,839评论 6赞 482
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 88,543评论 2赞 382
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 153,116评论 0赞 344
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 55,371评论 1赞 279
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 64,384评论 5赞 374
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 49,111评论 1赞 285
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 38,416评论 3赞 400
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 37,053评论 0赞 259
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 43,558评论 1赞 300
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,007评论 2赞 325
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 38,117评论 1赞 334
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 33,756评论 4赞 324
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 39,324评论 3赞 307
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 30,315评论 0赞 19
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 31,539评论 1赞 262
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 45,578评论 2赞 355
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 42,877评论 2赞 345

sqoop增量数据迁移

背景

sqoop增量迁移数据方式对比

sqoop append模式使用

推荐阅读更多精彩内容