## Hawq4.0.1.0到Hawq4.5.0.1的升级
**1. 配置系统参数**
编辑/etc/sysctl.conf文件,内容如下
```
kernel.shmmax = 1000000000
kernel.shmmni = 4096
kernel.shmall = 4000000000
kernel.sem = 250 512000 100 2048
kernel.sysrq = 1
kernel.core_uses_pid = 1
kernel.msgmnb = 65536
kernel.msgmax = 65536
kernel.msgmni = 2048
net.ipv4.tcp_syncookies = 0
net.ipv4.conf.default.accept_source_route = 0
net.ipv4.tcp_tw_recycle = 1
net.ipv4.tcp_max_syn_backlog = 200000
net.ipv4.conf.all.arp_filter = 1
net.ipv4.ip_local_port_range = 10000 65535
net.core.netdev_max_backlog = 200000
net.netfilter.nf_conntrack_max = 524288
fs.nr_open = 3000000
kernel.threads-max = 798720
kernel.pid_max = 798720
# increase network
net.core.rmem_max=2097152
net.core.wmem_max=2097152
net.core.somaxconn=4096
vm.overcommit_memory = 2 on master and standby; 0 on segments
vm.overcommit_ratio = 90
```
编辑完后,使用如下命令刷新配置
```
sysctl -p
```
**2.升级准备**
- 记录旧版本号
```
# 一定要记录旧的KDW版本号,升级需要
hawq --version 或者
select version();
# 记录gpfdist版本号和启动命令
gpfdist --version
ps -ef | grep gpfdist | grep -v grep
```
- 记录资源队列
```
-- 查看并记录已有新增的资源队列
SELECT * FROM pg_resqueue WHERE rsqname NOT IN ('pg_root', 'pg_default');
SELECT * FROM pg_resqueue WHERE rsqname = 'pg_default';
-- 记录新增的资源队列的定义(暂不需要执行)
CREATE RESOURCE QUEUE vc_default.pg_queue WITH (
PARENT='vc_default.pg_root',
ACTIVE_STATEMENTS=1,
MEMORY_LIMIT_CLUSTER=50%,
CORE_LIMIT_CLUSTER=50%,
RESOURCE_OVERCOMMIT_FACTOR=2,
ALLOCATION_POLICY='even',
VSEG_RESOURCE_QUOTA='mem:2gb');
ALTER RESOURCE QUEUE vc_default.pg_default WITH (
VSEG_RESOURCE_QUOTA='mem:1gb');
-- 查找哪些用户与该资源队列绑定,记录用户名
SELECT pa.rolname, pa.rolresqueue, pr.rsqname
FROM pg_authid pa, pg_resqueue pr
WHERE pa.rolresqueue = pr.oid AND pr.rsqname NOT IN ('pg_root', 'pg_default');
-- 解绑定用户和资源队列
ALTER ROLE xxx RESOURCE QUEUE pg_default;
ALTER ROLE yyy RESOURCE QUEUE pg_default;
-- 删除已有新增的资源队列
DROP RESOURCE QUEUE pg_queue;
```
- 防止standby升级异常,需要踢掉standby,升级后加回
```
# 踢掉standby
hawq init standby -r
```
- 停止Hawq集群
```
hawq stop cluster -a -M immediate
# 检查进程和任务是否都停止
hawq ssh -f hostfile -e 'ps -ef |grep postgres'
```
- 配置文件备份
```
# 选择合适的路径进行备份
cp -rf $GPHOME/etc /home/gpadmin/etc_4010
```
- 元数据备份
```
# 选择合适路径进行元数据备份
# segment的元数据也需要备份,但可以不拷贝pg_log以节省空间
# 注:如果升级前binary不好获取,需要备份binary文件
mkdir /data1/hawq/masterdd_20210521_bak/
cd /data1/hawq
tar -cvf /data1/hawq/masterdd_20210521_bak/masterdd.tar.gz --exclude=masterdd/pg_log/* masterdd
hawq ssh -f hostfile -e 'cp -r /data1/hawq/segment /data1/hawq/segment_20210521_bak'
```
- 数据备份
```
# 选择KDW在HDFS上的根目录进行数据备份
# 假定KDW的数据根目录为/hawq
$ hadoop dfsadmin -allowSnapshot /hawq
Allowing snapshot on / directory succeeded
$ hdfs dfs -createSnapshot /hawq s20210521
Created snapshot /.snapshot/s20210521
```
- 每个节点安装yum源
```
hawq ssh -f hostfile -e 'sudo wget -O /etc/yum.repos.d/oushu-database.repo http://yum.oushu-tech.com/oushurepo/yumrepo/release/oushu-database/centos6/4.5.0.0/release/oushu-database.repo'
hawq ssh -f hostfile -e 'sudo yum makecache'
# 注意:如果是手工rpm包升级,需要手工重新创建yum源或者直接rpm命令安装。
cd /oushu-software-full-x.x.x.x/oushu-database
# 删除旧的rpm包和repodate文件
rm -rf *
# 将新的rpm包移动到此路径下
cp /home/gpadmin/hawq-x.x.x.x-xxxxx.x86_64.rpm ./
# 重建repo库,若没有createrepo命令,先使用yum -y install createrepo进行安装
createrepo .
```
**3.元数据升级**
- 运行升级脚本
```
# 恢复备份的配置文件(注意检查配置文件中去掉upgrade_mode和allow_system_table_mods配置)
hawq ssh -f hostfile -e 'cp -rf $BACKUP_PATH/etc_4010/* $GPHOME/etc/'
# 替换升级相关工具脚本包含/usr/local/hawq/bin/hawqupgrade_new和/usr/local/hawq/share/postgresql/vcluster_shared_install.sql
# 以gpadmin用户执行,执行前确保集群全部停止
hawq upgrade -s 4.0.1.0
# 如果失败,定位问题,恢复元数据,重新升级!! 恢复时如果没有备份pg_log,需要重新创建folder
# 升级成功后,启动集群(此处不启动magma)
hawq start cluster
```
- 重建资源队列
```
-- 执行创建记录好的新增资源队列
CREATE RESOURCE QUEUE vc_default.pg_queue WITH (
PARENT='vc_default.pg_queue',
ACTIVE_STATEMENTS=1,
MEMORY_LIMIT_CLUSTER=50%,
CORE_LIMIT_CLUSTER=50%,
RESOURCE_OVERCOMMIT_FACTOR=2,
ALLOCATION_POLICY='even',
VSEG_RESOURCE_QUOTA='mem:2gb');
ALTER RESOURCE QUEUE vc_default.pg_default WITH (
VSEG_RESOURCE_QUOTA='mem:1gb');
-- 重新绑定用户和资源队列
ALTER ROLE xxx RESOURCE QUEUE vc_default.pg_queue;
ALTER ROLE yyy RESOURCE QUEUE vc_default.pg_queue;
```
- 加回standby
```
hawq init standby -s ksm2
```
4.升级验证
```
-- view和catalog检查
select * from gp_segment_configuration; --所有hosts的status值为u
select * from gp_master_mirroring; --summary_state的值为synchronized
select version(); --为要安装的版本号
-- ORC
drop table if exists orc_internal_table;
create table orc_internal_table
(
bool bool,
i2 int2,
i4 int4,
i8 int8,
f4 float4,
f8 float8,
char char(5),
varchar varchar(10),
text text,
bytea bytea,
date date,
time time,
timestamp timestamp,
timestamptz timestamptz,
decimal38 decimal(38, 4),
decimal18 decimal(18, 2)
) with (appendonly=true, orientation=orc);
insert into orc_internal_table
values (true, 2, 4, 8, 4.0, 8.0, 'ch', 'vch', 'text', 'binary', '2020-02-02',
'20:02:02', '2020-02-02 20:02:02.200202', '2020-02-02 20:02:02.200202',
38.38, 18.18);
insert into orc_internal_table values (NULL);
select * from orc_internal_table;
```