OceanBaseV3 中统计信息相关的系统表很多,一些表明明在文档中有介绍,但实际是空的,本文对统计信息相关的表进行总结,先说结论:
- 不建议在 sys 租户下查看统计信息,只能查看合并收集的统计信息,无法查看手工收集的统计信息
- MySQL租户建议通过 __all_table_stat_v2、__all_column_stat_v2、__all_histogram_stat_v2 查看统计信息,注意只有在手工收集统计信息后才会更新
- Oracle 租户通过 ALL_TAB_STATISTICS、ALL_TAB_COL_STATISTICS、ALL_TAB_HISTOGRAMS 查看手工收集的统计信息
1. 统计信息的收集
先简单介绍统计信息的收集机制:
- 3.2.x 之前的版本只能通过每日合并收集统计信息:只能增量收集,delete 删除的数据不会被感知到,准确率较低
- 3.2.x 版本后支持手工收集、自动收集。
虽然每日合并收集的统计信息不是特别准确,但不必过分担心优化器会选错执行计划,因为有存储层估行接口:很多情况下,在生成执行计划的阶段,可以直接根据 query range 从存储层返回需要扫描的行数,不使用统计信息,从而得到正确的执行计划。
MySQL 租户手工收集统计信息的方法:
--手工收集 sbtest1 表的 id,k 字段直方图统计信息,桶个数为8个
analyze table sbtest.sbtest1 UPDATE HISTOGRAM ON id,k WITH 8 BUCKETS;
Oracle 租户手工收集统计信息的方法:
尽量用 dbms_stats 包收集,不要用 analyze 命令收集:
--收集用户 USERA 的表 T1 的统计信息,并行度为 64,只收集数据分布不均匀的列的直方图。
call dbms_stats.gather_table_stats('USERA','T1',degree=>'64',granularity=>'all',method_opt=>'FOR ALL COLUMNS SIZE SKEWONLY');
--收集所有字段的统计信息(不收集直方图需要在 method_opt 中指定 size 1,如果不指定,默认直方图桶的个数是 256)
call dbms_stats.gather_table_stats('USERA','T1',method_opt=>'for all columns size 1');
--收集指定字段的统计信息(不收集直方图)
call dbms_stats.gather_table_stats('USERA','T1',method_opt=>'for columns c3 size 1');
--删除统计信息
call dbms_stats.delete_table_stats('USERA', 'T1');
2. sys租户查看统计信息
查看表级统计信息:
-- 会输出分区信息
select
b.table_name,
a.tenant_id,
a.partition_id,
a.role,
a.row_count,
a.data_size,
a.gmt_modified
from
__all_virtual_meta_table a
join gv$table b on a.table_id = b.table_id
where
b.table_name = 't1'
and b.tenant_id = 1003
and b.database_name = 'usera'
and a.role = 1;
-- 如果有多个分区,可以这样汇总
select
b.table_name,
sum(a.row_count)
from
__all_virtual_meta_table a
join gv$table b on a.table_id = b.table_id
where
b.table_name = 't1'
and b.tenant_id = 1003
and b.database_name = 'usera'
and a.role = 1
group by
b.table_name;
查看列级统计信息:
select
b.table_name,
a.tenant_id,
a.partition_id,
c.column_name,
a.num_distinct,
a.num_null,
a.gmt_modified
from
__all_virtual_column_statistic a
join gv$table b on a.table_id = b.table_id
join __all_virtual_column c on a.table_id = c.table_id
and a.column_id = c.column_id
where
b.table_name = 't1'
and b.tenant_id = 1003
and b.database_name = 'usera'
and c.column_name ='c1';
3. MySQL 租户查看统计信息
查看表级统计信息:
select b.table_name,a.partition_id,a.row_cnt,a.avg_row_len,a.macro_blk_cnt,a.micro_blk_cnt,a.gmt_modified
from oceanbase.__all_table_stat_v2 a
join oceanbase.__all_table_v2 b on a.table_id=b.table_id;
+------------+--------------+---------+-------------+---------------+---------------+----------------------------+
| table_name | partition_id | row_cnt | avg_row_len | macro_blk_cnt | micro_blk_cnt | gmt_modified |
+------------+--------------+---------+-------------+---------------+---------------+----------------------------+
| t4_part_g | -1 | 999999 | 242 | 100 | 14099 | 2022-12-29 18:02:05.241812 |
| t4_part_g | 0 | 9999 | 242 | 1 | 141 | 2022-12-29 18:02:05.241812 |
| t4_part_g | 1 | 90000 | 242 | 9 | 1268 | 2022-12-29 18:02:05.241812 |
| t4_part_g | 2 | 50000 | 242 | 5 | 705 | 2022-12-29 18:02:05.241812 |
| t4_part_g | 3 | 50000 | 242 | 5 | 705 | 2022-12-29 18:02:05.241812 |
| t4_part_g | 4 | 50000 | 242 | 5 | 705 | 2022-12-29 18:02:05.241812 |
| t4_part_g | 5 | 50000 | 242 | 5 | 705 | 2022-12-29 18:02:05.241812 |
...
查看列级统计信息,__all_column_stat_v2表:
- 分区表 partition_id=-1 即为表整体的统计信息,否则表示每个分区的信息;非分区表 partition_id=0。如果不想看分区级别的信息,可以用 object_type=1 筛选。
- sample_size 采样大小
- bucket_cnt 直方图桶的个数
- 合并后不更新,只有手工收集统计信息才更新
select b.table_name,a.partition_id,c.column_name,a.sample_size,a.bucket_cnt,a.distinct_cnt,a.null_cnt,a.gmt_modified
from __all_column_stat_v2 a
join __all_table_v2 b on a.table_id=b.table_id
join __all_column c on a.table_id=c.table_id and a.column_id=c.column_id
where a.object_type=1;
+------------+--------------+-------------+-------------+------------+--------------+----------+----------------------------+
| table_name | partition_id | column_name | sample_size | bucket_cnt | distinct_cnt | null_cnt | gmt_modified |
+------------+--------------+-------------+-------------+------------+--------------+----------+----------------------------+
| t4_part_g | -1 | id | 15369 | 30 | 930724 | 0 | 2022-12-29 18:02:06.141816 |
| t4_part_g | -1 | k | 15369 | 30 | 175614 | 0 | 2022-12-29 18:02:06.141816 |
| t4_part_g | -1 | c | 15369 | 30 | 976979 | 0 | 2022-12-29 18:02:06.141816 |
| t4_part_g | -1 | pad | 15369 | 30 | 987873 | 0 | 2022-12-29 18:02:06.141816 |
| sbtest1 | 0 | id | 4146 | 8 | 9816 | 0 | 2023-01-09 15:16:01.523297 |
| sbtest1 | 0 | k | 4146 | 8 | 7546 | 0 | 2023-01-09 15:16:01.523297 |
+------------+--------------+-------------+-------------+------------+--------------+----------+----------------------------+
6 rows in set (0.029 sec)
直方图查看:
select b.table_name,a.partition_id,c.column_name,a.endpoint_num,a.endpoint_normalized_value,a.gmt_modified
from __all_histogram_stat_v2 a
join __all_table_v2 b on a.table_id=b.table_id
join __all_column c on a.table_id=c.table_id and a.column_id=c.column_id
where b.table_name='sbtest1' and partition_id<=0;
4. Oracle 租户查看统计信息
Oracle 租户的统计信息和 Oracle 保持一致,需要手工收集才可以查看,没什么套路:
- ALL_TAB_STATISTICS:表级统计信息
- ALL_TAB_COL_STATISTICS:查看列级统计信息
- ALL_TAB_HISTOGRAMS:查看直方图统计信息