如何管理分区表的统计信息收集_DBMS_STATS的GRANULARITY分区级统计

2次阅读

GRANULARITY=’PARTITION’并不只收集分区级统计:它可能触发子分区或全局统计更新,取决于表结构、CASCADE设置及是否含子分区,且局部收集会使全局统计标记为stale。

GRANULARITY 参数设成 ‘PARTITION’ 真的只收集分区级统计?

不一定。即使显式指定 granularity => 'partition'dbms_stats.gather_table_stats 仍可能触发子分区或全局统计更新,取决于表结构和已有统计状态。

关键看是否启用了 CASCADE(默认 TRUE)以及表是否有子分区:

  • 若表是普通分区表(无子分区),GRANULARITY => 'PARTITION' 会为每个一级分区单独收集统计,并自动汇总出全局统计(GLOBAL 级)
  • 若表是复合分区(如 RANGE-LIST),该参数实际作用于最细粒度——即子分区(SUBPARTITION),不是你直觉里的“分区”
  • 即使设了 GRANULARITY => 'PARTITION',只要 CASCADE => TRUE(默认),且索引存在,它仍会顺带收集对应分区索引的统计

为什么对单个分区 gather_stats 后,USER_TAB_STATISTICS 里 GLOBAL 行反而变旧了?

这是 oracle 统计信息版本管理的副作用:当只收集部分分区时,全局统计会被标记为“stale”,字段 STALE_STATS = 'YES',哪怕 LAST_ANALYZED 时间看起来更新了。

原因在于,Oracle 认为全局统计必须基于全部分区数据重算才可信。局部更新不满足这个前提,所以主动降级其有效性:

  • DBMS_STATS.LOCK_TABLE_STATS 不影响此行为;锁的是值,不是有效性标记
  • NO_INVALIDATE => FALSE 也无法绕过 stale 标记
  • 真正修复方式只有两种:GRANULARITY => 'ALL' 全量收集,或手动用 DBMS_STATS.SET_TABLE_STATS 强制写入全局统计值(需你自己算好)

分区表统计收集慢,是不是因为 GRANULARITY 设错了?

不是参数设错,而是没理解它的并发逻辑。设成 'PARTITION' 反而可能更慢——因为默认串行执行每个分区,除非你显式开启并行:

  • 必须同时指定 DEGREE => DBMS_STATS.AUTO_DEGREE 或具体数值(如 4),否则即使 GRANULARITY => 'PARTITION',也只会一个分区一个分区跑
  • 并行下,每个 worker 进程处理一个分区,但所有 worker 共享同一把统计字典锁(sys.col$ 相关),高并发时易争用
  • 如果分区数远大于 CPU 数,反而因调度开销导致整体时间上升;建议分区数 ≤ DEGREE × 2
  • 实测中,对 100+ 分区表,GRANULARITY => 'GLOBAL' + DEGREE => 8 常比 'PARTITION' 更快——因为避免了重复扫描元数据

如何安全地只更新某几个冷分区的统计,又不让全局统计失效?

Oracle 没提供“局部更新但保持全局有效”的内置开关。你得接受一个事实:只要没全量扫,全局统计就不可信。折中方案是“伪全局”:

  • 先用 DBMS_STATS.LOCK_TABLE_STATS 锁住整张表,防止其他作业覆盖
  • 对目标冷分区逐个调用 DBMS_STATS.GATHER_TABLE_STATSGRANULARITY => 'PARTITION'CASCADE => FALSE(避免碰索引)
  • 再用 DBMS_STATS.SET_TABLE_STATS 手动把旧的、仍可信的全局统计值写回去(从 DBA_TAB_STATISTICS 中查出 NUM_ROWSAVG_ROW_LEN 等字段)
  • 注意:NUM_ROWS 必须是你自己按分区行数 sum 出来的,不能直接抄旧值——否则优化器估算会严重失真

这活儿容易漏掉 AVG_DATA_BLOCKS_PER_KEY 这类依赖数据分布的字段,线上谨慎操作。

text=ZqhQzanResources