如何管理分区表的统计信息收集_DBMS_STATS的GRANULARITY分区级统计

2次阅读

GRANULARITY=’PARTITION’并不只收集分区级统计：它可能触发子分区或全局统计更新，取决于表结构、CASCADE设置及是否含子分区，且局部收集会使全局统计标记为stale。

不一定。即使显式指定 granularity => 'partition'，dbms_stats.gather_table_stats 仍可能触发子分区或全局统计更新，取决于表结构和已有统计状态。

关键看是否启用了 CASCADE（默认 TRUE）以及表是否有子分区：

若表是普通分区表（无子分区），GRANULARITY => 'PARTITION' 会为每个一级分区单独收集统计，并自动汇总出全局统计（GLOBAL 级）
若表是复合分区（如 RANGE-LIST），该参数实际作用于最细粒度——即子分区（SUBPARTITION），不是你直觉里的“分区”
即使设了 GRANULARITY => 'PARTITION'，只要 CASCADE => TRUE（默认），且索引存在，它仍会顺带收集对应分区索引的统计

这是 oracle 统计信息版本管理的副作用：当只收集部分分区时，全局统计会被标记为“stale”，字段 STALE_STATS = 'YES'，哪怕 LAST_ANALYZED 时间看起来更新了。

原因在于，Oracle 认为全局统计必须基于全部分区数据重算才可信。局部更新不满足这个前提，所以主动降级其有效性：

DBMS_STATS.LOCK_TABLE_STATS 不影响此行为；锁的是值，不是有效性标记
NO_INVALIDATE => FALSE 也无法绕过 stale 标记
真正修复方式只有两种：GRANULARITY => 'ALL' 全量收集，或手动用 DBMS_STATS.SET_TABLE_STATS 强制写入全局统计值（需你自己算好）

不是参数设错，而是没理解它的并发逻辑。设成 'PARTITION' 反而可能更慢——因为默认串行执行每个分区，除非你显式开启并行：

必须同时指定 DEGREE => DBMS_STATS.AUTO_DEGREE 或具体数值（如 4），否则即使 GRANULARITY => 'PARTITION'，也只会一个分区一个分区跑
并行下，每个 worker 进程处理一个分区，但所有 worker 共享同一把统计字典锁（sys.col$ 相关），高并发时易争用
如果分区数远大于 CPU 数，反而因调度开销导致整体时间上升；建议分区数 ≤ DEGREE × 2
实测中，对 100+ 分区表，GRANULARITY => 'GLOBAL' + DEGREE => 8 常比 'PARTITION' 更快——因为避免了重复扫描元数据

Oracle 没提供“局部更新但保持全局有效”的内置开关。你得接受一个事实：只要没全量扫，全局统计就不可信。折中方案是“伪全局”：

先用 DBMS_STATS.LOCK_TABLE_STATS 锁住整张表，防止其他作业覆盖
对目标冷分区逐个调用 DBMS_STATS.GATHER_TABLE_STATS，GRANULARITY => 'PARTITION'，CASCADE => FALSE（避免碰索引）
再用 DBMS_STATS.SET_TABLE_STATS 手动把旧的、仍可信的全局统计值写回去（从 DBA_TAB_STATISTICS 中查出 NUM_ROWS、AVG_ROW_LEN 等字段）
注意：NUM_ROWS 必须是你自己按分区行数 sum 出来的，不能直接抄旧值——否则优化器估算会严重失真

这活儿容易漏掉 AVG_DATA_BLOCKS_PER_KEY 这类依赖数据分布的字段，线上谨慎操作。

发表于：php框架

近一天内

复制链接

如何在Golang中利用反射实现简单的序列化工具 Go语言对象转字节流

C++怎么用协程 C++20异步编程co_await用法【深度】