Linux hugepages 的 1G vs 2M 页面与数据库内存绑定

1次阅读

优先选2mb大页，因postgresql等传统数据库默认仅支持2mb；1gb需cpu、内核及数据库版本（如oracle 19c+、mysql 8.0.30+、pg 15+）三重支持，并须显式配置与预留。

hugepages 用 1G 还是 2M？看内核版本和数据库进程模型

linux hugetlbpage 支持两种主流大小：2MB（x86_64 默认）和 1GB（需 CPU 和内核支持）。不是越大越好，得看数据库怎么申请内存。

PostgreSQL、Oracle 等传统数据库多用 mmap() + MAP_HUGETLB 绑定大页，它们通常只认 2MB 页面——哪怕你开了 1GB hugepages，cat /proc/meminfo | grep HugePages 显示有空闲，pg_ctl start 仍可能报 Cannot allocate memory。因为内核在 mm/hugetlb.c 里默认只把 2MB 页加入 hstate[0]，而多数 DB 的启动逻辑没显式指定 hstate index。

检查是否真支持 1GB：运行 grep pdpe1gb /proc/cpuinfo（有输出才支持），再确认内核编译了 CONFIG_HUGETLB_PAGE_SIZE_1GB=y
Oracle 19c+、MySQL 8.0.30+（配合 large_pages=ON）可显式请求 1GB 页，但必须提前用 echo 10 > /proc/sys/vm/nr_hugepages_1GB 预留，不能靠 nr_hugepages 统一分配
PostgreSQL 15 以前完全不识别 1GB 页；15+ 需设 huge_page_size = '1GB' 且启动用户有 CAP_IPC_LOCK，否则 fallback 到 2MB 或直接失败

绑定数据库内存时，/proc/sys/vm/hugetlb_shm_group 必须设对

很多 DB（如 PostgreSQL）用共享内存段（shmget()）承载 shared_buffers，而 hugepages 绑定共享内存依赖 hugetlb_shm_group。不设或设错组 ID，shmget() 就会静默退回到普通页，DB 日志里连 warning 都没有。

查数据库进程的 gid：ps -o pid,gid,comm -C postgres，取 gid 值（比如 1001）
写入：echo 1001 > /proc/sys/vm/hugetlb_shm_group（重启后失效，建议加到 /etc/sysctl.conf： vm.hugetlb_shm_group = 1001）
错误现象：DB 启动成功，cat /proc/meminfo | grep HugePages_Free 不减，但 cat /proc/<pid>/smaps | grep -i huge</pid> 显示 0 kB AnonHugePages —— 说明根本没用上

numactl –membind 和 hugepages 冲突会导致 OOM

在 NUMA 架构服务器上，有人想“双重保险”：既用 numactl --membind=0 限定 CPU node，又开 hugepages。结果 DB 启动卡住，dmesg 出现 Out of memory: Kill process xxx (postgres) score xxx or sacrifice child。

原因在于：hugepages 是全局预分配资源，而 --membind 会强制所有内存分配（包括 hugepages backing memory）局限在指定 node。如果该 node 的空闲内存不足以容纳全部 hugepages（比如你预留了 100 个 2MB 页，但 node 0 只剩 150MB 可用），内核就无法完成 page fault，最终触发 OOM killer。

验证方法：numastat -p <pid></pid> 看 Node 0 MemUsed 是否远超 HugePages_Total * 2MB
安全做法：要么不用 --membind，改用 numactl --cpunodebind=0 --membind=0 启动 DB（确保 CPU 和内存同 node），要么关掉 hugepages 改用透明大页（transparent_hugepage=always）
注意：PostgreSQL 的 shared_buffers 分配发生在 postmaster 进程，所以必须对 postmaster 本身用 numactl，不是对 pgbench 等客户端

MySQL 的 innodb_buffer_pool_size 超过 hugepages 总量会静默降级

MySQL 8.0 开启 large_pages=ON 后，InnoDB 会尝试用 hugepages 分配 buffer pool。但如果 innodb_buffer_pool_size 设为 24G，而系统只预留了 10G hugepages（即 5120 个 2MB 页），它不会报错，而是自动切回普通页——此时 SHOW ENGINE INNODB STATUS 里 “Buffer pool size” 仍是 24G，但 cat /proc/meminfo | grep HugePages_Free 完全不变。

确认是否生效：查 MySQL 错误日志，成功绑定会打印 InnoDB: using huge pages；没这行就是降级了
计算公式：所需 hugepages 数 = ceil(innodb_buffer_pool_size / 2MB)，再额外加 10% 缓冲（InnoDB 内部元数据也吃 hugepages）
危险操作：动态调大 innodb_buffer_pool_size 时，若 hugepages 不足，MySQL 会先释放旧 buffer pool（触发刷盘），再申请新内存——期间可能因普通页分配失败直接 crash

真正麻烦的是：这些机制都藏在内核和数据库启动路径深处，出问题时既不报错也不提示，只能靠 /proc 和日志交叉比对。别信“开了 hugepages 就一定用了”。

发表于：运维

近一天内

复制链接

c++中如何实现二分查找_c++二分查找算法实现

如何把html5发布到服务器

IE浏览器html5视频下载受限_突破IE下载html5限【破限】

如何递归遍历任意深度嵌套的多维数组（支持 foreach 与 for 循环）

PHP怎么生成验证码_PHP验证码图片生成教程【详解】

Linux hugepages 的 1G vs 2M 页面与数据库内存绑定

hugepages 用 1G 还是 2M？看内核版本和数据库进程模型

绑定数据库内存时，/proc/sys/vm/hugetlb_shm_group 必须设对

numactl –membind 和 hugepages 冲突会导致 OOM

MySQL 的 innodb_buffer_pool_size 超过 hugepages 总量会静默降级

如何让网站支持 prefers-reduced-motion（减少动画）？

XML序列化是什么如何将对象转换为XML字符串

javascript数据可视化怎么做_d3.js和chart.js怎么选【教程】

PHP 中如何将房间与对应区块数组组合成结构化键值对列表

Golang反射在框架开发中的价值分析

SQL 安全策略在分布式数据库中的应用

Linux cpuset cgroup 的 CPU 隔离与 NUMA 节点绑定生产实践

在 Docker 容器内构建 Docker 镜像：Go 程序的嵌套构建实践指南

React Router 外部链接重定向优化：消除中间页闪烁问题

Laravel 查询构建器链式调用失效的常见原因与正确初始化方式