SQL数据库列存储原理_行存与列存对比

14次阅读

列存储将同一列数据连续存放，提升分析查询效率与压缩比，但写入性能较差；行存则整行存储，适合事务处理。

SQL数据库列存储原理_行存与列存对比

sql数据库里的列存储，核心是把同一列的所有值连续存放在磁盘或内存中，而不是像行存那样把整条记录（比如用户ID、姓名、年龄）捆在一起存。这种“按列组织数据”的方式，直接决定了它在分析类查询中效率高、压缩比大，但在事务写入时更吃力。

列存储是怎么组织数据的

假设一张表有三列：user_id（整型）、action（字符串）、ts（时间戳），共100万行数据：

行存会把每行拼成一个单元，比如[1, “click”, “2025-01-01″] → [2, “view”, “2025-01-01”] → …，顺序写入磁盘块；
列存则拆开存放：user_id列单独存为一串整数[1, 2, 3, …, 1000000]，action列存为字符串数组[“click”, “view”, “buy”, …]，ts列存为统一格式的时间序列——各列物理上完全分离。

这样做的直接好处是：查“所有action类型分布”，只需读action列那一段；做SUM、AVG、GROUP BY，引擎能顺序扫描同质数据，CPU缓存友好，还能用RLE、字典编码等算法高效压缩。

行存和列存的关键差异在哪

差异不在“好不好”，而在“适合什么场景”：

读取逻辑不同：行存一次加载整行，适合点查（如select * FROM users WHERE id = 123）；列存只加载涉及的列，适合宽表扫描（如SELECT count(*), AVG(age) FROM logs WHERE dt = '2026-01-04'）；
写入机制不同：行存插入一行=一次定位+一次写入；列存需分别写入N个列块，磁头寻道/页分裂开销更大，尤其单行更新代价高；
压缩能力不同：列内数据类型一致、重复模式多（比如status列大量是”success”），压缩率常达5–10倍；行存混杂不同类型字段，压缩收益有限；
索引与优化倾向不同：列存天然具备“每列即索引”的特性（比如对某列建位图索引非常轻量），优化器更倾向向量化执行、谓词下推；行存依赖B+树等传统索引结构，优化重心在连接、事务一致性。

哪些SQL数据库支持列存

不是所有SQL数据库都原生支持列存，但主流系统已有明确分工或混合能力：

纯列存SQL引擎：clickhouse、apache Doris、StarRocks、Vertica——默认按列组织，专为OLAP设计；
支持列存扩展的通用数据库：postgresql（通过citus或columnar插件）、SQL Server（支持聚集列存储索引）、oracle（In-Memory Column Store选项）、PolarDB（mysql版提供行列混合模式）；
典型行存为主，不默认列存：MySQL（InnoDB引擎）、PostgreSQL（默认堆表）、sqlite——它们的底层存储面向事务，列存需额外组件或升级版本实现。

选型时不用纠结“哪个更好”，而要看你主要跑的是UPDATE user SET balance = balance - 100 WHERE id = 888，还是SELECT region, SUM(sales) FROM fact_sales GROUP BY region——前者行存稳，后者列存快。

发表于：数据库

2026-01-07

复制链接

SQL访问权限如何管理_重要技巧总结提升查询效率【教程】

SQL高并发性能如何优化_锁冲突与索引调优技巧【技巧】

mysql如何优化大事务_mysql大事务处理优化方法

如何在 Redux Toolkit 中正确触发状态更新后的异步 API 请求

Linux系统优化教程_内核参数调优与资源管理技巧

SQL数据库列存储原理_行存与列存对比

列存储是怎么组织数据的

行存和列存的关键差异在哪

哪些SQL数据库支持列存

Golang是否应该为每个错误定义变量

mysql是什么数据库_mysql基本概念详解

怎样为VSCode设置自动修复代码风格问题【教程】

如何正确实现拖拽过程中仅隐藏被拖动元素而不影响其他元素

Composer fund命令是什么查看开源项目赞助信息【科普】

Linux LVM 扩容是否真的安全？

python截取指定字符串_定位关键词前后的子串提取完整方案

PHP 数组键映射：将结果数组按指定索引位置映射到结构化键数组

tcpdump 抓到大量 Retransmission 但客户端日志无超时的网络层根因

Go语言中空函数声明的原理与实现机制