sql数据库建模应先理解业务、梳理实体关系,再设计概念模型(ER图)、逻辑模型与物理模型,强调稳扎稳打、适度反范式及索引优化,而非直接写CREATE table。

SQL数据库建模不是先写CREATE TABLE,而是从理解业务、理清实体关系开始。建得快不如建得稳,很多后期的性能差、改不动、关联混乱问题,根源都在建模阶段没踩对节奏。
明确业务场景,画出核心实体与流程
别一上来就打开navicat建表。先和业务方聊清楚:系统要支持哪些操作?用户会查什么?哪些数据必须留痕?比如做一个订单系统,核心实体至少包括用户、商品、订单、订单项、地址;关键流程是“用户下单→生成订单→拆分订单项→支付→发货”。用白板或draw.io画出这些实体,标出它们之间的动作(如“创建”“属于”“更新状态”),不写字段,只理关系。
常见误区:把页面字段直接当数据库字段(比如前端显示“收货人姓名+电话”,后端却拆成5个字段存);混淆主数据和过程数据(把每次下单的收货地址硬关联到用户表,导致历史订单地址随用户信息变更而丢失)。
设计概念模型(ER图),聚焦实体、属性、关系
在上一步基础上,给每个实体补充关键属性(只列业务语义明确的,如“订单号”“下单时间”“实付金额”),标注主键(PK)、外键(FK)意向,定义关系类型(1对1、1对多、多对多)。多对多关系必须拆解为独立关联表(如“用户-角色”→新建user_role表)。
建议做法:
- 用下划线命名法统一字段名(user_id、order_created_at),避免大小写混用或驼峰
- 主键优先用自增整数(id),高并发或分库场景再考虑UUID/雪花ID
- 所有外键必须显式声明约束(ON delete restrict/CAScadE),不靠应用层保证一致性
- 时间字段统一用dateTIME或timestamp,明确是否带时区(推荐UTC存储,展示层转本地)
落地逻辑模型,做必要规范化与适度反范式
把ER图转成具体表结构,执行第三范式(3NF)检查:每张表只有一个主题,非主键字段完全依赖主键,无传递依赖。例如“订单表”里不应出现商品名称、单价——这些属于商品维度,应通过order_item关联商品表获取。
但别教条。以下情况可主动反范式:
- 高频统计字段冗余(如订单表存order_amount_total,避免每次SUM(order_item.price * qty))
- 读远大于写的配置类数据(如省市区三级表,在用户表冗余province_name提升查询速度)
- 为避免多表JOIN导致慢查询,且数据变更极少的字段(如币种code对应的中文名)
关键原则:冗余字段必须有自动同步机制(触发器、应用层双写、CDC),绝不能靠人工维护。
生成物理模型前,确认关键约束与索引策略
建表语句不是字段堆砌。每张表需明确:
- NOT NULL字段有哪些(如user.email、order.status)
- 是否有唯一约束(如user.phone + user.deleted_at组合唯一,支持软删除)
- 哪些字段需要索引:主键自动有聚簇索引;WHERE条件高频字段(如order.user_id、order.created_at);ORDER BY/GROUP BY字段;联合查询的外键列
- 避免过度索引:单表索引一般不超过5个,写多读少的表慎加索引
典型错误:给varchar(255)的name字段建全文索引却不设前缀长度,拖慢写入;在datetime字段上建普通索引却用WHERE DATE(created_at) = ‘2024-01-01’,导致索引失效。
基本上就这些。建模不是一步到位的事,上线后随着业务演进要定期回看:有没有新出现的跨表查询?有没有因字段缺失频繁加ALTER TABLE?有没有因冗余字段不同步引发数据不一致?好的模型,是跑出来、改出来、护出来的。