Python深度训练语义分割模型的标签格式设计与处理流程【教程】

27次阅读

语义分割标签必须是单通道、整型、像素值为离散类别ID且尺寸与原图严格对齐的图像；需避免RGB输入、浮点型数据、连续灰度值及尺寸错位，加载时须同步变换并验证唯一值、形状与类型。

语义分割模型训练时，标签不是随便画个图就行——它必须是**单通道、整型、像素值对应类别ID**的图像，且尺寸要和原图严格对齐。设计错格式，模型要么报错，要么学偏，后期排查极耗时。

标签本质是一张“类别地图”，每个像素的数值代表该位置属于哪一类（如0=背景，1=人，2=车）：

LabelMe、CVAT、SuperAnnotate等工具导出的标注，通常需后处理才能用于训练：

LabelMe（jsON → PNG）：用官方labelme_json_to_dataset脚本，或手动读取多边形顶点，用cv2.fillPoly绘制到全零掩膜上，再保存为uint8
CVAT（xml/JSON → mask）：推荐导出为“Segmentation mask (PNG)”格式，检查生成的PNG是否为单通道、无调色板；若带调色板，用img.convert('L')转灰度并映射ID
手绘/PS生成的彩色mask：切忌直接用RGB值当类别！应建立颜色→ID映射表（如[255,0,0]→1），遍历像素查表赋值，最后转np.uint8

在Dataset的__getitem__中，务必按顺序执行以下操作：

Fotor推出的AI图片放大工具

73

用PIL.Image.open(img_path)和PIL.Image.open(mask_path)读取，确保mask返回的是L模式（单通道）
对mask做np.Array(mask, dtype=np.int64)，显式转为整型（PIL读PNG有时默认为uint8，但PyTorch要求long型标签）
如有忽略类别（如边缘模糊区），统一设为-1，并在Loss中设置ignore_index=-1
图像和mask必须使用**同一组随机变换参数**（如相同的crop坐标、flip方向），可用torchvision.transforms.Randomapply配合自定义函数实现

训练前花2分钟确认，能避开80%的“模型不收敛”假问题：

打印唯一值：print(np.unique(np.array(mask))) —— 应只出现你定义的类别ID（如[0,1,2]），不含255、-1等意外值
检查形状和类型：mask.shape == img.shape[:2] 且 mask.dtype in [np.uint8, np.int64]
可视化叠加：用plt.imshow(img); plt.imshow(mask, alpha=0.3, cmap='jet')看类别区域是否贴合物体边界

基本上就这些。格式看着简单，但漏掉一个dtype或错一次resize，模型就默默学错——宁可多写两行检查，别信“应该没问题”。

发表于：后端开发

2025-12-18

复制链接

火腿HTX官网正版入口_火腿HTX官方最新版v10.10.0安卓iOS通用一键下载安装

Golang装饰器模式实现HTTP请求的自动重试机制