如何用多张图像训练 TensorFlow Sequential 模型

6次阅读

如何用多张图像训练 TensorFlow Sequential 模型

本文详解如何正确组织批量图像数据以训练 keras sequential 模型,重点解决因输入张量维度误用导致的“期望 1 个输入但收到 2 个张量”错误,并提供可扩展的数据拼接与训练实践方案。

你遇到的 ValueError: Layer “sequential_28” expects 1 input(s), but it received 2 input tensors 错误,根源在于对 Keras 输入数据结构的误解:将两个独立图像数组(如 [img1, img2])直接放入列表 train_x = [template_array, actual_array],会被 Keras 解释为「向模型传入两个不同的输入流」——这适用于多输入模型(如双分支 Siamese 网络),但你的 Sequential 模型仅定义了单个 InputLayer,因此只接受一个四维张量:(batch_size, height, width, channels)。

✅ 正确做法是:将多张图像沿 batch 维度(axis=0),构成统一的批量张量。例如:

# ✅ 正确:合并为单个 batch 张量 (2, 549, 549, 3) train_x = np.concatenate([template_array, actual_array], axis=0)  # shape: (2, 549, 549, 3)  # ✅ 对应标签也需匹配 batch 维度:(2,) 或 (2, 2)(one-hot) y_train = np.array([[0, 1], [1, 0]])  # 2 samples → 2 labels, one-hot encoded # 或使用 sparse labels(若 loss='sparse_categorical_crossentropy'): # y_train = np.array([1, 0])  # shape: (2,)

同时,请修正模型输入层定义。input_shape 应排除 batch 维度,仅指定单样本形状:

model = tf.keras.Sequential([     layers.InputLayer(input_shape=(549, 549, 3)),  # ✅ 正确:不含 batch_size     layers.Conv2D(16, (3, 3), activation='relu'),     layers.MaxPooling2D((2, 2)),     layers.Conv2D(32, (3, 3), activation='relu'),     layers.MaxPooling2D((2, 2)),     layers.Flatten(),     layers.Dense(64, activation='relu'),     layers.Dense(2, activation='softmax'),  # 2 classes ])

完整可运行示例(含数据预处理与训练):

import numpy as np import tensorflow as tf from tensorflow.keras import layers, models  # 假设已加载并归一化图像(值域 [0,1]) # template_array.shape == actual_array.shape == (549, 549, 3) template_array = template_array / 255.0 actual_array = actual_array / 255.0  # 构建批量训练数据:(2, 549, 549, 3) train_x = np.stack([template_array, actual_array], axis=0)  # 推荐用 stack(更清晰) # 或等价于:np.concatenate([template_array[np.newaxis], actual_array[np.newaxis]], axis=0)  # 标签:one-hot 编码,shape=(2, 2) y_train = np.array([[1, 0],   # label for template                     [0, 1]])  # label for actual  # 构建模型(注意 input_shape 不含 batch 维) model = models.Sequential([     layers.InputLayer(input_shape=(549, 549, 3)),     layers.Conv2D(16, 3, activation='relu'),     layers.MaxPooling2D(),     layers.Conv2D(32, 3, activation='relu'),     layers.MaxPooling2D(),     layers.Flatten(),     layers.Dense(64, activation='relu'),     layers.Dense(2, activation='softmax') ])  model.compile(     optimizer='adam',     loss='categorical_crossentropy',  # 匹配 one-hot 标签     metrics=['accuracy'] )  # ✅ 正确训练:单个 x 张量 + 单个 y 张量 history = model.fit(     x=train_x,     y=y_train,     epochs=10,     batch_size=2,  # 可选,此处 batch_size = total samples     verbose=1 )

⚠️ 关键注意事项:

  • 永远不要用 python 列表包装单样本数组作为 x(如 [img1, img2]),这是多输入模型的语法;
  • 使用 np.stack()(推荐,语义明确)或 np.concatenate(…, axis=0) 合并图像;
  • 标签 y 的第一维必须与 x 的 batch_size 严格一致;
  • 图像需统一尺寸、归一化(如 /255.0),并确保通道顺序一致(TensorFlow 默认 channels_last);
  • 实际项目中,建议使用 tf.data.Dataset.from_tensor_slices((train_x, y_train)) 构建高效数据管道,支持自动批处理、打乱与预取。

掌握这一数据组织逻辑,即可无缝扩展至数百/千张图像训练——只需将所有图像堆叠为 (N, H, W, C),标签对齐为 (N,) 或 (N, num_classes),model.fit() 即可高效执行批量训练。

text=ZqhQzanResources