Python Seldon Core 的 A/B 测试集成

3次阅读

seldon-core a/b测试本地调试报503因未配置顶层traffic导致流量无法分发,须检查livenessprobe、traffic定义位置及名称匹配,并弃用已废弃的abtest crd。

Python Seldon Core 的 A/B 测试集成

为什么 seldon-core 的 A/B 测试在本地调试时总卡在 503 Service Unavailable

因为默认的 SeldonDeployment 资源没触发流量分发逻辑,底层模型服务压根没被调用。Seldon 的 A/B 不是靠代码分支控制,而是靠 kubernetes 层面的 traffic 配置 + 代理路由生效——没配 traffic,所有请求都打到未就绪的默认路由上。

实操建议:

立即学习Python免费学习笔记(深入)”;

  • 检查 SeldonDeployment YAML 中是否包含 spec.predictors[].componentSpecs[].spec.containers[].livenessProbe,缺失会导致 Pod 卡在 ContainerCreatingCrashLoopBackOff,进而整个服务不可用
  • traffic 必须定义在 spec 顶层,不能写在某个 predictor 下;且至少一个 predictorname 必须和 traffic[].name 完全一致(大小写敏感)
  • 本地 Minikube 环境下,seldon-core-operatorseldon-core-analytics 必须处于 Running 状态,用 kubectl get pods -n seldon-system 确认

seldon-coreABTest CRD 和原生 SeldonDeployment 混用会出什么问题

会直接报错 ValidationError(SeldonDeployment.spec): unknown field "abtest" in io.seldon.seldon.core.v1.SeldonDeploymentSpec——因为 ABTest 是独立 CRD,不是 SeldonDeployment 的字段。Seldon 1.12+ 已弃用 ABTest CRD,统一收口到 SeldonDeploymenttraffic 字段。

实操建议:

立即学习Python免费学习笔记(深入)”;

  • 删掉所有 ABTest YAML 文件,改用标准 SeldonDeployment,把旧 ABTest.spec.candidates 拆成多个 predictor,再用 traffic 分配权重
  • 旧版 seldon-core(ABTest CRD 时,必须提前 kubectl apply -f https://github.com/SeldonIO/seldon-core/releases/download/v1.9.0/seldon-core-operator.yaml 安装对应 CRD,否则 kubectl apply 直接失败
  • 新版中若仍看到 ABTest 示例,基本是文档没同步更新,以 官方最新 example 为准

python 模型封装后,A/B 测试里两个 predictor 返回结果不一致但日志没报错

大概率是两个 predictor 加载了不同版本的 Python 包,或者用了不同路径下的模型文件。Seldon 启动时不会校验 requirements.txt 是否一致,也不会自动同步 model.pickle 到每个容器。

实操建议:

立即学习Python免费学习笔记(深入)”;

  • 在每个 predictorcontainer.image 后加 :v1.2 这类明确 tag,避免镜像被覆盖导致行为漂移
  • 模型文件路径必须写死为绝对路径(如 /mnt/models/model.pkl),且挂载的 volume 名称、subPath 在两个 predictor 中保持一致
  • 加一行 print("Model loaded from:", os.path.abspath(model_path))predict() 开头,通过 kubectl logs -n myns deploy/my-sd-predictor-a-00001-deployment 对比实际加载路径

seldon-core 做 A/B 测试时,curl 请求返回 400 Bad Request 且 body 是空的

这是 Seldon 的 REST API 校验失败:输入 JSON 结构不符合 SeldonProtocol 规范。最常见的是漏了 data 外层字段,或 ndarray 类型没套 tensor

实操建议:

立即学习Python免费学习笔记(深入)”;

  • POST 请求体必须是 {"data": {"ndarray": [[1,2,3]]}}{"data": {"tensor": {"values": [1,2,3], "shape": [1,3]}}},不能直接传 [[1,2,3]]
  • 如果用 sklearn 模型,确保 input_type 设为 "ndarray"(默认值),而不是 "tensor";反之用 tensorflow 时建议显式设 "tensor"
  • seldon-core-microservice --api-type=rest mymodule:MyModel 本地启动验证,它会打印更详细的解析错误位置

真正麻烦的从来不是配置几个 traffic 权重,而是两个 predictor 容器背后 Python 环境、模型文件、协议字段三者对齐——差一个字符,流量就静默丢进黑洞。

text=ZqhQzanResources