Python Seldon Core 的 A/B 测试集成

3次阅读

seldon-core a/b测试本地调试报503因未配置顶层traffic导致流量无法分发，须检查livenessprobe、traffic定义位置及名称匹配，并弃用已废弃的abtest crd。

为什么 `seldon-core` 的 A/B 测试在本地调试时总卡在 `503 Service Unavailable`

因为默认的 SeldonDeployment 资源没触发流量分发逻辑，底层模型服务压根没被调用。Seldon 的 A/B 不是靠代码分支控制，而是靠 kubernetes 层面的 traffic 配置 + 代理路由生效——没配 traffic，所有请求都打到未就绪的默认路由上。

实操建议：

立即学习“Python免费学习笔记（深入）”；

检查 SeldonDeployment YAML 中是否包含 spec.predictors[].componentSpecs[].spec.containers[].livenessProbe，缺失会导致 Pod 卡在 ContainerCreating 或 CrashLoopBackOff，进而整个服务不可用
traffic 必须定义在 spec 顶层，不能写在某个 predictor 下；且至少一个 predictor 的 name 必须和 traffic[].name 完全一致（大小写敏感）
本地 Minikube 环境下，seldon-core-operator 和 seldon-core-analytics 必须处于 Running 状态，用 kubectl get pods -n seldon-system 确认

`seldon-core` 的 `ABTest` CRD 和原生 `SeldonDeployment` 混用会出什么问题

会直接报错 ValidationError(SeldonDeployment.spec): unknown field "abtest" in io.seldon.seldon.core.v1.SeldonDeploymentSpec——因为 ABTest 是独立 CRD，不是 SeldonDeployment 的字段。Seldon 1.12+ 已弃用 ABTest CRD，统一收口到 SeldonDeployment 的 traffic 字段。

实操建议：

立即学习“Python免费学习笔记（深入）”；

删掉所有 ABTest YAML 文件，改用标准 SeldonDeployment，把旧 ABTest.spec.candidates 拆成多个 predictor，再用 traffic 分配权重
旧版 seldon-core（ABTest CRD 时，必须提前 kubectl apply -f https://github.com/SeldonIO/seldon-core/releases/download/v1.9.0/seldon-core-operator.yaml 安装对应 CRD，否则 kubectl apply 直接失败
新版中若仍看到 ABTest 示例，基本是文档没同步更新，以官方最新 example 为准

python 模型封装后，A/B 测试里两个 `predictor` 返回结果不一致但日志没报错

大概率是两个 predictor 加载了不同版本的 Python 包，或者用了不同路径下的模型文件。Seldon 启动时不会校验 requirements.txt 是否一致，也不会自动同步 model.pickle 到每个容器。

实操建议：

立即学习“Python免费学习笔记（深入）”；

在每个 predictor 的 container.image 后加 :v1.2 这类明确 tag，避免镜像被覆盖导致行为漂移
模型文件路径必须写死为绝对路径（如 /mnt/models/model.pkl），且挂载的 volume 名称、subPath 在两个 predictor 中保持一致
加一行 print("Model loaded from:", os.path.abspath(model_path)) 到 predict() 开头，通过 kubectl logs -n myns deploy/my-sd-predictor-a-00001-deployment 对比实际加载路径

用 `seldon-core` 做 A/B 测试时，`curl` 请求返回 `400 Bad Request` 且 body 是空的

这是 Seldon 的 REST API 校验失败：输入 JSON 结构不符合 SeldonProtocol 规范。最常见的是漏了 data 外层字段，或 ndarray 类型没套 tensor。

实操建议：

立即学习“Python免费学习笔记（深入）”；

POST 请求体必须是 {"data": {"ndarray": [[1,2,3]]}} 或 {"data": {"tensor": {"values": [1,2,3], "shape": [1,3]}}}，不能直接传 [[1,2,3]]
如果用 sklearn 模型，确保 input_type 设为 "ndarray"（默认值），而不是 "tensor"；反之用 tensorflow 时建议显式设 "tensor"
用 seldon-core-microservice --api-type=rest mymodule:MyModel 本地启动验证，它会打印更详细的解析错误位置

真正麻烦的从来不是配置几个 traffic 权重，而是两个 predictor 容器背后 Python 环境、模型文件、协议字段三者对齐——差一个字符，流量就静默丢进黑洞。

发表于：后端开发

近一天内

# kubernetes # operator # python

复制链接

Pydantic v2 教程：优雅地解析逗号分隔的浮点数字符串

如何在 Go 中创建包含映射（map）的切片（slice）结构

c++如何实现Prim算法最小生成树_c++ 邻接矩阵与贪心策略选择【实战】

PythonAI算法入门教程_理解智能决策的实现方式

Go 并发下载文件时因 WaitGroup 值传递导致死锁的解决方案

Python Seldon Core 的 A/B 测试集成

为什么 `seldon-core` 的 A/B 测试在本地调试时总卡在 `503 Service Unavailable`

`seldon-core` 的 `ABTest` CRD 和原生 `SeldonDeployment` 混用会出什么问题

python 模型封装后，A/B 测试里两个 `predictor` 返回结果不一致但日志没报错

用 `seldon-core` 做 A/B 测试时，`curl` 请求返回 `400 Bad Request` 且 body 是空的

SQL 页分裂是如何发生的？

ext4 文件系统出现大量“EXT4-fs error”日志如何安全修复

如何在 Symfony 中安全验证用户密码

如何用css制作一个单页滚动效果_结合HTML锚点和css的scroll-behavior实现平滑滚动

如何防止sql注入_mysql项目安全写法

CSS Grid 实现三列响应式汽车卡片布局（告别浮动陷阱）

composer怎么解决2g内存限制_composer超大内存占用优化

Laravel中怎么设置全局变量_Laravel View Share共享数据【技巧】

Linux 高可用架构安全与防护实践

SQL 触发器 BEFORE INSERT vs AFTER INSERT 的业务逻辑选择

Python Seldon Core 的 A/B 测试集成

为什么 seldon-core 的 A/B 测试在本地调试时总卡在 503 Service Unavailable

seldon-core 的 ABTest CRD 和原生 SeldonDeployment 混用会出什么问题

python 模型封装后，A/B 测试里两个 predictor 返回结果不一致但日志没报错

用 seldon-core 做 A/B 测试时，curl 请求返回 400 Bad Request 且 body 是空的

为什么 `seldon-core` 的 A/B 测试在本地调试时总卡在 `503 Service Unavailable`

`seldon-core` 的 `ABTest` CRD 和原生 `SeldonDeployment` 混用会出什么问题

python 模型封装后，A/B 测试里两个 `predictor` 返回结果不一致但日志没报错

用 `seldon-core` 做 A/B 测试时，`curl` 请求返回 `400 Bad Request` 且 body 是空的