
本文详解如何在 Vertex ai 中查询指定实验的所有运行(Runs),涵盖 SDK 编程调用、控制台操作及关键注意事项,弥补 google.cloud.aiplatform 官方库缺失原生 list_runs() 方法的空白。
本文详解如何在 vertex ai 中查询指定实验的所有运行(runs),涵盖 sdk 编程调用、控制台操作及关键注意事项,弥补 `google.cloud.aiplatform` 官方库缺失原生 `list_runs()` 方法的空白。
在 Vertex AI 的实验(Experiment)管理中,用户常需批量查看、筛选或分析某次实验下所有历史运行(Run)的元数据(如创建时间、参数、指标、状态等)。然而,截至当前版本(google-cloud-aiplatform >= 1.40.0),官方 Python SDK 并未提供类似 experiment.list_runs() 的直接接口——这是开发者普遍遇到的“功能可见但不可编程调用”的典型场景。
所幸,Google 提供了两种可靠且生产可用的替代方案:基于 REST API 的手动调用(推荐用于自动化与集成),以及通过 Google Cloud console 可视化查看(适用于调试与快速验证)。以下重点介绍可编程方式。
✅ 方案一:调用 Vertex AI Experiments REST API(推荐)
由于 SDK 尚未封装该能力,需直接调用底层 Experiments.ListTrials 接口(注意:Vertex AI 实验中的 Run 在后端对应 Trial 资源)。需满足前提:
- 已启用 Vertex AI API;
- 具备 aiplatform.experiments.get 和 aiplatform.trials.list 权限(如 roles/aiplatform.user);
- 实验已通过 aiplatform.init(experiment=…) 创建并关联了至少一个 Run。
以下是完整示例代码(使用 google-auth + requests):
import os from google.auth import default from google.auth.transport.requests import Request import requests def list_experiment_runs( experiment_name: str, project_id: str, location: str = "us-central1", page_size: int = 100, ) -> list: """ 列出指定 Vertex AI Experiment 下所有 Runs(即 Trials) 注意:experiment_name 格式为 'projects/{pid}/locations/{loc}/experiments/{exp_name}' """ # 获取认证凭据 credentials, _ = default() if not credentials.valid: credentials.refresh(Request()) # 构造 Trials 列表端点(实验下的 Trials 即 Runs) parent = f"projects/{project_id}/locations/{location}/experiments/{experiment_name}" url = f"https://{location}-aiplatform.googleapis.com/v1/{parent}/trials" headers = { "Authorization": f"Bearer {credentials.token}", "Content-Type": "application/json", } params = {"pageSize": page_size} runs = [] while True: response = requests.get(url, headers=headers, params=params) response.raise_for_status() data = response.json() runs.extend(data.get("trials", [])) # 分页处理 next_page_token = data.get("nextPageToken") if not next_page_token: break params["pageToken"] = next_page_token return runs # 使用示例 if __name__ == "__main__": runs = list_experiment_runs( experiment_name="my-experiment", project_id="my-gcp-project", location="us-central1" ) for run in runs[:5]: # 打印前5个 Run 的基本信息 print(f"Run ID: {run.get('name')}") print(f" State: {run.get('state')}") print(f" Start Time: {run.get('startTime')}") print(f" Parameters: {run.get('parameters', [])}") print(f" Metrics: {run.get('finalMeasurement', {}).get('metrics', {})}n")
⚠️ 重要说明:
- experiment_name 参数必须为完整资源路径(如 projects/my-proj/locations/us-central1/experiments/my-exp),而非仅实验名字符串;可通过 aiplatform.Experiment.list() 获取完整路径。
- 每个 Trial 对应一次 start_run() 调用,其 finalMeasurement 字段包含 log_metrics() 记录的指标,parameters 字段包含 log_params() 记录的超参。
- 建议配合 page_size 和分页逻辑处理大规模实验(>100 Runs)。
✅ 方案二:Google Cloud Console 可视化查看(辅助验证)
进入 Vertex AI Experiments 控制台 → 选择目标实验 → 点击「Runs」标签页,即可以表格形式查看所有 Run,并支持按状态、时间、指标范围等条件筛选与排序。此方式适合人工排查,不适用于 CI/CD 或监控告警等自动化场景。
? 总结与最佳实践
- ❌ 不要依赖 aiplatform.Experiment 对象的任意未文档化属性尝试获取 Runs —— 官方明确未实现该功能;
- ✅ 生产环境强烈推荐使用 REST API 方案,可轻松集成至 ML Ops 流水线、结果看板或自动归档脚本;
- ? 调用 API 前务必校验服务账号权限,并在敏感环境中使用 Workload Identity Federation 或短期凭据;
- ? 若未来 SDK 新增 Experiment.list_runs() 方法(可关注 GitHub issue #5823),建议平滑迁移以提升可维护性。
掌握上述方法,即可在无原生 SDK 支持的前提下,高效、可靠地完成 Vertex AI 实验运行的全生命周期可观测性建设。