Vertex AI 实验运行列表获取完整指南

4次阅读

Vertex AI 实验运行列表获取完整指南

本文详解如何在 Vertex ai 中查询指定实验的所有运行(Runs),涵盖 SDK 编程调用、控制台操作及关键注意事项,弥补 google.cloud.aiplatform 官方库缺失原生 list_runs() 方法的空白。

本文详解如何在 vertex ai 中查询指定实验的所有运行(runs),涵盖 sdk 编程调用、控制台操作及关键注意事项,弥补 `google.cloud.aiplatform` 官方库缺失原生 `list_runs()` 方法的空白。

在 Vertex AI 的实验(Experiment)管理中,用户常需批量查看、筛选或分析某次实验下所有历史运行(Run)的元数据(如创建时间、参数、指标、状态等)。然而,截至当前版本(google-cloud-aiplatform >= 1.40.0),官方 Python SDK 并未提供类似 experiment.list_runs() 的直接接口——这是开发者普遍遇到的“功能可见但不可编程调用”的典型场景。

所幸,Google 提供了两种可靠且生产可用的替代方案:基于 REST API 的手动调用(推荐用于自动化与集成),以及通过 Google Cloud console 可视化查看(适用于调试与快速验证)。以下重点介绍可编程方式。

✅ 方案一:调用 Vertex AI Experiments REST API(推荐)

由于 SDK 尚未封装该能力,需直接调用底层 Experiments.ListTrials 接口(注意:Vertex AI 实验中的 Run 在后端对应 Trial 资源)。需满足前提:

  • 已启用 Vertex AI API;
  • 具备 aiplatform.experiments.get 和 aiplatform.trials.list 权限(如 roles/aiplatform.user);
  • 实验已通过 aiplatform.init(experiment=…) 创建并关联了至少一个 Run。

以下是完整示例代码(使用 google-auth + requests):

import os from google.auth import default from google.auth.transport.requests import Request import requests  def list_experiment_runs(     experiment_name: str,     project_id: str,     location: str = "us-central1",     page_size: int = 100, ) -> list:     """     列出指定 Vertex AI Experiment 下所有 Runs(即 Trials)     注意:experiment_name 格式为 'projects/{pid}/locations/{loc}/experiments/{exp_name}'     """     # 获取认证凭据     credentials, _ = default()     if not credentials.valid:         credentials.refresh(Request())      # 构造 Trials 列表端点(实验下的 Trials 即 Runs)     parent = f"projects/{project_id}/locations/{location}/experiments/{experiment_name}"     url = f"https://{location}-aiplatform.googleapis.com/v1/{parent}/trials"      headers = {         "Authorization": f"Bearer {credentials.token}",         "Content-Type": "application/json",     }      params = {"pageSize": page_size}     runs = []      while True:         response = requests.get(url, headers=headers, params=params)         response.raise_for_status()         data = response.json()          runs.extend(data.get("trials", []))          # 分页处理         next_page_token = data.get("nextPageToken")         if not next_page_token:             break         params["pageToken"] = next_page_token      return runs  # 使用示例 if __name__ == "__main__":     runs = list_experiment_runs(         experiment_name="my-experiment",         project_id="my-gcp-project",         location="us-central1"     )     for run in runs[:5]:  # 打印前5个 Run 的基本信息         print(f"Run ID: {run.get('name')}")         print(f"  State: {run.get('state')}")         print(f"  Start Time: {run.get('startTime')}")         print(f"  Parameters: {run.get('parameters', [])}")         print(f"  Metrics: {run.get('finalMeasurement', {}).get('metrics', {})}n")

⚠️ 重要说明

  • experiment_name 参数必须为完整资源路径(如 projects/my-proj/locations/us-central1/experiments/my-exp),而非仅实验名字符串;可通过 aiplatform.Experiment.list() 获取完整路径。
  • 每个 Trial 对应一次 start_run() 调用,其 finalMeasurement 字段包含 log_metrics() 记录的指标,parameters 字段包含 log_params() 记录的超参。
  • 建议配合 page_size 和分页逻辑处理大规模实验(>100 Runs)。

✅ 方案二:Google Cloud Console 可视化查看(辅助验证)

进入 Vertex AI Experiments 控制台 → 选择目标实验 → 点击「Runs」标签页,即可以表格形式查看所有 Run,并支持按状态、时间、指标范围等条件筛选与排序。此方式适合人工排查,不适用于 CI/CD 或监控告警等自动化场景。

? 总结与最佳实践

  • ❌ 不要依赖 aiplatform.Experiment 对象的任意未文档化属性尝试获取 Runs —— 官方明确未实现该功能;
  • ✅ 生产环境强烈推荐使用 REST API 方案,可轻松集成至 ML Ops 流水线、结果看板或自动归档脚本;
  • ? 调用 API 前务必校验服务账号权限,并在敏感环境中使用 Workload Identity Federation 或短期凭据;
  • ? 若未来 SDK 新增 Experiment.list_runs() 方法(可关注 GitHub issue #5823),建议平滑迁移以提升可维护性。

掌握上述方法,即可在无原生 SDK 支持的前提下,高效、可靠地完成 Vertex AI 实验运行的全生命周期可观测性建设。

text=ZqhQzanResources