
YAML 中读取存储在多个变量中的文件名
本文介绍了如何在 YAML 文件中定义共享的根路径,并在其他变量中使用该根路径来构建完整的文件路径。通过使用 Python 的字符串格式化功能,可以有效地解决 YAML 解析时遇到的 ScannerError 问题,从而轻松读取和使用这些文件路径。
在处理包含大量文件路径的 YAML 数据时,如果这些文件路径共享一个共同的根目录,那么将根目录定义为一个变量并在其他路径中引用它可以避免重复,提高可维护性。然而,直接在 YAML 中使用 + 运算符进行字符串连接可能会导致解析错误。本文将介绍一种使用 Python 的字符串格式化功能来解决此问题的方法。
问题描述
假设我们有以下 YAML 文件 (DEMO.yaml):
define: &root '/Users/SAL/Documents/Projects/FORD_CELLS/' test1: *root+'test1/result.csv' test2: *root+'test2/result.csv'
直接使用 Python 的 yaml.safe_load 读取此文件会导致 ScannerError,因为 YAML 解析器无法识别 + 运算符。
解决方案:使用 Python 字符串格式化
一种更有效的方法是在 Python 代码中使用字符串格式化来构建完整的文件路径。首先,将根路径定义为一个 Python 变量,然后在访问 YAML 数据时,使用字符串格式化将根路径与相对路径连接起来。
以下是修改后的 Python 代码示例:
import yaml import pandas as pd # 定义根路径 root = '/Users/SAL/Documents/Projects/FORD_CELLS/' # 读取 YAML 文件 with open('DEMO.yaml', 'r') as f: exp_info = yaml.safe_load(f) # 使用字符串格式化构建完整路径 test2_path = root + 'test2/result.csv' # 或者直接访问 YAML 数据并格式化 # test2_path = root + exp_info['test2'].replace("*root+", "") # 现在可以安全地使用 test2_path print(test2_path) # 示例:读取 test2 的数据 # df = pd.read_csv(test2_path) # print(df.head())
代码解释:
- 定义根路径: root = ‘/Users/SAL/Documents/Projects/FORD_CELLS/’ 定义了根路径,这与 YAML 文件中定义的 &root 变量相对应。
- 读取 YAML 文件: 使用 yaml.safe_load 读取 YAML 文件内容到 exp_info 字典中。
- 字符串格式化: test2_path = root + ‘test2/result.csv‘ 使用 Python 的字符串连接操作符 + 将根路径与相对路径连接起来,构建完整的 test2 文件路径。或者,可以先从 YAML 文件中读取相对路径,再与根路径拼接。
- 使用路径: 现在 test2_path 变量包含了完整的文件路径,可以用于读取数据或执行其他操作。
注意事项:
- 确保根路径变量的定义与 YAML 文件中的根路径一致。
- 如果 YAML 文件中的路径包含特殊字符,需要进行适当的转义。
- 推荐使用 with open(…) 语句来打开文件,以确保文件在使用完毕后被正确关闭。
总结:
通过在 Python 代码中使用字符串格式化,我们可以有效地解决 YAML 解析时遇到的 ScannerError 问题,并轻松地读取和使用存储在多个变量中的文件名。这种方法不仅简化了代码,还提高了可维护性,避免了在 YAML 文件中重复定义根路径。在处理包含大量共享路径的 YAML 数据时,这是一个非常实用的技巧。


