如何用Spark SQL读取XML文件

24次阅读

spark sql需借助spark-xml库读取XML：按Spark版本选对应依赖，用format("xml")及rowTag等option解析为DataFrame，注册视图后支持SQL查询，属性需加@前缀，嵌套字段自动转StructType。

如何用Spark SQL读取XML文件

Spark SQL本身不原生支持XML文件读取，需要借助第三方库（如Databricks的spark-xml）将xml解析为DataFrame后，才能用SQL操作。

这是最关键的一步。不同Spark版本需匹配对应版本的spark-xml库：

Spark 3.0+：推荐使用com.databricks:spark-xml_2.12:0.17.0（scala 2.12）
Spark 2.4：可用com.databricks:spark-xml_2.11:0.14.0
提交作业时通过--packages参数自动下载（本地开发或集群提交都适用）：
spark-shell --packages com.databricks:spark-xml_2.12:0.17.0

使用format("xml")指定数据源类型，并通过option()设置关键参数：

Veed AI Voice Generator

Veed推出的AI语音生成器

119

val df = spark.read   .format("xml")   .option("rowTag", "book")   .option("inferSchema", "true")   .load("books.xml")

将DataFrame注册为临时视图后，即可用标准Spark SQL语法查询：

df.createOrReplaceTempView("books")
然后运行：
spark.sql("select title, @category FROM books WHERE @category = 'fiction'").show()
注意：XML属性在SQL中需加前缀（如@category），文本内容直接用字段名（如title）

复杂XML常含嵌套结构或命名空间，需额外配置：

发表于：后端开发

2025-12-18

复制链接

studio怎么运行html_studio运行html步骤【指南】

Python timeit 模块的使用技巧