如何从URL读取XML数据 Python请求并解析XML

21次阅读

python读取解析xml分两步：先用requests.get()获取响应.content（设timeout、headers、raise_for_status），再用xml.etree.ElementTree.fromstring()解析字节流；支持自动识别XML声明编码，可处理命名空间与异常。

用 Python 从 URL 读取并解析 XML 数据，核心是两步：先用 requests 获取响应内容，再用 xml.etree.ElementTree（标准库）或 lxml 解析。不需要额外安装 lxml（除非需要 XPath 或命名空间高级功能），ElementTree 足够应对大多数情况。

发送请求获取 XML 内容

直接用 requests.get() 请求 URL，检查状态码是否为 200，再确保响应内容是 XML（可通过 Content-Type 头或简单判断是否以 开头）。避免直接用 .text 解析，推荐用 .content（保持原始编码）。

加 timeout=10 防止卡死
必要时设置 headers={'User-Agent': 'Mozilla/5.0'} 避免被部分网站拒绝
用 r.raise_for_status() 自动抛出 http 错误异常

用 ElementTree 解析 XML 字节流

xml.etree.ElementTree.fromstring() 接收字节（bytes）或字符串，但推荐传入 r.content，它能自动处理 XML 声明中的编码（如 encoding="UTF-8"）。如果解析失败，常见原因是编码不匹配或响应不是合法 XML —— 先打印 r.content[:200] 确认结构。

成功后得到根元素（Element 对象），可用 .find()、.findall()、.iter() 查找节点
提取文本用 elem.text，属性用 elem.get('attr_name')
支持路径语法，如 root.find('channel/item/title')

处理常见问题：编码、命名空间、错误响应

如果 XML 声明是，而 requests 返回的 content 是 UTF-8 编码字节，ElementTree 仍能正确识别并解码 —— 它会优先信任 XML 声明。但若服务器返回乱码或无声明，可手动解码再传入 fromstring()：

立即学习“Python免费学习笔记（深入）”；

例如：root = ET.fromstring(r.content.decode('gb2312'))
有命名空间时，注册前缀：ET.register_namespace('', 'http://example.com/ns')，查找时用 root.find('.//{http://example.com/ns}item')
始终用 try/except ET.ParseError 捕获解析失败（比如返回 html 错误页）

完整示例代码（RSS 场景）

以下代码读取一个公开 RSS 地址，提取前 3 篇文章标题：

import requests import xml.etree.ElementTree as ET url = "https://www.php.cn/link/57caecc41d16f82e2309eb7abae3886a"  # 测试用公开 XML 地址try: r = requests.get(url, timeout=10) r.raise_for_status() root = ET.fromstring(r.content)  # 自动按 XML 声明解码 titles = [item.find("title").text for item in root.findall(".//item")[:3]] print(titles) except requests.RequestException as e: print("网络请求失败：", e) except ET.ParseError as e: print("XML 解析失败：", e)

发表于：后端开发

2025-12-31

# ai # channel # html # http # python # try # xml # 命名空间 # 字符串 # 字节 # 对象 # 常见问题 # 标准库 # 状态码 # 编码

复制链接

php中二维数组怎么写入到数据库_php二维数组入库技巧【步骤】

Python如何构建自定义图像检测数据集的标注流程方案【教程】

为什么并发代码反而执行更慢？

php485怎么调试通信过程_php485串口调试日志记录技巧【操作】

css想定位倒数第二项怎么写_使用:nth-last-child实现反向匹配

如何从URL读取XML数据 Python请求并解析XML

发送请求获取 XML 内容

用 ElementTree 解析 XML 字节流

处理常见问题：编码、命名空间、错误响应

完整示例代码（RSS 场景）

mysql pandas读取mysql数据方法_mysql数据分析类库

如何用html创建一个个人简历

php数组序列化方式怎改_php数组序列化方式修改法【兼容】

如何在Golang中更新和升级包版本_Golang包版本更新与控制方法

mysql ACID特性是什么意思_mysql事务原理解析

CSS Grid 实现三列响应式汽车卡片布局（告别浮动陷阱）

composer怎么解决2g内存限制_composer超大内存占用优化

Laravel中怎么设置全局变量_Laravel View Share共享数据【技巧】

Linux 高可用架构安全与防护实践

SQL 触发器 BEFORE INSERT vs AFTER INSERT 的业务逻辑选择