Python 网络大文件传输的性能瓶颈

2次阅读

大文件上传卡在requests.post()主因是默认内存加载和缓冲区阻塞；应改用data=file_obj流式上传、手动设buffering、复用连接池、检查中间件限制并控制异步并发。

Python 网络大文件传输的性能瓶颈

大文件上传卡在 `requests.post()` 里不动？不是网络慢，是默认缓冲区拖垮了

python 默认用 requests 发送大文件时，会先把整个文件读进内存再发出去——1GB 文件就占 1GB 内存，还可能触发系统 OOM。更隐蔽的问题是：它默认不流式读取，files 参数背后调用 open() 时没加 buffering=0 或分块逻辑，导致 I/O 阻塞在用户态缓冲区里。

实操建议：

立即学习“Python免费学习笔记（深入）”；

永远用 open(..., 'rb', buffering=8192) 手动控制缓冲区大小，别依赖默认值
改用 requests.post(url, data=file_obj) 替代 files=...，绕过 requests 自带的 multipart 封装开销（尤其对单文件上传）
加上 timeout=(30, 300)：短连接超时 + 长传输超时，避免卡死在 socket write 阶段

`urllib3` 底层连接复用失效，每传一个分片都新建 TCP 连接

requests 基于 urllib3，但默认 PoolManager 的 maxsize 是 10，且不自动复用上传中的连接。大文件切片上传时，如果每个分片都走独立 requests.post()，很可能每请求都新建连接，三次握手 + TLS 握手叠加，吞吐直接掉一半。

实操建议：

立即学习“Python免费学习笔记（深入）”；

显式复用 urllib3.PoolManager 实例，设置 maxsize=20 和 block=True
上传前预热连接：pool.urlopen('HEAD', base_url, preload_content=False)
分片上传时，确保所有请求共用同一个 session 或 pool，别每次 new 一个 requests.Session()

服务端接收不到完整数据，客户端却显示“200 OK”

常见于 nginx 或云厂商 LB 默认限制：比如 client_max_body_size 1m、或阿里云 SLB 默认 POST body 上限 10MB。客户端收到 200 是因为 LB 返回了自定义错误页（伪装成成功），实际后端根本没收到请求体。

实操建议：

立即学习“Python免费学习笔记（深入）”；

上传前先发个 HEAD 请求检查服务端返回的 Content-Length 或自定义 header（如 X-Upload-Limit）
捕获响应 body 中是否含明显 HTML 错误片段（如 <title>413 Request Entity Too Large</title>），别只看 status_code
用 curl -v 对比验证：如果 curl 也失败，问题一定在链路中间件，不是 Python 代码

用 `aiohttp` 异步上传反而更慢？协程调度压垮了磁盘 I/O

异步库只加速网络等待，不加速磁盘读。如果同时启动 50 个 aiohttp.ClientSession.post() 上传 50 个 200MB 文件，操作系统会瞬间产生大量随机读请求，SSD 队列深度溢出，IOPS 反而暴跌。

实操建议：

立即学习“Python免费学习笔记（深入）”；

并发数严格限制在 min(8, os.cpu_count() * 2)，优先保磁盘顺序读
每个上传任务内用 async with aiofiles.open(..., 'rb') as f + await f.read(64*1024) 分块，别 await f.read() 一锅端
加 asyncio.Semaphore 控制全局并发，比靠事件循环“自觉”更可靠

真正卡住大文件传输的，往往不是带宽，而是你没意识到 Python 的文件对象、HTTP 库、中间网关三者之间那几处默认行为的隐式耦合——比如 requests 怎么把 open() 结果转成 stream，urllib3 怎么决定复用哪个 socket，还有 Nginx 怎么悄悄截断并伪造响应。这些地方不细看文档、不抓包验证，光调参数没用。

发表于：web前端

近两天内

复制链接

React 硬编码登录认证教程：从表单处理到类型匹配深度解析

如何减少Golang程序中的系统调用_Golang系统调用性能优化方法

javascript如何保证代码的安全性与防御攻击【教程】

使用 jQuery 高亮 HTML 表格单元格及其相邻单元格

Selenium WebDriver 中实现精准页面滚动的完整指南

Python 网络大文件传输的性能瓶颈

大文件上传卡在 `requests.post()` 里不动？不是网络慢，是默认缓冲区拖垮了

`urllib3` 底层连接复用失效，每传一个分片都新建 TCP 连接

服务端接收不到完整数据，客户端却显示“200 OK”

用 `aiohttp` 异步上传反而更慢？协程调度压垮了磁盘 I/O

WordPress 自定义文章类型中正确获取上一篇/下一篇文章链接的完整教程

PHP过低怎样切换多版本管理_PHP过低多版本切换技巧【灵活】

如何在 React 中自定义 Jodit 编辑器的图片上传逻辑以对接后端接口

Go 中的栈变量指针安全机制：编译器自动逃逸分析与内存生命周期管理

如何在Java中安全地替换首个字符串匹配（无需手动转义正则特殊字符）

CSS项目实战之搜索框组件_圆角、阴影与聚焦状态处理

Go模板中使用 or 与 and 实现复合条件判断的完整教程

SQL max_replication_slots 的逻辑槽位泄漏监控脚本模板

css通配符选择器怎么用_快速匹配页面所有元素的方法

mysql创建索引时应该选择哪些字段_mysql索引选择原则

Python 网络大文件传输的性能瓶颈

大文件上传卡在 requests.post() 里不动？不是网络慢，是默认缓冲区拖垮了

urllib3 底层连接复用失效，每传一个分片都新建 TCP 连接

服务端接收不到完整数据，客户端却显示“200 OK”

用 aiohttp 异步上传反而更慢？协程调度压垮了磁盘 I/O

大文件上传卡在 `requests.post()` 里不动？不是网络慢，是默认缓冲区拖垮了

`urllib3` 底层连接复用失效，每传一个分片都新建 TCP 连接

用 `aiohttp` 异步上传反而更慢？协程调度压垮了磁盘 I/O