Python GIL 影响下的多线程适用场景

2次阅读

python多线程适合i/o密集型任务而非cpu密集型，因gil限制下i/o操作会释放锁使其他线程运行，而cpu密集任务无法并行；需用join()或Threadpoolexecutor管理生命周期，共享变量须局部加锁，queue.queue更安全。

Python 多线程适合做 I/O 密集型任务，不是 CPU 密集型

Python 的 GIL（全局解释器锁）让同一时刻只有一个线程执行 Python 字节码。这意味着：CPU 密集型任务用多线程基本不提速，甚至更慢；但 I/O 密集型任务（比如发 http 请求、读写文件、数据库查询）可以明显受益——因为 I/O 操作会主动释放 GIL，让其他线程跑起来。

常见错误现象：time.sleep(1) 或 requests.get() 用多线程能快，但 sum(range(10**7)) 用多线程反而比单线程慢
典型使用场景：批量调用 API、并发下载多个网页、日志轮转时同时写多个文件
性能影响：I/O 线程数一般设为 10–50，远超 CPU 核心数也没问题；CPU 密集型任务应换 multiprocessing

`threading.Thread` 启动后必须 `join()`，否则主线程可能提前退出

启动线程后不等待，主线程执行完就结束，子线程会被强制终止（尤其在脚本结尾没处理时），导致任务没做完、资源没清理、日志没刷出。

容易踩的坑：t = threading.Thread(target=fetch_data); t.start() 后直接 print("done")，输出 “done” 但请求根本没返回
正确做法：用 t.join() 阻塞主线程，或用 concurrent.futures.ThreadPoolExecutor 自动管理生命周期
参数差异：join(timeout=5) 可设超时，避免无限等待；daemon=True 虽能让线程随主线程退出，但不适用于需确保完成的任务

共享变量要加锁，但别锁整个函数体

多个线程读写同一个 list、dict 或自定义对象属性时，不加同步机制会导致数据错乱（比如计数器少加、列表项丢失）。但锁范围太大，会把并发退化成串行。

常见错误现象：results.append(data) 在多线程里没加锁，最终 len(results) 小于预期
实操建议：只对真正竞争的代码段加锁，例如用 threading.Lock() 包住 append 或 counter += 1，而不是整个请求+解析逻辑
兼容性注意：queue.Queue 是线程安全的，比手动锁 list 更可靠，适合生产环境传数据

`ThreadPoolExecutor` 比裸 `threading.Thread` 更省心，但别滥用 `max_workers`

直接管理一堆 Thread 容易漏 join、难控数量、异常传播麻烦。concurrent.futures.ThreadPoolExecutor 封装了池管理、结果收集和异常转发，是更现代的选择。

立即学习“Python免费学习笔记（深入）”；

使用场景：需要统一获取返回值、统一处理异常、限制并发数（如防止压垮 API 限流）
参数差异：max_workers=None 默认是 min(32, (os.cpu_count() or 1) + 4)，对 I/O 任务偏小，常需手动设为 20–100；设太高可能触发系统级连接数限制或内存增长
性能影响：创建太多线程会增加上下文切换开销，linux 默认单进程线程数上限通常为 1024，超出会抛 OSError: can't start new thread

真正难的是判断“这个任务到底算不算 I/O 密集”——比如用 pandas.read_csv() 读本地大文件，表面是 I/O，但解析过程大量 CPU 计算，GIL 不放，多线程反而拖慢。这种时候得看实际 profile 数据，不能只看操作类型。

发表于：后端开发

近一天内

复制链接

XSLT如何获取当前日期和时间 EXSLT日期函数

C# 信号量(Semaphore)的应用 – 控制对资源的并发访问数

Golang如何实现微服务鉴权

c++中的std::chrono怎么用来计时_c++计时库chrono使用教程

如何正确使用 Scrapy 爬取 Flipkart 商品数据（避免无响应问题）

Python GIL 影响下的多线程适用场景

Python 多线程适合做 I/O 密集型任务，不是 CPU 密集型

`threading.Thread` 启动后必须 `join()`，否则主线程可能提前退出

共享变量要加锁，但别锁整个函数体

`ThreadPoolExecutor` 比裸 `threading.Thread` 更省心，但别滥用 `max_workers`

html5play函数调用次数有限制吗_html5play函数调用限制说明【技巧】

如何在 Go Web 路由中安全、高效地共享 Redis 连接池

SQL OUTER JOIN 的内部执行逻辑

如何在 Selenium 中正确查找并操作 iframe 内的页面元素

css选择器 a 标签状态顺序如何写_通过访问顺序规则避免冲突

XML文件如何加密特定字段使用AES加密XML节点内容

PHP版本漏洞检测工具有哪些_推荐几款好用的免费检测工具【介绍】

RE2 不支持正向先行断言（?=regex）的替代方案详解

在 MariaDB 视图中高效计算字段：实现去重统计与 ID 间隔差值

Laravel 8 多语言切换的正确实现方式

Python GIL 影响下的多线程适用场景

Python 多线程适合做 I/O 密集型任务，不是 CPU 密集型

threading.Thread 启动后必须 join()，否则主线程可能提前退出

共享变量要加锁，但别锁整个函数体

ThreadPoolExecutor 比裸 threading.Thread 更省心，但别滥用 max_workers

`threading.Thread` 启动后必须 `join()`，否则主线程可能提前退出

`ThreadPoolExecutor` 比裸 `threading.Thread` 更省心，但别滥用 `max_workers`