Python多线程和多进程的区别_Python线程与进程核心差异对比

10次阅读

python线程因GIL无法利用多核CPU,仅适用于I/O密集型任务;多进程可真正并行但开销大,适合CPU密集型任务;选择取决于瓶颈类型(CPU或I/O)及数据共享需求。

Python多线程和多进程的区别_Python线程与进程核心差异对比

Python多线程为什么跑不满CPU?

因为CPython有GIL(全局解释器锁),同一时刻只有一个线程执行Python字节码。哪怕你开了10个Threading.Thread,纯计算任务(比如循环、数值运算)依然只能用上1个CPU核心。

适合场景:I/O密集型任务(如http请求、文件读写、数据库查询),线程在等待响应时会释放GIL,让其他线程运行。

  • time.sleep()requests.get()open() 等阻塞调用会自动让出GIL
  • for i in range(10**7): x += i这种计算不会让出,实际是串行执行
  • threading.active_count()可观察线程是否真在并发运行,但别靠它判断性能

Python多进程能真正并行,但开销大

multiprocessing.Process启动的是全新Python进程,每个都有独立内存和GIL,因此CPU密集型任务(如图像处理、加密、批量数据计算)能跑满所有核。

代价也很明显:进程创建/销毁比线程重;进程间通信(IPC)需通过QueuePipe或共享内存,不能直接传任意对象(得是可序列化的)。

立即学习Python免费学习笔记(深入)”;

  • 传递函数必须在模块顶层定义,不能是Lambda或嵌套函数,否则pickle失败报AttributeError: Can't pickle local Object
  • 子进程默认不继承父进程的Logging配置、全局变量、数据库连接等,要重新初始化
  • multiprocessing.cpu_count()获取核心数,但并非越多进程越好——上下文切换和IPC开销会上升

怎么选?看任务类型+数据交换需求

不是“多线程快”或“多进程快”,而是“哪种更适合当前瓶颈”。关键判断点就两个:

  • 瓶颈在CPU?→ 优先multiprocessing(如科学计算、编码转码)
  • 瓶颈在等待I/O?→ 用threading或更轻量的asyncio(如爬虫、API聚合)
  • 需要频繁共享大量数据?→ 谨慎用multiprocessing.Manager()(慢),考虑multiprocessing.Arraysharedctypes(仅限简单类型)

混用也常见:主线程调度+多个进程做计算+线程池处理I/O回调,但调试难度陡增。

一个容易被忽略的坑:fork vs spawn

linux/macOS默认用fork启动子进程(快,但会复制父进程整个内存空间,含已加载的模块状态);windows/macos新版Python默认用spawn(从头导入模块,更干净但稍慢)。

问题来了:如果父进程中已经调用了torch.set_num_threads(1)或修改了os.environfork后子进程会继承这些设置;而spawn不会。

  • 跨平台代码建议显式设置启动方法:multiprocessing.set_start_method('spawn')
  • 尤其在使用pytorchtensorflow等库时,不设可能引发CUDA上下文错误或线程数冲突
  • 检查当前方法用multiprocessing.get_start_method()

GIL、IPC方式、启动模型——这三块不摸清,光改ThreadProcess名字没用。

text=ZqhQzanResources