Python 程序启动时发生了哪些初始化操作

2次阅读

python解释器启动时先执行C层初始化(如Py_Initialize),再构建sys.path并加载内置模块,接着创建__main__模块执行用户代码,源码解码则按需在import或执行时进行。

Python 程序启动时发生了哪些初始化操作

Python 解释器启动时的 C 层初始化

Python 程序真正开始执行前,Py_Initialize()(或更现代的 Py_InitializeEx()Py_RunMain())会完成底层 C 运行时准备:注册信号处理、初始化内存分配器(如 pymalloc)、设置线程状态(_PyThreadState_Prealloc)、加载内置模块(builtinssysgc)到解释器全局字典。这一步不依赖用户代码,失败直接导致 Segmentation faultAbort trap —— 常见于嵌入 Python 的 C 程序未调用 Py_Initialize() 就访问 PyList_New() 等 API。

sys.path 构建与内置模块加载顺序

sys.path 在解释器启动早期就已生成,顺序直接影响模块可发现性:

  • 脚本所在目录(若以文件方式运行)或空字符串python -c 时)
  • PYTHONPATH 环境变量指定路径
  • 标准库路径(由编译时 prefixexec_prefix 决定)
  • site-packages(仅当启用 site 模块时才追加)

注意:site 模块默认启用,但可通过 python -S 禁用——此时不会自动添加 site-packages,也不会执行 .pth 文件,pip install --user 安装的包将不可见。

__main__ 模块创建与用户代码执行入口

当执行 python script.py 时,解释器会动态创建一个名为 __main__ 的模块对象,并将 script.py 的 AST 编译后在该模块的命名空间中执行;而 python -m module_name 则通过 runpy.run_module() 加载对应模块并设为 __main__。关键点:

立即学习Python免费学习笔记(深入)”;

  • __main__.__file__ 在脚本模式下是绝对路径,在 -m 模式下可能是 None(如 zipimport 场景)
  • 所有顶层语句(包括 import、函数定义、赋值)都在此阶段同步执行,无延迟
  • if __name__ == '__main__': 判断在此时才有意义,它只是普通字符串比较,不是特殊语法

编码检测与源码解码的实际时机

Python 不在启动时统一解码所有源码,而是在首次 import 或执行脚本时按需处理。对每个源文件:

  • 先读取原始字节流(默认用 locale.getpreferredencoding(),非 UTF-8)
  • 扫描前 2 行寻找 # -*- coding: utf-8 -*-# coding=utf-8 等声明
  • 若未声明且含非 ASCII 字符,会触发 SyntaxError: Non-UTF-8 code starting with ...

这意味着:同一进程中不同模块可用不同编码(只要各自声明正确),但混合使用容易引发隐晦错误;docker 容器里缺失 LANG=C.UTF-8 环境变量常导致中文路径或注释报错,本质是首行读取阶段用了错误的字节解码器。

text=ZqhQzanResources