Python 数据结构优化与性能调优思路

11次阅读

该换 list 为 deque 的典型场景是频繁在头部插入或删除元素、实现队列、滑动窗口或 BFS 待访问节点缓存;此时 list 为 O(n),deque 两端操作均为 O(1)。

Python 数据结构优化与性能调优思路

什么时候该换 list 为 deque

频繁在列表头部插入或删除元素时,list 的时间复杂度是 O(n),因为要移动后续所有项;而 deque 在两端操作都是 O(1)。这不是“更高级”的选择,而是场景匹配问题。

  • 典型场景:实现队列(FIFO)、滑动窗口、BFS 遍历中的待访问节点缓存
  • 别误用:如果只做索引访问(如 my_list[5]),deque 反而比 list 慢,因为不支持 O(1) 随机访问
  • 初始化开销略高,但只要操作次数 ≥ 数十次,优势就明显

dict 和 set 查找快,但内存占用常被低估

dictset 底层依赖哈希表,平均查找 O(1),但它们会预留约 1/3 空闲槽位来减少哈希冲突——这意味着存 100 万个字符串,实际可能占 1.3M+ 个指针空间。

  • 若键是固定且数量有限(如状态码、配置名),考虑用 enum.Enumtyping.Literal 配合 matchpython 3.10+),避免构造大字典
  • 大量短字符串作键时,sys.intern() 可减少重复字符串对象,但仅当字符串确实高频复用才值得加
  • collections.Counter 统计频次后,立刻转成 dictlist 处理,别长期持有一个大 Counter 实例

生成器表达式不是万能的,小心隐式展开

(x*2 for x in data) 确实节省内存,但一旦被传给 list()sum()sorted() 或直接解包(*gen),就会立刻全部展开——此时和 [x*2 for x in data] 内存表现一致,还多了一层调用开销。

  • 真正受益的场景:只遍历一次、且数据源很大(如日志行处理、数据库游标迭代)
  • 需要多次遍历?要么转成 tuple(小数据),要么重写逻辑避免重复消费
  • 调试时打印生成器内容,容易误触发展开,建议用 itertools.islice(gen, 5) 查看前几项

__slots__ 对实例少、属性固定的类有效,但有代价

在类定义中加 __slots__ = ('x', 'y', 'name') 可禁用 __dict__,每个实例节省约 48–96 字节(取决于平台),并加速属性访问。

立即学习Python免费学习笔记(深入)”;

  • 适用:数据容器类(如 PointConfigitem)、创建百万级实例的场景
  • 禁用动态属性:不能运行时设 obj.new_attr = 1,也不能被 __dict__ 相关工具(如 dataclasses.asdict)直接使用
  • 继承时需显式声明 __slots__父类子类__slots__ 不自动合并;若父类没设,子类设了也无效

实际调优时最容易被跳过的是「先 profile 再改」:用 cProfile.run('main()')line_profiler 定位真实瓶颈,而不是凭直觉优化 list.append 或换 deque——很多性能问题根本不在数据结构层面,而在 I/O 阻塞或低效算法上。

text=ZqhQzanResources