python中截取字符串方法_切片、split、正则与partition全面解析

2次阅读

python中截取字符串方法_切片、split、正则与partition全面解析

字符串切片[start:end:step] 是最常用也最容易出错的方式

切片不是函数,是 python 字符串的内置语法,但很多人误以为 str[0:5] 会包含第 5 个字符——其实 end 是**不包含**的。负索引、越界、空切片都按静默规则处理,不会报错。

  • s = "hello"s[1:100] 返回 "ello"(自动截断到末尾)
  • s[-3:-1] 返回 "ll"(负索引从右往左数,-1 是最后一个字符,不包含)
  • s[3:1] 返回空字符串 ""(start ≥ end 时直接返回空)
  • 省略 startend 会取默认边界:s[:3] 等价于 s[0:3]s[2:] 从索引 2 到末尾

str.split() 按分隔符拆分,但默认行为和空格处理常被忽略

split() 不传参数时,会以任意空白字符(空格、t、n、r)为界,并**自动合并连续空白**,且**前后空白会被忽略**。这和按 ' ' 显式分割完全不同。

  • "a btn c".split()['a', 'b', 'c'](三段非空内容)
  • "a btn c".split(' ')['a', '', 'btn', 'c'](按字面空格切,保留空项)
  • 指定 maxsplit=1 可控制最多切几刀:"a:b:c".split(':', 1)['a', 'b:c']
  • 如果分隔符不存在,split() 返回原字符串组成的单元素列表:"abc".split('|')['abc']

正则 re.split()re.findall() 适合复杂模式,但性能与贪婪性需留意

当分隔逻辑含“多个空格”“数字+字母混合边界”或“括号嵌套”时,split() 就不够用了。正则能表达语义,但要注意:默认 re.split() 会丢弃匹配到的分隔符;而 re.findall() 更适合提取目标片段而非切分。

  • re.split(r's+', "a btc")['a', 'b', 'c'](等效于 split() 默认行为,但可控)
  • 用捕获组 () 可保留分隔符:re.split(r'(.)', "a.b.c")['a', '.', 'b', '.', 'c']
  • re.findall(r'd+', "x12y34z")['12', '34'](提取所有连续数字,比先 split() 再过滤更直接)
  • 避免过度贪婪:re.findall(r'a.*b', 'a1b2a3b') 匹配整个 'a1b2a3b',改用 r'a.*?b' 得到两个结果

str.partition()str.rpartition() 专为“找第一个/最后一个分隔符”设计

这两个方法返回三元组 (before, sep, after),比 split(sep, 1) 更明确、更安全——即使分隔符不存在,也保证返回三个元素,不会索引错误。

立即学习Python免费学习笔记(深入)”;

  • "hello-world.py".partition('.') → ('hello-world', '.', 'py')
  • "file".partition('.') → ('file', '', '')(后两元素为空,不会抛 IndexError
  • "a/b/c".rpartition('/') → ('a/b', '/', 'c')(只看最后一次出现)
  • 相比 split('.', 1)[0]partition() 不需要异常处理或长度判断,语义更清晰

真正难的不是记住哪几种方法,而是遇到一个具体字符串要截取时,得立刻判断:这是固定位置?有明确分隔符?还是带语义的模式?选错方法会导致后续逻辑补丁越来越多。比如用 split(' ') 处理用户输入的姓名字段,遇到中间多空格就崩;用切片硬写 s[0:s.find(':')] 却忘了 find() 找不到返回 -1 ——这些都不是“不会”,而是没想清楚边界怎么定义。

text=ZqhQzanResources