短链接还原php后链接带参数_去除多余参数的方法【操作】

14次阅读

安全还原短链接需禁用curl自动跳转并解析location头获取目标URL,再用parse_url+白名单(如id/Token/type)过滤参数,最后用http_build_query(RFC3986)重建URL。

短链接还原php后链接带参数_去除多余参数的方法【操作】

短链接还原后如何安全提取原始 URL

php 中还原短链接(如通过 file_get_contentscURL 请求跳转)得到的最终 URL,往往附带平台埋点参数(如 utm_sourceref_tfbclid),这些不是业务需要的原始链接参数。直接用 parse_url + parse_str 拆解再手动过滤,容易漏掉动态参数名或破坏原有语义。

parse_url 和白名单过滤保留核心参数

最稳妥的做法是明确哪些参数必须保留(比如 idtokentype),其余一概剔除。不要依赖“去掉已知垃圾参数”的黑名单逻辑,因为新埋点随时可能出现。

  • 先用 parse_url 解析完整 URL,拿到 schemehostpathquery
  • parse_strquery 转为关联数组
  • 定义白名单数组:$keep_keys = ['id', 'token', 'type', 'lang'];
  • array_intersect_key 筛出合法参数,再用 http_build_query 重建查询串
$url = 'https://example.com/page?id=123&utm_medium=email&ref=nl&token=abc&_t=1712345678'; $parsed = parse_url($url); parse_str($parsed['query'], $params); $keep_keys = ['id', 'token', 'type', 'lang']; $clean_params = array_intersect_key($params, array_flip($keep_keys)); $clean_query = http_build_query($clean_params); $clean_url = $parsed['scheme'] . '://' . $parsed['host'] . $parsed['path'] . ($clean_query ? '?' . $clean_query : '');

还原跳转时避免被重定向污染原始地址

很多短链接服务(如 bit.ly、t.cn)返回的是 301/302 跳转,如果用 file_get_contents 直接请求,PHP 默认会跟随跳转,你拿到的是最终页面的 html,不是跳转目标 URL。必须禁用自动跳转,从响应头中读取 Location 字段。

  • cURL 更可靠:设置 CURLOPT_FOLLOWLOCATIONfalse,并开启 CURLOPT_HEADER
  • 手动解析响应头,匹配 Location: 行(注意大小写不敏感,且可能含空格)
  • 若返回状态码非 3xx,说明该短链已失效或指向静态页,此时原始 URL 即为请求地址本身

注意 http_build_query编码兼容性问题

原始短链跳转后的 URL 参数值可能含中文、斜杠或特殊符号,http_build_query 默认使用 urlencode 编码,但某些旧系统期望的是 rawurlencode(空格转 %20 而非 +)。如果下游接口signature_invalid400 Bad Request,大概率是编码不一致。

立即学习PHP免费学习笔记(深入)”;

  • 改用 http_build_query($params, '', '&', PHP_QUERY_RFC3986) 强制 RFC 3986 编码标准
  • 或者手动遍历参数,用 rawurlencode 处理键和值再拼接
  • 特别留意 path 部分是否含未编码的斜杠 —— parse_url 不会解码,还原时若原 path%2F,需保持原样,不能二次编码

白名单过滤比正则清理更可控,而跳转头解析比内容抓取更轻量。真正麻烦的不是还原,而是确认哪些参数算“业务必需”——这得和前端、产品对齐,别自己猜。

text=ZqhQzanResources