如何高效识别并拦截拼接式恶意域名 spam

17次阅读

本文介绍一种通过预处理+精确匹配的方式，精准识别形如 `a#b#c#d#e#f.com` 或 `a b c d e f.com` 等混淆拼接的恶意域名，避免传统正则误杀，提升反垃圾过滤的准确率与鲁棒性。

在对抗持续进化的垃圾信息发送者时，单纯依赖复杂正则表达式（如基于字符顺序和分隔符的模糊匹配）往往导致高误报率——例如原始代码中使用 (?

更可靠的做法是：先归一化（sanitization），再精确判定。核心思路是剥离所有非字母数字字符，还原出“干净”的纯字母序列，再判断是否包含目标关键词（如 abcdef）：

// 步骤1：移除所有非字母数字字符（保留 a-z, A-Z, 0-9） $cleaned = preg_replace('/[^A-Za-z0-9]/', '', $textfield);  // 步骤2：检查清洗后字符串是否包含目标域名主体（不区分大小写） if (stripos($cleaned, 'abcdef') !== false) {     // 触发拦截逻辑，例如标记为垃圾、拒绝提交或加入黑名单     throw new Exception('Suspicious obfuscated domain detected.'); }

✅ 优势说明：

✅ 高精度：仅当 a, b, c, d, e, f 按序连续出现（中间无干扰字符）时才触发，完全规避乱序匹配问题；
✅ 强鲁棒性：自动兼容 a.b.c.d.e.f.com、a-b-c-d-e-f.com、a【b】c【d】e【f】.com 等数十种变体；
✅ 低开销：两次轻量级字符串操作，远优于多层嵌套正则回溯，性能稳定；

✅ 可扩展：支持批量检测，只需维护一个关键词数组：

$spamKeywords = ['abcdef', 'xyzspam', 'phishlink']; foreach ($spamKeywords as $kw) {     if (stripos($cleaned, $kw) !== false) {         return true; // 恶意命中     } }

⚠️ 注意事项：

若需防止 abcdefg（超长匹配）被误判，可改用单词边界匹配：preg_match(‘/b’ . preg_quote(‘abcdef’, ‘/’) . ‘b/i’, $cleaned)，但通常域名主体本身无空格，直接 stripos 更高效；
建议结合其他维度（如高频提交 IP、相似文本聚类、dns 可解析性校验）构建多层防御，避免单点绕过；
对用户可见内容（如评论、表单），清洗后应保留原始文本用于审计，仅将 $cleaned 用于检测逻辑。

该方法已在多个社区平台反 spam 实践中验证有效，兼顾准确性、可维护性与执行效率，是应对“字符混淆型”域名攻击的推荐方案。

发表于：后端开发

2026-01-01

# ai # c++# dns # word # 字符串 # 正则表达式 # 黑名单

复制链接

PowerShell怎么读取XML配置 PowerShell解析XML方法

c# ConcurrentBag 和 List 加 lock 的区别

如何学习C++？最高效的C++学习路线图与资源分享【学习指南】

Python对象怎么创建_Python对象的创建与使用方法详解

微信JSAPI支付回调PHP怎么接收_处理JSAPI异步通知数据方法【指南】

如何高效识别并拦截拼接式恶意域名 spam

如何在Linux服务器部署Golang运行环境_Golang Linux环境搭建流程

如何利用javascript进行表单验证？【教程】

C#生成vCard文件 C#如何创建.vcf电子名片文件

如何限制登录失败次数_mysql防暴力破解

如何配置Golang交叉编译环境_跨平台编译环境准备

如何从 JSON 中安全提取嵌套在列表中的 “value” 字段

Linux kubectl certificate approve 的 CSR 管理与过期证书清理

Linux dm-crypt / verity 的完整性保护在容器镜像中的应用

html如何在点击输入框时弹出时间选择器

HTML5里如何让色块在最下面