c#中需用libfuzzy.net封装或p/invoke调用libfuzzy.dll实现ssdeep;必须流式读取文件、用fuzzy_compare比对哈希,注意平台架构匹配与空文件返回”3::”的规范行为。

ssdeep 在 C# 中没有官方库,得用原生绑定或现成封装
ssdeep 是 C 写的命令行工具,.NET 生态里没有微软维护的 ssdeep 官方包。直接 dotnet add package ssdeep 会失败。目前最稳的路径是:用 libfuzzy 的 .NET 封装(如 LibFuzzy.NET),或者自己 P/Invoke 调用 libfuzzy.dll。前者适合快速上线,后者可控但要处理 ABI 兼容性。
常见错误现象:DllNotFoundException: libfuzzy.dll —— 这不是代码写错了,是没把对应架构的 DLL 放对位置(x64 程序不能加载 x86 的 libfuzzy.dll)。
- windows 下推荐用 NuGet 包
LibFuzzy.NET(注意它依赖libfuzzy的预编译二进制,安装后会在runtimes/下自动解压) - linux/macos 需提前
apt install ssdeep或brew install ssdeep,再确保LD_LIBRARY_PATH/DYLD_LIBRARY_PATH包含libfuzzy.so或libfuzzy.dylib - 不要尝试用
Process.Start("ssdeep")解析输出 —— 启动开销大、无错误隔离、无法复用上下文(比如连续比对多个文件时)
计算文件 ssdeep 哈希必须流式读取,不能全载入内存
ssdeep 内部使用滚动哈希和分块采样,设计上就要求边读边算。如果先 File.ReadAllBytes() 再喂给 fuzzy_hash_buf(),对大文件(>100MB)极易触发 OutOfMemoryException,而且完全浪费了 ssdeep 的流式优势。
正确做法是传入 Stream,让封装库内部按需缓冲(典型块大小为 4KB–64KB)。LibFuzzy.NET 提供 FuzzyHash.ComputeFromStream(Stream),底层已处理好 chunking 和状态维持。
- 别用
String或byte[]作为中间载体;直接传FileStream或MemoryStream(后者仅限小文件) - 打开
FileStream时务必加FileAccess.Read和FileShare.Read,否则并发读多个文件会报IOException - ssdeep 对空文件返回固定字符串
"3::",不是 bug —— 这是规范行为,可直接用于比对
比对两个 ssdeep 哈希值用 fuzzy_compare,不是字符串相等
ssdeep 哈希本质是“模糊”表示,相同内容不同压缩/格式/末尾空格会产生不同字符串,但 fuzzy_compare() 能算出相似度分值(0–100)。直接 hash1 == hash2 只能捕获完全一致的极少数情况,几乎没实用价值。
LibFuzzy.NET 提供 FuzzyHash.Compare(string, string),返回 int(0–100),注意它不抛异常 —— 即使传入非法哈希(如 NULL 或空串)也只返回 -1,必须手动检查。
- 返回值为
-1表示至少一个输入无效(不是格式错,而是根本不是 ssdeep 输出,比如混入了 md5) - 相似度 ≥ 70 通常认为高度相似(如不同打包方式的同一程序);≥ 40 可视为有共同片段(如日志模板被复用)
- 不要对大量文件两两调用
Compare()—— 时间复杂度 O(n²),应改用局部敏感哈希(LSH)预筛或构建哈希桶
Windows 上 x64/x86 混用是最高频崩溃点
哪怕代码一行没改,只要项目平台目标(Platform Target)和 libfuzzy.dll 架构不一致,运行时必崩在 P/Invoke 第一调用。错误信息通常是 System.DllNotFoundException 或更隐蔽的 System.BadImageFormatException。
验证方法很简单:用 corflags 查你的 exe,用 dumpbin /headers 查 dll,二者 Machine 字段必须都是 AMD64 或都是 IA32。visual studio 默认新建项目是 AnyCPU,但它在 x64 系统上会跑成 x64,此时若引用 x86 的 dll,就直接挂。
- 在项目属性 → “生成” → “平台目标” 明确设为
x64(推荐)或x86,禁用AnyCPU - NuGet 包
LibFuzzy.NET的runtimes/win-x64/native/下才是真 x64 版libfuzzy.dll,别手滑复制错目录 - 发布时用
dotnet publish -r win-x64 --self-contained true,避免运行机缺 runtime 或 dll
事情说清了就结束。ssdeep 不是黑盒哈希,它的分块逻辑、长度截断、base64 编码变体都会影响最终字符串形态 —— 所以永远信任 fuzzy_compare 的返回值,而不是肉眼比对哈希串。