C# 文件内容模糊哈希 C#如何使用ssdeep计算文件的相似度哈希

2次阅读

c#中需用libfuzzy.net封装或p/invoke调用libfuzzy.dll实现ssdeep;必须流式读取文件、用fuzzy_compare比对哈希,注意平台架构匹配与空文件返回”3::”的规范行为。

C# 文件内容模糊哈希 C#如何使用ssdeep计算文件的相似度哈希

ssdeep 在 C# 中没有官方库,得用原生绑定或现成封装

ssdeep 是 C 写的命令行工具,.NET 生态里没有微软维护的 ssdeep 官方包。直接 dotnet add package ssdeep 会失败。目前最稳的路径是:用 libfuzzy 的 .NET 封装(如 LibFuzzy.NET),或者自己 P/Invoke 调用 libfuzzy.dll。前者适合快速上线,后者可控但要处理 ABI 兼容性。

常见错误现象:DllNotFoundException: libfuzzy.dll —— 这不是代码写错了,是没把对应架构的 DLL 放对位置(x64 程序不能加载 x86 的 libfuzzy.dll)。

  • windows 下推荐用 NuGet 包 LibFuzzy.NET(注意它依赖 libfuzzy 的预编译二进制,安装后会在 runtimes/ 下自动解压)
  • linux/macos 需提前 apt install ssdeepbrew install ssdeep,再确保 LD_LIBRARY_PATH / DYLD_LIBRARY_PATH 包含 libfuzzy.solibfuzzy.dylib
  • 不要尝试用 Process.Start("ssdeep") 解析输出 —— 启动开销大、无错误隔离、无法复用上下文(比如连续比对多个文件时)

计算文件 ssdeep 哈希必须流式读取,不能全载入内存

ssdeep 内部使用滚动哈希和分块采样,设计上就要求边读边算。如果先 File.ReadAllBytes() 再喂给 fuzzy_hash_buf(),对大文件(>100MB)极易触发 OutOfMemoryException,而且完全浪费了 ssdeep 的流式优势。

正确做法是传入 Stream,让封装库内部按需缓冲(典型块大小为 4KB–64KB)。LibFuzzy.NET 提供 FuzzyHash.ComputeFromStream(Stream),底层已处理好 chunking 和状态维持。

  • 别用 Stringbyte[] 作为中间载体;直接传 FileStreamMemoryStream(后者仅限小文件)
  • 打开 FileStream 时务必加 FileAccess.ReadFileShare.Read,否则并发读多个文件会报 IOException
  • ssdeep 对空文件返回固定字符串 "3::",不是 bug —— 这是规范行为,可直接用于比对

比对两个 ssdeep 哈希值用 fuzzy_compare,不是字符串相等

ssdeep 哈希本质是“模糊”表示,相同内容不同压缩/格式/末尾空格会产生不同字符串,但 fuzzy_compare() 能算出相似度分值(0–100)。直接 hash1 == hash2 只能捕获完全一致的极少数情况,几乎没实用价值。

LibFuzzy.NET 提供 FuzzyHash.Compare(string, string),返回 int(0–100),注意它不抛异常 —— 即使传入非法哈希(如 NULL 或空串)也只返回 -1,必须手动检查。

  • 返回值为 -1 表示至少一个输入无效(不是格式错,而是根本不是 ssdeep 输出,比如混入了 md5)
  • 相似度 ≥ 70 通常认为高度相似(如不同打包方式的同一程序);≥ 40 可视为有共同片段(如日志模板被复用)
  • 不要对大量文件两两调用 Compare() —— 时间复杂度 O(n²),应改用局部敏感哈希(LSH)预筛或构建哈希桶

Windows 上 x64/x86 混用是最高频崩溃点

哪怕代码一行没改,只要项目平台目标(Platform Target)和 libfuzzy.dll 架构不一致,运行时必崩在 P/Invoke 第一调用。错误信息通常是 System.DllNotFoundException 或更隐蔽的 System.BadImageFormatException

验证方法很简单:用 corflags 查你的 exe,用 dumpbin /headers 查 dll,二者 Machine 字段必须都是 AMD64 或都是 IA32visual studio 默认新建项目是 AnyCPU,但它在 x64 系统上会跑成 x64,此时若引用 x86 的 dll,就直接挂。

  • 在项目属性 → “生成” → “平台目标” 明确设为 x64(推荐)或 x86,禁用 AnyCPU
  • NuGet 包 LibFuzzy.NETruntimes/win-x64/native/ 下才是真 x64 版 libfuzzy.dll,别手滑复制错目录
  • 发布时用 dotnet publish -r win-x64 --self-contained true,避免运行机缺 runtime 或 dll

事情说清了就结束。ssdeep 不是黑盒哈希,它的分块逻辑、长度截断、base64 编码变体都会影响最终字符串形态 —— 所以永远信任 fuzzy_compare 的返回值,而不是肉眼比对哈希串。

text=ZqhQzanResources