用ml.net做文件内容分类应优先选用textloader+sdcamaximumentropy流程,而非手动onnx推理;需确保label为String、文本清洗一致、输入为纯内容字符串,并避免fasttree过拟合。

用 ML.NET 做文件内容分类,别碰 ONNX Runtime 手动推理
直接上结论:C# 里对文本文件做自动分类,优先用 ML.NET 的 TextLoader + SdcaMaximumEntropyBinaryClassifier(或多类)流程,而不是自己加载 ONNX 模型调 InferenceSession。前者封装了文本清洗、向量化、训练/预测全链路;后者要手动处理分词、停用词、TF-IDF 或 bert tokenization,错一个环节就 input shape mismatch 或 NaN loss。
常见错误现象:InvalidOperationException: Schema mismatch —— 多半是训练时用 LoadFromTextFile 读 CSV,但没设 hasHeader: true,或列名和 TextLoader 的 column 属性不一致;NULLReferenceException 在 model.Predict() 后出现,通常是输入 string 为 null 或空格串,ML.NET 默认不校验。
- 训练数据必须是结构化文本:每行一个样本,至少两列 ——
Label(字符串或数字)和Text(原始内容),CSV 或 TSV 都行 -
TextLoader的separatorChar要和实际文件一致,windows 记事本保存的 CSV 默认是,,但 excel 有时导出带; - 避免在
TextTransform阶段用自定义正则清理——ML.NET内置的FeaturizeText已含小写、去标点、n-gram 提取,额外清理反而破坏特征对齐
Label 列必须是 string 类型,别用 int 当类别名
ML.NET 分类器(如 SdcaMaximumEntropyMultiClassifier)要求 Label 字段是 string,哪怕你只有 “invoice”、“contract”、“email” 三类。如果训练数据里用的是 1、2、3,模型会当成回归任务,预测结果变成浮点数,且 Predict() 返回的 PredictedLabel 是乱码或空值。
使用场景:从邮件附件中识别合同 vs 报价单,标签列不能是数据库里的 category_id 整数,得映射成可读字符串;ocr 后的 PDF 文本分类也同理,别把 “invoice” 存成 0 再喂给模型。
- 读取 CSV 时,用
.LoadFromTextFile<myinput>(path, hasHeader: true)</myinput>,其中MyInput.Label声明为string - 如果原始数据只有数字 ID,训练前加一步转换:
data = data.select(x => new MyInput { Text = x.Text, Label = IdToNameMap[x.LabelId] }) - 模型保存后,
Predict()输出的PredictedLabel是string,可直接用于业务分支判断,不用再查表
小样本下优先用 SdcaMaximumEntropy,别硬上 FastTree
文件内容分类通常样本少(几百到几千份)、特征稀疏(关键词分散),FastTreeBinaryClassifier 容易过拟合,验证集准确率虚高,上线后一跑真实文件就崩。而 SdcaMaximumEntropy(逻辑回归变种)对文本特征更鲁棒,训练快,内存占用低,适合中小项目快速落地。
性能影响:1000 条训练样本下,SdcaMaximumEntropyMultiClassifier 训练耗时约 800ms(i7-10875H),FastTree 要 3.2s 且 AUC 低 0.12;兼容性上,Sdca 支持 .NET 6+,FastTree 在 ARM64 上有 JIT 问题,某些 Win11 设备会抛 PlatformNotSupportedException。
- 多分类用
SdcaMaximumEntropyMultiClassifier,二分类用SdcaMaximumEntropyBinaryClassifier,别混用 -
NumberOfThreads设为Environment.ProcessorCount - 1,避免训练时卡死 ui 线程 - 如果必须用树模型(比如已有特征工程 pipeline),改用
LightGbmMultiClassifier,它比FastTree更稳,但需额外引用microsoft.ML.LightGBM
预测时别传整个文件路径,只传文件内容字符串
模型输入是纯文本,不是文件路径。常见错误是写 var prediction = model.Predict(new MyInput { Text = @"C:docsinvoice.pdf", Label = "" }); —— 这样模型学的其实是路径规律(比如 “invoice.pdf” 里有 “invoice” 字符串),不是内容语义。真正该做的是先读取文件内容:File.ReadAllText(path),再清理换行和控制字符,最后喂给 Predict()。
容易踩的坑:ReadAllText 默认用 UTF-8,但老系统导出的文件可能是 GB2312 或 ANSI,不指定编码会乱码,导致关键词匹配失败;PDF 或 DOCX 文件不能直接读,必须先用 iTextSharp 或 DocX 提取文本,否则传进去的是二进制垃圾。
- 文本预处理只要两步:
text.Replace("rn", "n").Replace("t", " ").Trim(),别加复杂正则 - PDF 提取推荐
QuestPDF(轻量)或PDFsharp(稳定),避免用Spire.PDF(免费版有水印且线程不安全) - 如果文件超大(>10MB),截断前 5000 字符即可,
ML.NET的FeaturizeText默认只取前 10k n-gram,多余部分无意义
最常被忽略的一点:训练和预测时的文本清洗逻辑必须完全一致。哪怕只是预测时多 trim 了一次空格,特征哈希值就变了,模型输出就不可信。