C#读取PDF文本 C#如何提取PDF文件中的文字内容

2次阅读

推荐使用 iTextSharp.LGPLv2.Core(Install-Package iTextSharp.LGPLv2.Core)提取文本型 pdf;对扫描件需用 Ghostscript 转图 + Tesseract ocr;中文乱码优先检查字体嵌入,严重时换 PDFiumSharp。

C#读取PDF文本 C#如何提取PDF文件中的文字内容

用 iTextSharp 提取 PDF 文字最直接,但 NuGet 包名已变

iTextSharp 5.x 是老项目常用方案,但现在官方已停止维护,iTextSharp.LGPLv2.Core 是社区维护的兼容版,支持 .NET Core/.NET 5+。直接安装 Install-Package iTextSharp.LGPLv2.Core 即可,别用原版 iTextSharp(不支持新框架,且含 GPL 风险)。

提取逻辑简单:加载 PDF → 遍历每页 → 用 LocationTextExtractionStrategy 获取文本(它按阅读顺序拼接,比 SimpleTextExtractionStrategy 更可靠)。

示例关键代码:

using iTextSharp.text.pdf; using iTextSharp.text.pdf.parser;  PdfReader reader = new PdfReader("sample.pdf"); StringBuilder text = new StringBuilder(); for (int i = 1; i <= reader.NumberOfPages; i++) {     string pageText = PdfTextExtractor.GetTextFromPage(reader, i, new LocationTextExtractionStrategy());     text.AppendLine(pageText); } reader.Close(); string fullText = text.ToString();

PDF 含扫描图或加密时,iTextSharp 会静默失败

iTextSharp 只能处理「文本型 PDF」——即内容本身是字符编码,不是图片。遇到扫描件(哪怕 OCR 过),它返回空字符串,也不报错。

判断方法:打开 PDF 用鼠标拖选文字,能复制就是文本型;不能复制、只能截图,就是图像型。

如果 PDF 被加密(即使没设密码,也可能有空密码或权限密码),PdfReader 构造时会抛 BadPasswordExceptionInvalidPdfException。需提前捕获并尝试用空字符串解密:

  • new PdfReader("file.pdf", "".ToCharArray()) 可绕过常见空密码
  • 若仍失败,说明有真实密码,必须提供才能继续

需要 OCR 时,得换 Tesseract + 图像预处理

对扫描 PDF,先用 GhostscriptImageMagick 将每页转为 PNG/JPEG,再喂给 Tesseract(OCR 引擎)。

关键点:

  • Tesseract 的 eng.traineddata 语言包必须放在 tessdata 目录下,且初始化时指定路径:new TesseractEngine(@"./tessdata", "eng", EngineMode.default)
  • 图像质量影响极大:PDF 转图建议 DPI ≥ 300,灰度化 + 二值化(去噪)后再识别,否则错字率飙升
  • Tesseract .NET 封装推荐用 IronOcr(商业但易用)或 Tesseract.NET(免费但需手动配环境)

中文 PDF 常见乱码,根源在字体嵌入和编码映射

iTextSharp 默认用系统编码解析文本,但中文 PDF 多用自定义字体编码(如 GB2312UTF-16BE 或 CID 字体),导致提取出“”或乱码。

缓解方式有限:

  • 确保 PDF 中文字体已完全嵌入(用 Adobe Acrobat 检查「属性 → 字体」)
  • 改用 UnicodeTextExtractionStrategy(部分版本支持,非标准类,需自行实现)
  • 更稳的路子是弃用 iTextSharp,换 PDFiumSharp(基于 Google PDFium)或 QuestPDF 生态中的解析模块,它们对 Unicode 支持更底层

真正难搞的是那些用图形指令画汉字(非文本对象)的 PDF,这种连 OCR 都救不了——本质就不是文本,只是看着像。

text=ZqhQzanResources