C#读取PDF文本 C#如何提取PDF文件中的文字内容

2次阅读

推荐使用 iTextSharp.LGPLv2.Core（Install-Package iTextSharp.LGPLv2.Core）提取文本型 pdf；对扫描件需用 Ghostscript 转图 + Tesseract ocr；中文乱码优先检查字体嵌入，严重时换 PDFiumSharp。

用 iTextSharp 提取 PDF 文字最直接，但 NuGet 包名已变

iTextSharp 5.x 是老项目常用方案，但现在官方已停止维护，iTextSharp.LGPLv2.Core 是社区维护的兼容版，支持 .NET Core/.NET 5+。直接安装 Install-Package iTextSharp.LGPLv2.Core 即可，别用原版 iTextSharp（不支持新框架，且含 GPL 风险）。

提取逻辑简单：加载 PDF → 遍历每页 → 用 LocationTextExtractionStrategy 获取文本（它按阅读顺序拼接，比 SimpleTextExtractionStrategy 更可靠）。

示例关键代码：

using iTextSharp.text.pdf; using iTextSharp.text.pdf.parser;  PdfReader reader = new PdfReader("sample.pdf"); StringBuilder text = new StringBuilder(); for (int i = 1; i <= reader.NumberOfPages; i++) {     string pageText = PdfTextExtractor.GetTextFromPage(reader, i, new LocationTextExtractionStrategy());     text.AppendLine(pageText); } reader.Close(); string fullText = text.ToString();

PDF 含扫描图或加密时，iTextSharp 会静默失败

iTextSharp 只能处理「文本型 PDF」——即内容本身是字符编码，不是图片。遇到扫描件（哪怕 OCR 过），它返回空字符串，也不报错。

判断方法：打开 PDF 用鼠标拖选文字，能复制就是文本型；不能复制、只能截图，就是图像型。

如果 PDF 被加密（即使没设密码，也可能有空密码或权限密码），PdfReader 构造时会抛 BadPasswordException 或 InvalidPdfException。需提前捕获并尝试用空字符串解密：

new PdfReader("file.pdf", "".ToCharArray()) 可绕过常见空密码
若仍失败，说明有真实密码，必须提供才能继续

需要 OCR 时，得换 Tesseract + 图像预处理

对扫描 PDF，先用 Ghostscript 或 ImageMagick 将每页转为 PNG/JPEG，再喂给 Tesseract（OCR 引擎）。

关键点：

Tesseract 的 eng.traineddata 语言包必须放在 tessdata 目录下，且初始化时指定路径：new TesseractEngine(@"./tessdata", "eng", EngineMode.default)
图像质量影响极大：PDF 转图建议 DPI ≥ 300，灰度化 + 二值化（去噪）后再识别，否则错字率飙升
Tesseract .NET 封装推荐用 IronOcr（商业但易用）或 Tesseract.NET（免费但需手动配环境）

中文 PDF 常见乱码，根源在字体嵌入和编码映射

iTextSharp 默认用系统编码解析文本，但中文 PDF 多用自定义字体编码（如 GB2312、UTF-16BE 或 CID 字体），导致提取出“”或乱码。

缓解方式有限：

确保 PDF 中文字体已完全嵌入（用 Adobe Acrobat 检查「属性 → 字体」）
改用 UnicodeTextExtractionStrategy（部分版本支持，非标准类，需自行实现）
更稳的路子是弃用 iTextSharp，换 PDFiumSharp（基于 Google PDFium）或 QuestPDF 生态中的解析模块，它们对 Unicode 支持更底层

真正难搞的是那些用图形指令画汉字（非文本对象）的 PDF，这种连 OCR 都救不了——本质就不是文本，只是看着像。

发表于：web前端

近两天内

复制链接

CSS动画与响应式布局结合_media query与animation应用

JavaScript 登录验证循环逻辑详解：正确实现三次尝试限制与用户输入更新

如何在CSS中使用:first-child和:last-child选择器_伪类选择应用

解决PHP mail()函数发送邮件失败及页面重定向问题

C++的std::any如何存储任意类型的数据？ (类型擦除进阶)

C#读取PDF文本 C#如何提取PDF文件中的文字内容

用 iTextSharp 提取 PDF 文字最直接，但 NuGet 包名已变

PDF 含扫描图或加密时，iTextSharp 会静默失败

需要 OCR 时，得换 Tesseract + 图像预处理

中文 PDF 常见乱码，根源在字体嵌入和编码映射

Go语言如何减少模块依赖复杂度_Golang依赖简化思路

C++ 怎么实现定时器 C++ 循环与sleep函数实现简单的定时【功能】

Google Cloud Datastore 不支持不等于（!=）查询过滤器

Chart.js 极坐标图动态加载时的尺寸优化实践

css 想让图片在移动端自适应怎么办_设置宽度百分比并限制最大宽度实现响应式

Linux shell 管道组合高级用法

如何用HTML将一个登陆网页居中

Composer如何查看已经安装的所有版本_Composer show -i详细列表【手册】

SQL JSON/JSONB 的路径查询（-> / ->> / #> / @>）与 GIN 索引结合使用

币安Binance官网地址发布页币安App v9.8.0版最新更新日志