php不原生支持RTF解析合并,推荐用php-rtf库提取纯文本后拼接,或按RTF结构规则合并内容块并统一fonttbl等资源,也可转html中转合并;需注意编码、控制字冲突及括号匹配。

PHP 本身不原生支持 RTF 文件的解析与合并,但可以通过第三方库或文本处理方式实现“读取 + 合并”效果。关键不是直接操作二进制格式,而是提取内容、清理控制字、再拼接生成新 RTF。下面给出实用、可落地的方案。
用 php-rtf 库提取纯文本再拼接
这是最稳妥的入门方式:先将多个 RTF 转为普通文本(丢弃格式),再合并后重新包装为合法 RTF 头尾。
- 安装库:
composer require php-rtf/php-rtf - 逐个读取 RTF 文件,用
RtfParser提取getText() - 把所有文本用
nn分隔,拼成一个字符串 - 手动添加最小 RTF 头(如
{rtf1ansideff0{fonttbl{f0fnilfcharset0 Arial;}}f0fs24 ...})包裹内容 - 注意:中文需确保
ansi改为ansicpg936(GB2312)或utf8(需 RTF 1.9+ 支持)
按 RTF 结构规则拼接(保留基础格式)
若需保留字体、段落等简单样式,不能只拼文本,得理解 RTF 的块结构(group、control word、destination)。
- 每个 RTF 文件以
{rtf1...开头,以匹配的}结尾 - 合并时,去掉后续文件的
{rtf1...}外层大括号,只保留内部内容(如par、b、fs24等) - 确保目标文档的
fonttbl、colortbl等表项包含所有被引用的资源(可合并去重) - 推荐用正则粗略提取核心内容:
preg_match('/{\\rtf1.*?\\fonttbl(.*?)}(?=s*$|\})/s', $rtf, $m),再人工拼接
转 HTML 中间格式再合并(适合复杂排版)
借助 rtf-html-php 或 python 工具(如 pyth)先转 HTML,PHP 合并 HTML 后再转回 RTF,更可控。
立即学习“PHP免费学习笔记(深入)”;
- 用命令行调用外部工具(需服务器允许):
shell_exec('python3 -m pyth -f html input.rtf') - PHP 读取多个 HTML 字符串,用 DOMDocument 合并
内容 - 再调用
html-rtf类库(如dompdf不支持 RTF,需另寻)或自定义映射(→b,)→par
- 此法适合有标题、列表、图片占位需求的场景,但图片嵌入需额外处理 base64 或对象引用
注意事项与避坑点
RTF 合并不像 PDF 那样有标准 API,容易出错,务必验证输出。