XSL-FO是W3C制定的xml页面布局语言,用于将XML精确渲染为pdf;其流程分三步:XML数据源→XSLT转为.fo文件→FO处理器(如apache FOP)生成PDF;需注意中文字体配置与UTF-8编码。

XSL-FO(Extensible Stylesheet Language – Formatting Objects)是一种由W3C制定的、基于XML的页面布局描述语言,专门用于将结构化数据(如XML)精确渲染为可打印格式(尤其是PDF)。它不直接处理逻辑或交互,而是专注“怎么排版”——比如页边距、字体大小、分页控制、页眉页脚位置、表格对齐等。本质上,它是XML数据和最终PDF之间的一层“排版蓝图”。
XSL-FO的核心工作流程
从XML到PDF不是一步到位,而是三段式流水线:
- XML数据源:提供原始内容,例如订单信息、报告字段,结构清晰但无样式。
- XSLT转换器:用XSLT样式表把XML“翻译”成XSL-FO文档(.fo文件)。这个过程定义了“哪个字段放哪、用什么字体、是否加粗、是否分页”等规则。
- FO处理器(渲染引擎):读取.fo文件,按其中指令生成PDF。常用工具包括:
快速上手:用FOP生成第一个PDF
以Apache FOP为例,只需三个动作:
- 准备环境:安装JDK(FOP依赖Java),下载解压FOP包,确认
fop -v能正常输出版本号。 - 写一个最小可行FO文件(如
hello.fo),包含、页面模板()和正文流(),里面用写文字,指定font-family和font-size。 - 命令行渲染:
fop hello.fo hello.pdf,几秒后就生成PDF。
处理中文和乱码的关键点
中文PDF容易乱码,主因是字体缺失。必须同步做两件事:
- FO文件中声明中文字体:例如
;你好 - FOP配置文件(fop.xconf)中注册该字体:指定TTF/OTF文件路径,并声明
name、style、weight三元组,确保与FO中写的完全一致。 - 所有XML、XSLT、FO文件保存为UTF-8编码,并在文件头明确声明
encoding="UTF-8"。
为什么选XSL-FO而不是其他方式?
它特别适合需要严格合规、批量生成、长期归档的场景: