html文件怎么转换_html转其他文档格式【工具】

4次阅读

pandoc可直接将utf-8编码html转pdf/docx/markdown，但pdf需额外安装tinytex，复杂css布局建议用浏览器打印导出，docx样式丢失主因是语义映射与字体兼容性问题。

直接装 pandoc，它能吃 HTML、吐出几乎所有常用文档格式，不用开浏览器、不依赖在线服务。windows/macos/linux 全支持，命令行一条搞定。

先确保 HTML 文件编码是 UTF-8（否则中文乱码），用编辑器另存为时勾选 UTF-8 without bom
基础转换命令：pandoc input.html -o output.docx 或 pandoc input.html -o output.pdf
转 PDF 需额外装 texlive（Linux/macOS）或 tinytex（推荐，轻量），否则会报错 Could not find pandoc-citeproc 或直接卡住
如果 HTML 含内联样式或 <style></style>，pandoc 默认忽略；加 --css=style.css 可引入外部 CSS，但对复杂布局（如 flex/Grid）基本无效

当 HTML 有大量 CSS 动画、响应式布局或自定义字体时，pandoc 会丢样式、错排版，这时候别硬刚，用浏览器原生能力更可靠。

chrome / edge 打开 HTML 文件 → Ctrl+P（Win）或 Cmd+P（Mac）→ 目标选 Save as PDF
关键设置：在打印预设里关掉 Headers and footers，勾选 background graphics（否则 CSS 背景色/图全丢）
注意路径问题：如果 HTML 引用了本地 ./images/logo.png，但你是双击打开的 file:// 协议，部分图片可能因安全策略不加载 —— 改用 python3 -m http.server 起个本地服务再访问，就正常了

pandoc 转 DOCX 不是“所见即所得”，它把 HTML 标签映射成 Word 的语义结构（比如 <h2></h2> → “标题2”样式），而不是像素级还原。

<div style="Float:right"> 这类纯表现型标签会被忽略，Word 没有浮动概念；改用 <code><table> 或 <code><aside></aside> + CSS 类再映射样式更靠谱
自定义字体（如 font-family: "harmonyos Sans"）进 DOCX 后变成默认字体，因为 Word 只认系统已安装字体；要么提前在系统装好，要么导出前用 CSS 把字体回退到 SimSun, Arial 等通用名
表格边框消失？加 --standalone 参数再试，否则 pandoc 默认生成“片段”，Word 无法正确解析内联样式

如果你要批量转、加水印、动态插入页码，或者集成进脚本，别用手点浏览器，用库更可控。

weasyprint 渲染质量高、纯 Python、支持大部分 css3，但不支持 JavaScript；安装：pip install weasyprint，注意它依赖系统级 cairo 和 pango（ubuntu 要 apt install libpango-1.0-0 libcairo2）
pdfkit 底层调 Chrome/Chromium，兼容性更好，但必须本地装好 Chrome，且启动慢；错误信息里出现 WKHtmlTopdfNotFoundError 就是没配好路径
二者都不处理 file:// 下的相对资源（如 <img src="data:image/png;base64,..." alt="html文件怎么转换_html转其他文档格式【工具】" > 安全，但 src="img/a.jpg" 会 404）—— 统一转成绝对路径或 base64 内联

实际批量处理时，最容易被跳过的不是工具选型，而是 HTML 本身是否“可转”：含 document.write、fetch()、Vue/React 渲染的页面，得先跑一遍 js 再保存为静态 HTML，否则转出来的就是空壳。

发表于：web前端

近两天内

复制链接

SQL前缀索引使用场景_前缀索引设计思路

Linux syn cookies / tcp_tw_recycle / tcp_tw_reuse 的防 SYN flood 配置风险