如何用 JavaScript 递归提取嵌套表格的所有行并导出为标准 CSV

11次阅读

如何用 JavaScript 递归提取嵌套表格的所有行并导出为标准 CSV

本文介绍一种健壮的 javascript 方法,用于遍历含嵌套子表(如 `colspan=”3″` 内嵌 `

`)的 html 表格,递归提取所有**有效数据行**(即具有完整列数的 `

`),过滤掉仅作容器用途的合并单元格行,最终生成结构清晰、无重复/错位的 csv 文件。

在实际前端开发中,动态渲染的层级化数据(如用户 Profile 及其关联的 Linked Users)常通过嵌套

实现。但传统遍历 tbodytr 会将包裹子表的

(如

)误判为数据行,导致 csv 输出混乱——例如把整个嵌套块当作单行输出 “Tom Jack Sam Alex”,而非独立的四行。

根本问题在于:需区分“容器行”与“数据行”。理想策略是——忽略所有包含 colspan 或嵌套

本身,只提取那些直接包含等量

,并对其中嵌套的

单元格(数量匹配表头列数)的
递归执行相同逻辑。

以下是一个生产就绪的解决方案:

function exportTableToCsv() {   const table = document.querySelector('table');   if (!table) return;    // 提取表头(严格按 th 顺序)   const headers = Array.from(table.querySelectorAll('thead th'))     .map(th => sanitizeCell(th.textContent));    // 获取预期列数(用于过滤无效行)   const expectedCols = headers.length;    // 递归收集所有有效数据行(二维数组:[row1, row2, ...])   function collectRows(rows) {     const result = [];     rows.forEach(row => {       // 跳过含 colspan 的行(通常是容器行)或空行       const hasColspan = row.querySelector('td[colspan], th[colspan]');       if (hasColspan) {         // 查找该行内所有嵌套 table,并递归处理其 tbody tr         const nestedTables = row.querySelectorAll('table');         nestedTables.forEach(nestedTable => {           const nestedTbody = nestedTable.querySelector('tbody');           if (nestedTbody) {             result.push(...collectRows(nestedTbody.querySelectorAll('tr')));           }         });         return;       }        // 提取当前行的 td/th 文本,跳过空单元格       const cells = Array.from(row.querySelectorAll('td, th'))         .map(cell => sanitizeCell(cell.textContent));        // 仅保留列数匹配表头的有效数据行       if (cells.length === expectedCols) {         result.push(cells);       }     });     return result;   }    // 开始递归收集(从主 tbody 出发)   const tbody = table.querySelector('tbody');   const allDataRows = tbody ? collectRows(tbody.querySelectorAll('tr')) : [];    // 组装 CSV 字符串(含表头)   const csvLines = [     headers.join(','),     ...allDataRows.map(row => row.join(','))   ];    const csvContent = csvLines.join('n');    // 触发下载   downloadCsv(csvContent, 'export.csv'); }  // 辅助函数:清洗单元格内容(处理换行、逗号、引号,符合 RFC 4180) function sanitizeCell(text) {   const trimmed = text ? text.trim() : '';   // 若含换行、逗号或双引号,需用双引号包裹,并转义内部双引号   if (/[n",]/.test(trimmed)) {     return `"${trimmed.replace(/"/g, '""')}"`;   }   return trimmed; }  function downloadCsv(content, filename) {   const blob = new Blob([content], { type: 'text/csv;charset=utf-8;' });   const url = URL.createObjectURL(blob);   const a = document.createElement('a');   a.href = url;   a.download = filename;   document.body.appendChild(a);   a.click();   document.body.removeChild(a);   URL.revokeObjectURL(url); }

关键设计亮点:

立即学习Java免费学习笔记(深入)”;

  • 精准过滤:通过 cells.Length === expectedCols 确保每行数据列数与表头严格对齐,自动剔除 colspan 容器行;
  • 深度递归:对每个含嵌套

,定位其内部 tbody tr 并递归采集,不遗漏任意层级;

  • CSV 安全转义:sanitizeCell() 遵循 RFC 4180 标准,自动包裹含特殊字符的字段并转义双引号,避免 excel 解析错误;
  • 健壮容错:支持缺失 thead/tbody、空单元格、混合 th/td 等边缘场景。
  • ⚠️ 注意事项:

    • 该方案假设所有嵌套子表结构与主表一致(列数相同)。若嵌套表列数不同,需扩展逻辑(如映射字段或填充空值);
    • 避免在大型表格(>1000 行)中使用同步递归,可考虑 requestIdleCallback 分片处理;
    • 如需支持中文导出,请确保 Blob 使用 utf-8 编码(已内置),并在 Excel 中用“数据 → 自文本”选择 UTF-8 编码打开。

    调用 exporttableToCsv() 即可一键导出符合预期的 CSV:
    Tom,20,London
    Jack,30,Glasgow
    Sam,40,Belfast
    Alex,50,Hull
    Josh,20,Cardiff

    结构清晰、语义准确、开箱即用。

    text=ZqhQzanResources