网页内容粘到 Word 后目录生成不了？用 FreeFormat 补齐标题层级与题注结构

1) 现象：HTML 网页复制到 Word，为什么能“保留大部分样式”？

这个现象在过去常见于“把网页文章复制到 Word”。但现在它更常见的来源其实是：

你让 ChatGPT/Claude/其他大模型生成一段 Markdown；
你在 Web 端看到的是“已经渲染好的网页”（有标题、列表、表格、加粗、引用块等）；
你直接从这个网页界面复制 → 粘贴到 Word。

于是你会得到一种很有迷惑性的体验：你几乎没做排版，Word 里就已经“像一篇文档”了。

字体、字号、加粗、颜色、对齐方式在一定程度上被保留；
列表（有序/无序）经常能保留；
代码块/引用块有时也会保留“看起来像”的样子（缩进、底色、等宽字体等）；
标题行通常会显得更大更粗，看上去“像标题”。

这并不是错觉，原因通常是：剪贴板里带了 HTML。

更具体一点：

浏览器页面是 HTML + CSS 渲染出来的：h1/h2/h3、p、li、strong、em、table 等元素，加上 CSS 的字体/字号/间距规则，形成你看到的样子。
当你复制时，很多网站会把选区以 HTML 形式放进剪贴板（不是纯文本）。
Word 在粘贴时会尝试解析这段 HTML，把 CSS 的“视觉效果”翻译成 Word 能理解的格式（例如：字号、粗体、段落缩进、列表符号等）。

所以“大模型生成的 Markdown”会天然具备同样的特点：

Markdown 本身是纯文本，但你看到的是“渲染后的网页”。一旦你复制的是渲染结果而不是源 Markdown，Word 接收到的就不是纯文本，而是一段带结构与样式的 HTML。

所以你会感觉：网页上“长什么样”，粘进 Word 里也“差不多长这样”。

但关键点在于：Word 只是在尽力还原“看起来像”，它未必会把网页里的语义结构，转换成 Word 的“结构化样式系统”。

---

2) 代价：样式保住了，但“文档结构信号”经常缺失

网页复制粘贴的天然问题是：它更像“截图式排版”，而不是“可维护的文档结构”。

你得到的是“看起来正确”的外观，但 Word 的结构功能（目录、题注、编号体系、交叉引用）需要的是另一套信号。

为了说明清楚，我们先把 Word 文档里最重要的“结构信号”列出来：

标题级别：Heading 1/2/3…（用于目录与编号体系）
题注体系：Caption（用于图表目录、自动编号、交叉引用）
参考文献区块：reference entries（用于统一缩进/行距/悬挂缩进）

而从网页复制进 Word 时，最常见的结构缺口就是下面这些。

2.1 标题层级缺失：看起来像标题，但仍然是“正文段落”

网页里 h1/h2/h3 的视觉效果，粘贴到 Word 后往往变成：

“更大字号 + 加粗”的一段 Normal/正文样式 + 直接格式（direct formatting）；
或者被翻译成某个临时样式/混合样式（不稳定，且与模板难对齐）。

于是你会遇到两类痛点：

目录生成不了：因为 Word 的 TOC 默认基于 Heading 样式，而不是“看起来像标题”的段落。
标题体系难维护：你越修越乱——手工加粗/放大/改缩进，后续一旦要统一格式或换模板，就会崩。

2.2 题注缺失：图题/表题只是普通段落

Markdown 里你可能写：

图 2-1 研究流程图
表 3-2 实验参数

粘到 Word 后，这两行在结构上仍然是普通段落，Word 不会把它识别为题注，因此：

图表目录无法生成；
编号无法自动递增；
引用交叉引用（cross-reference）没法用。

2.3 参考文献区块缺失：列表/悬挂缩进被“空格/Tab”污染

网页/Markdown 常把参考文献当普通列表或普通段落，复制到 Word 后：

悬挂缩进（hanging indent）可能是手工空格/Tab 叠出来的；
行距/段距混乱；
你后续很难用“样式一次性统一”。

更麻烦的是：一旦你再套模板（设置首行缩进/悬挂缩进），这些“历史空格/Tab”会叠加，出现肉眼可见的巨大空白。

---

3. 一个更实用的观点：你缺的不是“格式”，而是“类型信息”

在 FreeFormat 的语境里，可以把 Word 文档里的每段话粗略看成一个“类型（type）”：

chapter_title / section_title / subsection_title（不同级别标题）
paragraph（正文段落）
figure_caption / table_caption（图题/表题）
reference_entry（参考文献条目）

当你从网页复制进 Word 时，视觉样子可能还行，但这些类型通常是“未标注”的。

没有类型，Word 就很难稳定地生成目录、图表目录，也很难让你后续自动化排版。

---

4. 两条路线：纯 Word 修复 vs FreeFormat 标注修复

路线 A：纯 Word 手工修复（适合段落不多）

你可以直接在 Word 里做三件事：

选中标题段落 → 套用 Heading 1/2/3
对图/表 → 使用 Word 的“插入题注”
参考文献 → 用段落设置做悬挂缩进（不要用空格/Tab 堆）

优点：不依赖工具；缺点：文档一长就会非常痛苦，而且很容易漏改/改错。

路线 B：FreeFormat 先“打标”，再格式化（适合多数人）

你把复制来的 Word 当成“内容已完成，但结构欠账”的草稿：

选择一个接近你目标的模板（例如某个学校 thesis 模板）
上传 .docx 做一次检查（check）
让工具输出“哪些段落看起来是标题/题注/参考文献，但目前不是对应类型”
再进行格式化（format），把这些段落套进正确样式体系
回到 Word：更新目录（Update TOC）与检查关键页

这条路线的核心价值是：把“人肉识别类型”的工作压缩掉，并且让目录系统真正可用。

---

5. 推荐工作流（复制 → 打标 → 格式化 → 更新目录）

下面是一个在真实论文里更省心的流程：

粘贴内容（尽量保持你喜欢的视觉样子即可）
快速清理“结构污染”

把段首用于缩进的空格/Tab 清掉（后续用首行缩进来表达）
不要在标题前手工敲很多空格来做居中

用 FreeFormat 做检查（得到问题列表）
按同一模板进行格式化（把段落样式系统建起来）
回到 Word：更新目录/图表目录（如果你需要），并最终自查

你可以直接在这里进入工作台：

中文：/zh/studio
English：/en/studio

---

6. 自查清单（你不需要记规则，只需要能验收）

目录可以自动更新（不是手工打点/手工页码）
每个标题级别长得一致（同级同样式）
图题/表题是“题注体系”的一部分（编号稳定）
正文首行缩进来自段落设置（不是空格/Tab 堆出来的）
参考文献条目缩进/行距一致（不要混用手工空格）

---

7. 常见坑（从网页复制最容易踩的）

用“加粗 + 放大字号”当标题：视觉像标题，但结构上是正文。
用 Tab/空格做缩进：一旦你再套模板，缩进会叠加出“巨大的空白”。
图题/表题只是普通段落：后续想自动生成图表目录会非常难。
目录不更新：你修改了结构但没更新 TOC，导致“看起来都错了”。

如果你把“结构信号”补齐（标题级别/题注/参考文献块），后面的排版就会简单很多。