AI能学会心算？隐式思维链首次得到理论证明，Stuart Russell参与

编辑｜Panda

过去一年，AI 推理模型的使用成本让不少开发者叫苦。

「慢思考」模型在处理数学、代码、逻辑题时确实表现惊艳，但代价是每次调用都会生成几百乃至几千个「思考 token」。这些 token 现在答案之前，是模型一步步演算的草稿纸。这些草稿可见，但昂贵。一道复杂数学题，光是「思考过程」就可能消耗掉普通对话十倍以上的计算资源。

思考模式下，即使简单交流也费 token

近期，有一些新技术确实让人们看到了压低推理成本的可能性。但无论架构如何优化，只要思维链（Chain-of-Thought，CoT）的中间步骤仍然以 token 形式逐个生成，推理延迟就有着根本性的下限。每一步都必须在上一步完成之后才能开始，推理链有多长，等待时间就有多长。

这是一个结构性问题，不是工程问题。

那么，有没有可能让模型「把草稿藏进大脑」，在不输出任何中间步骤的情况下，仍然保留显式思维链带来的推理能力？

这正是「隐式思维链（Implicit Chain-of-Thought，ICoT）」想要解决的事情。而就在前些天，来自 UC Berkeley 和普林斯顿大学的研究团队，在这个问题上迈出了关键一步。他们不仅给出了方案，还在数学上严格证明了它有效。

论文标题：Transformers Provably Learn to Internalize Chain-of-Thought 论文地址：https://arxiv.org/abs/2605.28600v1

这项研究的主要作者来自 UC 伯克利和普林斯顿大学，一作是伯克利博士生黄一笑（Yixiao Huang），指导教授包括 Jiantao Jiao、Stuart Russell、Somayeh Sojoudi 和 Song Mei。

这个团队近年来在用数学方法解析 Transformer 训练机制上发表了一系列工作，涵盖从注意力模式的形成到多步推理的优化动态。此次关于 ICoT 的研究，是他们将理论工具系统延伸至「隐式推理」这一新领域的尝试。

思维链的代价

要理解这项研究的意义，需要先弄清楚思维链究竟贵在哪里。

可以打个比方，假如你在辅导一个学生做多位数乘法。一种方法是让他把每一步运算都写在纸上，一行一行地算：先算各位，再算十位，最后相加。这就是显式思维链 —— 每个中间结果都可见，也因此可以被检验和纠错。另一种方法是让他「在脑子里算」，直接报出最终答案。

这两种方式在信息处理上有本质差别。前者是串行的：每一步依赖上一步的结果，无法并行。后者则不然 —— 如果大脑能一次性处理所有中间计算，答案可以几乎同时得出。

对于 LLM，这个差别直接体现在推理延迟和 token 消耗上。显式思维链要求模型逐个生成每个中间 token，推理链有 k 步，就需要输出至少 k 个额外 token，而且这些 token 必须严格串行生成。对于当前最先进的推理模型，这个数字往往是几百到几千。

ICoT 的想法是：能不能训练模型把中间步骤「内化」到隐藏状态里，最终推理时只输出答案，中间步骤完全不可见？

这个想法本身并不新鲜。Yuntian Deng 等人在 2024 年的论文《From Explicit CoT to Implicit CoT: Learning to Internalize CoT Step by Step》就提出了一种训练方法：先让模型学会用完整思维链作答，然后一步一步地把中间 token「藏起来」，每次少一个，让模型逐渐习惯在更少的可见线索下完成推理。这种方式在实验中有效，但有一个明显缺陷：如果思维链有 k 步，就需要 k-1 个训练阶段，训练开销随推理链长度线性增长。

更根本的问题是：没有人知道这为什么有效。理论上能不能保证 ICoT 学到的东西与显式 CoT 等价？在什么条件下保证？这些问题悬而未决。

核心创新：用树状结构重新设计训练课程

这篇论文的核心贡献有两个层面：一个新的训练方法，以及针对该方法的第一个严格数学证明。

研究的实验平台是「k-奇偶校验」（k-parity）问题，这是一个在理论计算机科学中经典的测试床。

给定 n 个比特，从中选 k 个，判断它们的乘积是 +1 还是 -1。这个问题的特点是：没有中间步骤，任何有限精度的梯度下降算法，用多项式数量的样本，都无法以非平凡精度求解。但一旦提供完整的思维链辅助，即便是单层 Transformer 也能高效学会。这个对比，让它成为研究 CoT 作用机制的理想沙盘。

关键洞察：思维链的结构其实是一棵树。

k 个比特的奇偶校验，可以分解为一棵深度为 log₂k 的二叉树。叶节点是原始输入比特，每个内部节点计算其两个子节点的乘积，一路递推到根节点得到最终答案。这棵树的结构，决定了中间步骤的层级关系：第一层计算两两乘积，第二层计算两个第一层结果的乘积，依此类推。

标准 ICoT 方法一次只藏一个 token，完全不利用这棵树的结构。而这篇论文提出的「Log-ICoT」，则一次性藏掉树的整整一层。这意味着：原来需要 k-1 个训练阶段，现在只需要 log₂k 个。对于 k=16，这意味着从 15 个阶段缩减为 4 个。

这不仅仅是工程上的效率提升。更重要的是，它让训练过程与模型内部的层级结构对齐 —— 每一个 Transformer 层，恰好负责吸收思维链树的一个层级。

三种训练范式的对比示意图：显式 CoT、标准 ICoT、Log-ICoT

理论证明：第一次把「内化」写成定理

这项研究最具里程碑意义的部分，是给出了 ICoT 的第一个严格收敛保证。

定理的核心内容（Theorem 1）：一个 L 层 Transformer，在 Log-ICoT 课程下训练，只需多项式数量（n^(2+ε) 量级）的样本和 log₂k 个梯度步骤，就能以接近 1 的概率，在测试时从纯输入比特直接预测出正确的 k - 奇偶校验结果 —— 误差指数级小。

这与显式 CoT 的样本复杂度匹配，但推理时不需要任何中间 token 的输出。

证明过程面临两个主要技术挑战，团队分别用两种设计手段克服：

第一个挑战是「表示坍缩」。在多层 Transformer 中，随着层数加深，各位置的向量表示会趋向于均匀，失去区分度，梯度信号也随之消失。团队引入了「门控连接」（gated connections）：每一层只在对应树层级的位置上「开门」激活，其余位置保持关闭。这让每层的梯度信号精准集中在它该处理的那部分任务上，避免了表示被平均掉。

第二个挑战是「误差传播」。多阶段训练中，早期阶段的微小近似误差会在后续阶段层层放大，最终淹没有效信号。解决方案是：在每次梯度更新后对注意力权重做整数量化（四舍五入到最近的整数）。这看似是个粗糙的操作，却起到了精确的「锁定」效果 —— 已经训练好的层，其后续梯度更新量极小，量化会直接将其舍入回原值，让早期训练结果保持不变。

4 层 Transformer 训练完成后的逐层注意力热图，可见每层精准聚焦在树的对应层级节点上

实验：4 个阶段，达到 100% 准确率

理论证明需要实验验证。团队在 n=30 个输入比特、k=16（即 4 层 Transformer、4 个训练阶段）的设置下，运行了完整实验。

训练动态与理论预测高度吻合。第一阶段完整思维链可见，损失迅速下降到接近零。随后每个阶段，将一半剩余的思维链位置替换为全零填充，损失出现短暂尖峰 —— 这正对应着模型开始「消化」新一层思维链的时刻。尖峰随后迅速回落，模型适应了新的约束。

第四阶段结束时，所有思维链位置全部被填零，模型只看到原始输入比特，但验证集准确率达到 100%。

注意力权重的可视化进一步印证了理论分析：第一层的注意力聚焦在树的第一层节点对（两两输入比特），第二层聚焦在第二层节点对，以此类推。模型确实学会了将思维链的每一层「刻进」对应的 Transformer 层，而非在某一层中混乱地表示所有信息。

结语

这篇论文的贡献，首先在于填补了一个理论空白。

ICoT 作为一种实践，此前已经被若干论文验证在实际任务（如算术、推理题）上有效。但「有效」和「为什么有效」、「什么条件下保证有效」之间，隔着巨大的鸿沟。这篇论文第一次架起了这座桥 —— 用严格的数学语言说明，隐式思维链不是一种巧合有效的技巧，而是在明确条件下可证明的训练方法。

这意味着推理模型的「沉默思考」第一次有了数学意义上的合法性。

从更长远的视角看，这项工作指向的是一个尚未实现但方向明确的目标：把大型推理模型的长思维链，通过有结构的课程训练，系统地「压缩」进模型的隐藏层。届时，模型仍然具备完整的推理能力，但用户感知到的，只有直接的答案，没有漫长的等待，没有昂贵的思考 token 账单。

当然，从当前的理论结论到工程实现，距离仍然不小。论文自身也明确指出，目前的证明依赖若干简化假设：固定的价值矩阵、预设的门控权重、以及以奇偶校验为代表的合成任务结构。将 Log-ICoT 应用于真实 LLM 的挑战在于，如何在没有明确层级结构的情况下，设计合理的「阶段划分」方式。