编辑|Panda
过去一年,AI 推理模型的使用成本让不少开发者叫苦。
「慢思考」模型在处理数学、代码、逻辑题时确实表现惊艳,但代价是每次调用都会生成几百乃至几千个「思考 token」。这些 token 现在答案之前,是模型一步步演算的草稿纸。这些草稿可见,但昂贵。一道复杂数学题,光是「思考过程」就可能消耗掉普通对话十倍以上的计算资源。
思考模式下,即使简单交流也费 token
近期,有一些新技术确实让人们看到了压低推理成本的可能性。但无论架构如何优化,只要思维链(Chain-of-Thought,CoT)的中间步骤仍然以 token 形式逐个生成,推理延迟就有着根本性的下限。每一步都必须在上一步完成之后才能开始,推理链有多长,等待时间就有多长。
这是一个结构性问题,不是工程问题。
那么,有没有可能让模型「把草稿藏进大脑」,在不输出任何中间步骤的情况下,仍然保留显式思维链带来的推理能力?
这正是「隐式思维链(Implicit Chain-of-Thought,ICoT)」想要解决的事情。而就在前些天,来自 UC Berkeley 和普林斯顿大学的研究团队,在这个问题上迈出了关键一步。他们不仅给出了方案,还在数学上严格证明了它有效。
这项研究的主要作者来自 UC 伯克利和普林斯顿大学,一作是伯克利博士生黄一笑(Yixiao Huang),指导教授包括 Jiantao Jiao、Stuart Russell、Somayeh Sojoudi 和 Song Mei。
这个团队近年来在用数学方法解析 Transformer 训练机制上发表了一系列工作,涵盖从注意力模式的形成到多步推理的优化动态。此次关于 ICoT 的研究,是他们将理论工具系统延伸至「隐式推理」这一新领域的尝试。
思维链的代价
要理解这项研究的意义,需要先弄清楚思维链究竟贵在哪里。
可以打个比方,假如你在辅导一个学生做多位数乘法。一种方法是让他把每一步运算都写在纸上,一行一行地算:先算各位,再算十位,最后相加。这就是显式思维链 —— 每个中间结果都可见,也因此可以被检验和纠错。另一种方法是让他「在脑子里算」,直接报出最终答案。
这两种方式在信息处理上有本质差别。前者是串行的:每一步依赖上一步的结果,无法并行。后者则不然 —— 如果大脑能一次性处理所有中间计算,答案可以几乎同时得出。
对于 LLM,这个差别直接体现在推理延迟和 token 消耗上。显式思维链要求模型逐个生成每个中间 token,推理链有 k 步,就需要输出至少 k 个额外 token,而且这些 token 必须严格串行生成。对于当前最先进的推理模型,这个数字往往是几百到几千。
ICoT 的想法是:能不能训练模型把中间步骤「内化」到隐藏状态里,最终推理时只输出答案,中间步骤完全不可见?
这个想法本身并不新鲜。Yuntian Deng 等人在 2024 年的论文《From Explicit CoT to Implicit CoT: Learning to Internalize CoT Step by Step》就提出了一种训练方法:先让模型学会用完整思维链作答,然后一步一步地把中间 token「藏起来」,每次少一个,让模型逐渐习惯在更少的可见线索下完成推理。这种方式在实验中有效,但有一个明显缺陷:如果思维链有 k 步,就需要 k-1 个训练阶段,训练开销随推理链长度线性增长。
更根本的问题是:没有人知道这为什么有效。理论上能不能保证 ICoT 学到的东西与显式 CoT 等价?在什么条件下保证?这些问题悬而未决。
核心创新:用树状结构重新设计训练课程
这篇论文的核心贡献有两个层面:一个新的训练方法,以及针对该方法的第一个严格数学证明。
研究的实验平台是「k-奇偶校验」(k-parity)问题,这是一个在理论计算机科学中经典的测试床。
给定 n 个比特,从中选 k 个,判断它们的乘积是 +1 还是 -1。这个问题的特点是:没有中间步骤,任何有限精度的梯度下降算法,用多项式数量的样本,都无法以非平凡精度求解。但一旦提供完整的思维链辅助,即便是单层 Transformer 也能高效学会。这个对比,让它成为研究 CoT 作用机制的理想沙盘。
关键洞察:思维链的结构其实是一棵树。
k 个比特的奇偶校验,可以分解为一棵深度为 log₂k 的二叉树。叶节点是原始输入比特,每个内部节点计算其两个子节点的乘积,一路递推到根节点得到最终答案。这棵树的结构,决定了中间步骤的层级关系:第一层计算两两乘积,第二层计算两个第一层结果的乘积,依此类推。
标准 ICoT 方法一次只藏一个 token,完全不利用这棵树的结构。而这篇论文提出的「Log-ICoT」,则一次性藏掉树的整整一层。这意味着:原来需要 k-1 个训练阶段,现在只需要 log₂k 个。对于 k=16,这意味着从 15 个阶段缩减为 4 个。
这不仅仅是工程上的效率提升。更重要的是,它让训练过程与模型内部的层级结构对齐 —— 每一个 Transformer 层,恰好负责吸收思维链树的一个层级。
三种训练范式的对比示意图:显式 CoT、标准 ICoT、Log-ICoT
理论证明:第一次把「内化」写成定理
这项研究最具里程碑意义的部分,是给出了 ICoT 的第一个严格收敛保证。
定理的核心内容(Theorem 1):一个 L 层 Transformer,在 Log-ICoT 课程下训练,只需多项式数量(n^(2+ε) 量级)的样本和 log₂k 个梯度步骤,就能以接近 1 的概率,在测试时从纯输入比特直接预测出正确的 k - 奇偶校验结果 —— 误差指数级小。
这与显式 CoT 的样本复杂度匹配,但推理时不需要任何中间 token 的输出。
证明过程面临两个主要技术挑战,团队分别用两种设计手段克服:
第一个挑战是「表示坍缩」。在多层 Transformer 中,随着层数加深,各位置的向量表示会趋向于均匀,失去区分度,梯度信号也随之消失。团队引入了「门控连接」(gated connections):每一层只在对应树层级的位置上「开门」激活,其余位置保持关闭。这让每层的梯度信号精准集中在它该处理的那部分任务上,避免了表示被平均掉。
第二个挑战是「误差传播」。多阶段训练中,早期阶段的微小近似误差会在后续阶段层层放大,最终淹没有效信号。解决方案是:在每次梯度更新后对注意力权重做整数量化(四舍五入到最近的整数)。这看似是个粗糙的操作,却起到了精确的「锁定」效果 —— 已经训练好的层,其后续梯度更新量极小,量化会直接将其舍入回原值,让早期训练结果保持不变。
4 层 Transformer 训练完成后的逐层注意力热图,可见每层精准聚焦在树的对应层级节点上
实验:4 个阶段,达到 100% 准确率
理论证明需要实验验证。团队在 n=30 个输入比特、k=16(即 4 层 Transformer、4 个训练阶段)的设置下,运行了完整实验。
训练动态与理论预测高度吻合。第一阶段完整思维链可见,损失迅速下降到接近零。随后每个阶段,将一半剩余的思维链位置替换为全零填充,损失出现短暂尖峰 —— 这正对应着模型开始「消化」新一层思维链的时刻。尖峰随后迅速回落,模型适应了新的约束。
第四阶段结束时,所有思维链位置全部被填零,模型只看到原始输入比特,但验证集准确率达到 100%。
注意力权重的可视化进一步印证了理论分析:第一层的注意力聚焦在树的第一层节点对(两两输入比特),第二层聚焦在第二层节点对,以此类推。模型确实学会了将思维链的每一层「刻进」对应的 Transformer 层,而非在某一层中混乱地表示所有信息。
结语
这篇论文的贡献,首先在于填补了一个理论空白。
ICoT 作为一种实践,此前已经被若干论文验证在实际任务(如算术、推理题)上有效。但「有效」和「为什么有效」、「什么条件下保证有效」之间,隔着巨大的鸿沟。这篇论文第一次架起了这座桥 —— 用严格的数学语言说明,隐式思维链不是一种巧合有效的技巧,而是在明确条件下可证明的训练方法。
这意味着推理模型的「沉默思考」第一次有了数学意义上的合法性。
从更长远的视角看,这项工作指向的是一个尚未实现但方向明确的目标:把大型推理模型的长思维链,通过有结构的课程训练,系统地「压缩」进模型的隐藏层。届时,模型仍然具备完整的推理能力,但用户感知到的,只有直接的答案,没有漫长的等待,没有昂贵的思考 token 账单。
当然,从当前的理论结论到工程实现,距离仍然不小。论文自身也明确指出,目前的证明依赖若干简化假设:固定的价值矩阵、预设的门控权重、以及以奇偶校验为代表的合成任务结构。将 Log-ICoT 应用于真实 LLM 的挑战在于,如何在没有明确层级结构的情况下,设计合理的「阶段划分」方式。