这项由西北大学、伊利诺伊大学厄巴纳-香槟分校、帝国理工学院、牛津大学、华盛顿大学、微软研究院、斯坦福大学等多所顶尖机构联合开展的研究,于2026年4月以arXiv预印本形式发布,论文编号为arXiv:2604.06268。感兴趣的读者可通过该编号查询完整论文。

假设你有一个会说话的机器人助手,一开始它很聪明,能根据你说的不同问题给出不同的、有针对性的回答。但训练了一段时间之后,不管你问它什么,它的回答开头都变成了"这是个好问题,让我仔细想想……"然后给出一大段看起来很认真、实际上跟你的问题关系不大的废话。从外表看,它的回答依然措辞丰富、句子多变,但骨子里,它已经进入了一种"自动驾驶"模式——不管外界输入什么,输出的都是差不多的固定套路。

这就是这篇论文所描述的核心问题,研究团队将其命名为"模板崩塌"。这不是一个无关紧要的小毛病,而是当前用强化学习训练AI智能体时普遍存在的、却又被现有监控手段完全忽视的隐形危机。研究团队不仅精确诊断了这个问题,还找到了背后的根本原因,并提出了一个简单有效的修复方案。

一、什么是"模板崩塌",为什么它那么难被发现

要理解"模板崩塌",先得了解AI智能体是怎么被训练的。当研究者想让AI学会完成某类任务——比如解数学题、玩游戏、在网上购物——常用的方法是"强化学习"。简单说,就是让AI自己去尝试,做对了就给奖励,做错了就扣分,然后一遍遍重复,让它从反馈中自我改进。

在这个训练过程中,研究者需要时刻监控AI的健康状况。他们通常盯两件事:一是"奖励分数"有没有稳定提升,二是AI思考过程的"熵"有没有保持在合理范围内。"熵"这个词听起来很高深,其实就是"多样性"的度量——如果AI面对同一个问题时每次回答都不一样、措辞丰富,熵就高;如果每次都说同一句话,熵就低。

问题就出在这里。研究团队发现,熵高并不代表AI真的在认真思考。打个比方,有一个学生,每次写作文开头都不一样——有时候用"漫漫长路"开篇,有时候用"秋风萧瑟",有时候用名人名言——读起来文采斐然,但文章的实质内容其实是同一套固定框架:开头感慨一下,中间举个例子,结尾升华主题。不管题目是写"我的理想"还是"一次难忘的经历",骨子里都是同一个模板。

"模板崩塌"正是如此。AI的思考文字看起来多样,但实质上与具体输入的题目无关,是一种精心包装过的"万能模板"。现有的熵指标根本发现不了这个问题,因为熵只衡量"一个问题的多次回答之间是否不同",而不管"面对不同问题时,回答是否真的不同"。

研究团队用信息论的语言把这个问题说得非常清楚。多样性(即"边际熵")可以拆分成两部分:一部分是"针对同一个输入的回答有多丰富",另一部分是"面对不同输入时,回答是否真的随之变化"。前者叫做条件熵,后者叫做互信息。现有的监控手段只盯着条件熵,但"模板崩塌"的本质是互信息崩溃——而这时条件熵依然可以很高,看起来一切正常。

这就好比一个演员能把同一个剧本用不同的表情、不同的语调、不同的肢体语言演出来,每场演出都不一样,"熵"很高。但如果不管导演让他演什么角色,他永远表演的都是这同一个剧本,那他的表演就跟角色要求完全脱节了——这就是"模板崩塌"。

更令人担忧的是,这种崩塌在多轮对话的AI智能体中尤其容易发生。因为在多轮交互里,奖励信号往往很稀疏——AI做了一系列动作之后才能得到一个奖励,很难判断具体是哪一步的思考起了作用。于是AI就有机会用固定模板蒙混过关,而训练系统根本察觉不到。

二、用"侦探识人"的方法来诊断模板崩塌

研究团队提出的解决方案,从诊断开始。他们设计了一套基于互信息的测量方法,核心思路其实相当直觉化。

考虑这样一个场景:你是一位侦探,面前有64份供词,每份供词来自不同的嫌疑人。如果每个嫌疑人的供词都有独特的细节——说话风格、具体描述、独有的信息——那你只需要读一份供词,就能大概猜出它来自哪个人。反过来,如果所有人的供词都是同一套标准格式:"我当天在家,没有外出,希望警方能相信我。"那不管你读哪份供词,都没法判断是谁写的。

互信息的本质就是测量这种"通过回答猜出问题"的能力。如果AI的回答对不同的问题真的有针对性,那你拿到一个回答,就能大致猜出它是针对哪类问题写的——这说明互信息高。如果拿到回答完全无法判断对应的问题,那互信息就趋近于零,"模板崩塌"就发生了。

具体操作上,研究团队设计了一个叫做"批内交叉打分"的方法。在每次训练时,AI会对一批问题(比如64个不同的题目)分别生成回答。然后,他们把每个回答放在所有64个题目下面,让AI自己给每个"题目-回答"组合打分,分数就是"这个回答对应这个题目的可能性有多大"。如果AI的回答真的与题目相关,那每个回答在自己对应的题目下应该得到最高分;如果回答是通用模板,那64个题目下的得分应该差不多,就像随机猜测一样。

基于这个逻辑,研究团队设计了两个核心测量指标。一个叫"检索准确率",就是看一个回答能不能在64个题目中正确"认出"自己的源头题目——如果模板崩塌完全发生,正确率就会掉到1/64,也就是约1.56%,等于完全随机猜测。另一个叫"MI-ZScore-EMA",是一种连续型的评分,能更细腻地反映回答与题目的相关程度,并通过数学处理使其在整个训练过程中保持稳定可比。

这些指标最厉害的地方在于,它们完全不需要额外的模型或人工标注,就用训练时已经有的数据来计算,几乎没有额外计算成本。

研究结果非常说明问题。在大量实验中,互信息类指标与最终任务表现的相关性(用斯皮尔曼相关系数衡量)达到了+0.39,而传统的熵类指标相关性竟然是负数,在-0.11到-0.14之间。这意味着,熵越高,任务表现反而可能越差——熵指标不只是没用,而且实际上在误导研究者朝错误方向调整。互信息才是真正预测AI表现好坏的指标。

三、模板崩塌背后的物理学:信噪比机制

找到了诊断方法,下一步是理解原因。研究团队从物理学的角度切入,用"信噪比"来解释为什么模板崩塌几乎是不可避免的。

强化学习更新AI参数的核心机制,是计算一个叫"梯度"的方向向量。梯度告诉AI:"你应该往哪个方向调整参数,才能让好的回答出现得更频繁、坏的回答出现得更少。"这个梯度由两部分叠加而成:一部分来自"任务梯度",它依赖于同一个题目下不同回答的奖励差异;另一部分来自"正则化梯度",它来自两个固定的约束——KL散度(约束AI别跑太远离初始状态)和熵正则化(鼓励AI保持多样性)。

问题就出在这两部分的强弱对比上。任务梯度的强度,直接取决于同一个题目下不同回答的奖励是否有明显差别。用大白话说:如果AI对题目A的五次尝试,有的得了高分、有的得了低分,分数差异大,那任务梯度就很强,AI能清楚地学到"哪种思路是对的"。但如果五次尝试的分数都差不多——要么都高,要么都低——那任务梯度就趋近于零。

而正则化梯度是完全无视题目内容的。不管你给AI喂的是数学题还是推理题,正则化梯度的强度基本保持不变,就像一个不管什么情况都以同样力气推你的人。

当任务梯度弱、正则化梯度相对强时,AI每次更新参数的方向就主要被正则化所主导。正则化鼓励的是"在任何题目下都保持多样性"和"别偏离初始模型太远",这两者都是与具体输入内容无关的通用要求。于是,AI就慢慢学会了一种通用策略:让回答看起来够多样(满足熵正则化),同时别变化太剧烈(满足KL约束)——但这种"多样性"是跟题目无关的通用多样性,不是针对具体题目的有针对性的思考。这就是模板崩塌的梯度级别机制。

研究团队用实验数据证实了这个推断。他们把训练题目按照"同一题目下不同尝试的奖励方差"从高到低分成六组,然后分别测量每组题目带来的任务梯度强度和正则化梯度强度。结果非常清晰:任务梯度随着奖励方差单调增大,奖励方差最高的那组题目,任务梯度是最低那组的好几倍;而正则化梯度在六组之间几乎完全一样,完全不受奖励方差影响。在奖励方差最低的那组题目中,任务梯度几乎为零,但AI的参数更新并不为零——更新完全由正则化主导,是纯粹的"噪声驱动"更新。

这个机制还有一个微妙而重要的推论:即使是本来训练挺好的AI,随着训练深入,也会逐渐陷入这个困境。因为AI越来越擅长某些题目之后,那些它已经基本能解决的题目,每次尝试的结果都差不多——奖励方差随之降低,任务梯度变弱,正则化逐渐主导,慢慢走向模板化。

四、一个简单但有效的手术刀:信噪比感知过滤

既然问题的根源在于低奖励方差题目带来的低信噪比更新,解决方案就非常直接了:每次更新时,把低奖励方差的题目踢掉,只用高奖励方差的题目来训练。

研究团队将这个方法命名为"SNR感知过滤"。操作流程分三步。第一步,正常生成训练数据——对每个题目采样多次,得到多个回答及其对应的奖励分数。第二步,对每个题目计算"奖励方差"——也就是同一题目下不同回答的分数分散程度。第三步,按照奖励方差从高到低给题目排序,只保留"高信号"的那部分题目来做参数更新。

具体的筛选规则采用了一种叫"Top-p核式过滤"的方法,与自然语言生成中的"核采样"思路相似。大致原理是:把所有题目的奖励方差加起来,只保留"加在一起能覆盖总方差90%"的那些高方差题目。这个设计非常聪明——它能自动适应当前批次的质量。如果这批题目整体质量都不错、方差普遍较高,那保留的题目就多;如果大多数题目方差都接近零,说明这批数据大部分都是噪声,就会自动保留很少的题目,甚至可能直接跳过整批更新。

与之对比,另一种简单的方式是"Top-k过滤"——每次固定保留奖励方差排名前K个的题目,不管这K个题目的实际质量如何。实验表明,Top-k不如Top-p,因为固定数量意味着即使高质量题目很少,也会被迫保留一些低质量的凑数,稀释了训练信号。

这个方法的另一个优势是完全不需要额外的计算资源。因为本来就要对每个题目采样多次(计算多个回答的奖励用于估算优势),奖励方差只是这些已有数据的一个简单统计,计算量不到总训练时间的0.1%。实际上,由于过滤掉了一部分题目,每步训练需要处理的数据量减少了,整体速度反而加快了26%到41%。

五、实验验证:在七个不同任务上的全面测试

为了检验这套方案是否真的有效,研究团队在七个性质各异的任务上进行了大规模实验。这七个任务覆盖了AI可能面临的各种挑战场景。

"推箱子"(Sokoban)是一个经典的益智游戏,AI需要把箱子推到指定位置,难点在于推错了就无法倒退,一步错步步错,要求AI具备提前规划多步的能力。"冰湖"(FrozenLake)是一个在随机滑动地面上导航到终点的任务,每一步的结果都有随机性,奖励信号非常稀疏。"MetaMathQA"要求AI解答数学题,允许多次尝试但每次奖励递减,鼓励AI尽快找到正确答案。"倒计时"(Countdown)是一个用给定数字通过加减乘除达到目标值的算术题,只有单次回答机会。"搜索问答"(SearchQA)让AI通过多轮搜索和信息整合来回答复杂问题。"网上购物"(WebShop)让AI在模拟电商环境中按照用户要求搜索并购买合适商品。"深度编程"(DeepCoder)要求AI生成能通过测试用例的Python代码。

实验使用了Qwen2.5-3B作为基础模型,并在PPO、DAPO、GRPO、Dr.GRPO四种主流强化学习算法下分别测试。同时,研究团队还在不同模型规模(0.5B、1.5B、3B、7B参数)、不同模型家族(Qwen2.5系列、Llama3.2)、以及视觉语言模型(Qwen2.5-VL,同时接受文字和图像输入)上验证了方法的普适性。

结果非常一致。在PPO算法、Qwen2.5-3B模型的基准设置下,推箱子任务的成功率从12.9%提升到28.9%(提升16个百分点),冰湖任务从67%提升到77.9%,数学题任务从92.6%提升到93.2%。跨算法测试中,DAPO算法下平均提升2.9个百分点,GRPO算法下提升3.7个百分点,Dr.GRPO算法下提升0.8个百分点。跨模型规模测试中,最小的0.5B模型在推箱子上从3.3%提升到26.2%(提升幅度惊人),最大的7B模型在数学题上从84%提升到95.7%。在视觉语言模型测试中,冰湖任务上图像输入下的成功率从19.5%飙升到79%,提升超过59个百分点。

在所有这些提升的同时,互信息指标也同步提高,验证了"输入相关性提升导致任务表现提升"的因果链条确实成立。

六、四个问题:用实验排除所有备选解释

研究团队深知,仅仅看到"过滤之后性能提升"还不足以证明信噪比机制是真正的原因。也许只是因为过滤掉了某些"太难"或"太容易"的题目,让训练难度更合适?也许是因为随机环境噪声干扰了结果?也许过滤本身改变了题目分布,而不是真的提升了信号质量?

针对这些疑问,研究团队设计了四组关键实验来逐一排除。

第一组实验,"分位数消融",直接验证奖励方差是否真的驱动训练质量。他们把所有题目按奖励方差分成四等份,分别只用最高25%(Q1)、次高25%(Q2)、次低25%(Q3)、最低25%(Q4)的题目训练。结果非常干净:任务表现和互信息都从Q1到Q4单调递减,Q1远好于Q4。配合之前的数学证明(任务梯度强度上界等于奖励方差的平方根),这建立了"奖励方差→梯度质量→输入相关推理"的完整因果链。

第二组实验,"噪声注入控制",测试环境随机性对互信息的影响是否符合信噪比机制的预测。冰湖任务的滑动概率从0%(完全确定性)逐步增加到100%(完全随机)。结果完全符合预测:随机性增加,任务表现下降,互信息下降,过滤的优势逐渐缩小。特别有意思的是,当随机性达到80%-100%时,过滤的优势几乎消失——因为此时即使是奖励方差高的题目,其方差也主要来自环境噪声而非真正的信号。这个"边界条件"的出现恰恰验证了机制的精确性。

第三组实验,"层级对比",区分"选择好题目"和"选择好轨迹"的效果差异。研究团队设置了一个对照:保留所有题目,但对每个题目只保留奖励最高和最低的各8条轨迹,通过轨迹级别的选择来提升信噪比。这种轨迹级别的过滤确实比完全不过滤好,但效果显著不如题目级别的过滤。原因在于:一个本来奖励方差就接近零的题目,强行选出"最高"和"最低"的轨迹,其实是在放大噪声,选出来的"高奖励"和"低奖励"差距本就很小,并无多少信息量。

第四组实验,"适用性预测",研究什么情况下过滤方法最有效。研究团队发现,可以在训练开始前用一个简单指标来预测:计算当前批次中各题目奖励方差的"变异系数"(标准差/均值)。当这个比值高时,说明题目之间的奖励方差差别很大——有些题目信号丰富,有些几乎是噪声,过滤能精准区分两类。当这个比值接近零时,所有题目的方差都差不多,过滤就变成了随机丢弃数据,没有意义甚至有害。这个发现给了研究者一个廉价的"先验检验"工具,在跑完整实验前就能判断过滤是否值得使用。

七、互信息与熵:谁才是真正的晴雨表

实验还系统性地对比了互信息指标和传统熵指标作为训练监控工具的效果。研究团队尝试了三种不同的干预手段——调整熵正则化系数、调整KL约束强度、调整SNR过滤保留比例——然后观察每种手段在"互信息-任务表现"平面和"熵-任务表现"平面上的轨迹。

结果非常鲜明。调整熵正则化和KL约束,主要移动的是熵轴,对互信息的影响很小,任务表现的变化也较小,而且轨迹杂乱无章,没有单调性——增大或减小正则化强度都可能让性能先上后下或先下后上,很难从这些指标中判断方向。相比之下,调整SNR过滤力度(保留比例从1.0到0.4),轨迹在互信息-任务表现平面上呈现出漂亮的单调曲线:过滤力度越大(保留比例越小),互信息越高,任务表现也越高,直到过滤过于激进开始损害探索为止。

研究团队还发现了一个有趣现象:格式有效性(AI输出是否符合规定格式)与互信息几乎没有关联。有些运行在格式完全正确的同时,互信息极低,说明AI正处于模板崩塌状态。这意味着,用"格式是否正确"来替代互信息作为崩塌指标是行不通的——两者测量的是完全不同的东西。

此外,奖励方差与熵和回答长度的相关性都非常低(斯皮尔曼相关约-0.14和0.12),而与任务奖励的相关性高达0.63。这说明奖励方差测量的是一个独立于表面统计特征的信号质量维度,是KL正则化和熵正则化之外的第三个独立调节旋钮。

说到底,这篇论文讲的是一个在AI训练领域中长期潜伏的隐形问题。就像一个员工表面上工作很努力、产出很丰富,但实际上已经完全进入了"应付模式",所有工作都套用同一个模板,跟具体任务需求早已脱节——这种问题用传统的考核指标完全发现不了,只有换一种角度才能看清真相。

研究团队给出的答案简洁而优雅:用互信息来衡量AI的推理是否真的响应了输入,用奖励方差来识别哪些训练数据真的在帮AI学习,用过滤手段把噪声驱动的更新去掉,让信号重新主导训练方向。

这对普通人意味着什么?从近的角度说,你使用的AI助手、智能客服、自动驾驶辅助系统,背后都在用类似的强化学习方法训练。这套诊断和修复框架,能帮助开发者更早发现AI的"思维僵化",在产品上线前把问题解决掉,让你得到真正针对你的问题而给出的回答,而不是一个精心伪装的通用模板。从远的角度说,随着AI系统越来越多地被部署在医疗、法律、科学研究等高风险领域,确保AI的推理真的与具体情境挂钩,而不是套用固定模板,会越来越关乎实际安全。

当然,这项研究也坦诚地指出了自己的局限性。信噪比分解假设任务信号和正则化噪声能干净地分离,但在实践中它们可能通过梯度累积相互耦合。所有实验都是单个AI智能体,多智能体场景下的模板崩塌如何传播还未被研究。还有一个潜在风险:足够强大的AI可能会学会"游戏规则",故意在训练时制造出较高的奖励方差来骗过过滤器——这在长期训练中值得持续关注。有兴趣深入了解这项研究的所有细节、数学推导和实验设置的读者,可以通过arXiv编号2604.06268查阅完整论文。

Q&A

Q1:模板崩塌和普通的AI模型退化有什么区别?

A:模板崩塌是一种特殊的退化形式,关键在于它"外表正常、内里空洞"。普通的AI退化往往能从奖励分数下降或输出变得单调中被发现。但模板崩塌发生时,AI的输出依然措辞丰富、格式正确、奖励稳定,传统监控指标全部显示"绿灯"。唯一能发现它的方式是检测AI的回答是否真的随着输入内容的变化而变化——这正是互信息指标的作用,而传统的熵指标对这种崩塌完全视而不见。

Q2:SNR感知过滤会不会让AI错过一些有价值的训练数据?

A:会丢弃一部分数据,但被丢弃的恰恰是"看起来像训练数据、实际上是噪声"的低质量样本。对于同一个题目所有尝试奖励都差不多的数据,AI根本学不到"什么做法更好",只能学到来自正则化的通用压力。研究实验显示,在保持总体训练样本数量不变的前提下,过滤后的训练速度反而加快了26%到41%,最终任务表现也更好,说明质量远比数量重要。当然,过于激进的过滤会影响探索多样性,需要根据任务调整保留比例。

Q3:互信息代理指标在实际训练中怎么计算,成本高吗?

A:计算方法叫"批内交叉打分",完全依赖训练时已有的数据。具体做法是把每次训练批次中所有题目的回答交叉评分——让AI对每个回答计算"对应每个题目的可能性",从而判断回答是否与源题目特别匹配。这些计算复用了训练过程中本来就要做的前向传播,不需要额外的模型调用或人工标注,额外计算成本不到总训练时间的0.1%,在工程上非常轻量。