“已思考(用时 XXX 秒)……”看到这行字,大家是不是已经开始不耐烦了?尽管 AI 这几年确实越来越聪明、也越来越全能了,但在遇到某些奇怪的推理题目或横跨多个 App 的复杂任务时,这些更聪明、更谨慎的 AI 大模型,响应时间反而越慢。
(图源:deepseek)
针对「转圈圈」这一现象,伯克利人工智能研究实验室(BAIR)日前发布了一篇新的博客,提出了不一样的解决方案——自适应并行推理(Adaptive Parallel Reasoning,APR)。
在展开 APR 这个概念之前,我们要先聊聊为什么现在的 AI 普遍都有会在某个环节卡住。
目前主流模型普遍采用的「顺序推理」的模式:大模型接到复杂任务后,会先把任务分割成一个个逻辑相连的小任务,然后从头到尾一步步推,之后再验证结果。
左为顺序推理(SR),右为并行推理(APR)
图片来源:BAIR
从好的方面看,这种推理方式准确性相对有保障,推理过程也更为清晰。比如上个月雷科技体验用 ChatGPT 画原创漫画时,展开推理窗口我们就能看到 AI 从头到尾设计故事、对白和规划画面的过程。
图片来源:雷科技
但这还没完,为了保证推理结果的准确性,主流模型还会采用一个名为「推理时拓展」(Inference-time scaling)的推理模式。用人话来解释,就是模型推理得出结果后,会再发起一次推理来验证这个结果。只有多次推理结果一致,才会输出最终结果。
很显然,「验算」次数多了,推理的耗时就长了,用户的等到时间也就长了。
当然了,顺序推理也有自己的好处。对于那些特别复杂的推理任务,顺序推理的模式能保证推理结果的可溯源性。只要点开推理过程,我们能人工检查每一步骤的推理结果,可以相对轻松地找到 AI 在哪个步骤的运算出了问题。
很显然,「顺序推理+推理时拓展」的推理模式需要更长的推理时间,用户等待时间更长;逐步拆解任务再重新推理的方式,也会显著提高模型推理的 Token 用量。更不用说这种计算模式很容易突破任务的实际文本窗口大小,任务多跑几次可能就丢掉上下文了。
本来用改进推理结果的推理模式,最后反而成为压垮 AI 大模型的罪魁祸首。
为了解决「推理排队」的问题,AI 行业提出了「并行推理」的模式。其本质依旧是将推理步骤拆成多个小任务。在过去两年里,不少 AI 研究员都提出了针对并行推理模式的结果验证方式。
但问题是,采用「并行推理」的 AI 大模型通常会用额外的外部模型来拆解任务,大模型本身并不能决定一个任务要被拆解、细化到什么程度:简单任务拆太细会浪费 Token,复杂任务如果拆得不够细,也可能会计算结果。
那如果我们让 AI 大模型自己决定任务拆解的程度呢?自适应并行推理要做的就是这件事。
顾名思义,自适应并行推理(APR)和传统的并行推理最大的区别,在于模型可以在顺序推理和并行推理之间动态自由切换。
对于简单的计算或逻辑请求,比如「105 能否被 7 整除」或「明天天气如何」这类题目,采用自适应并行推理的模型会采用标准的顺序推理模式,甚至可能都不需要推理时拓展来确保结果准确性,自然也不需要把请求拆分成多个独立项目了。
左为顺序推理(SR),右为自适应并行推理(APR)
图片来源:BAIR
但如果遇到复杂的数学推理,或者明显带有步骤、上下文关系的逻辑请求,比如在应对「导入并分析 2026 F1 中国站排位赛汉密尔顿在 T14 的尾速,并于 2025 年的数据做对比,数据可视化输出」这种问题时:
采用自适应并行推理的模型,就会在不超出单个上下文窗口的前提下,将整个任务拆分成多个彼此相互独立的小任务,并「并行处理」(即同时处理)没有上下文关系的任务,从而节约整个大任务的耗时。
其次,传统的并行推理会让几个 AI 重复处理同一个小任务,这本质上是在浪费 Token。而自适应并行推理则是让 AI 在拆分前就完成分工,进一步减少 Token 的浪费。
两种不同推理模式示意图
图片来源:BAIR
甚至因为自适应并行推理模式会把任务链拆分成彼此之间独立的小任务,这一模式还巧妙规避了超长文本窗口常见的 AI 幻觉问题。这其实也很好理解,毕竟让 6 个人分别做 4 小时的数学题,答案的正确率肯定比让一个人连做 24 小时要高得多。
让 AI 以机器的方式「并行思考」
话又说回来,尽管自适应并行推理的概念为 AI 大模型提供了一种新的工作模式,但它背后也有自己的风险。
并行推理训练框架 Parallel-R1 的作者就指出,自适应并行推理模式的训练存在「模型回滚」的情况:就像真正的「打工人」一样,只要删掉针对自适应并行推理模式的「奖励」,AI 模型就会回归到传统的顺序推理模式,重返自己的「舒适区」。
另外,让模型自己评估任务复杂性、自行拆解任务的做法,也可能导致模型搞错子任务的主次,对真正的推理难题视而不见,在一些细枝末节的问题上钻牛角尖。且对于 AI 模型这种带有「概率」「抽卡」属性的技术而言,在推理过程中引入更多 AI「主观判断」的环节,必然会影响最终结果的稳定性。
可以肯定的是,作为 AI 推理的新方案,自适应并行推理还需要时间去完善。
图片来源:Claude
但从用户的角度看,在 AI Agent 时代,过去那种「插科打诨」纯聊天的 AI 对话场景已经非常少见了:昨天,Claude 上线了与微软 365 套件的互通能力;三月份,OpenAI 发布了可以原生操作电脑的 ChatGPT 5.4……毫无疑问,跨应用长任务链能力是未来 AI 的竞争点。
再加上长任务链「环环相扣」的特点也会成倍放大 AI 大模型推理效率的短板,以前上学时老师说的「一人耽误一分钟,全班耽误半小时」的情况,将会出现在 AI Agent 中。在这样的背景下,尽管自适应并行推理方案还不稳定,但考虑到其「降本增效」的能力,雷科技认为应该会有越来越多的 AI 服务加入到自适应并行推理阵营中。
进一步讲,从 AI 的发展来看,雷科技认为这种从顺序思考到自适应并行思考的改变,其实也是AI 大模型从「模拟人类思考」转向「发挥机器优势」的里程碑。
线性、顺序的推理方式,本质上是让机器模拟人类的思维。从好的方面看,这种推理方式让 AI 大模型拥有了人类思考严谨、一环扣一环的特点。但硅基芯片多线程的特点,天生就适合并行计算,这种底层架构的差异意味着「并行思考」才是真正适合 AI 的思考方式。
让 AI 以人的方式思考,像是让人形机器人拉黄包车;让 AI 以 AI 的方式思考,AI 才算真正走进「机械时代」。
可以肯定的是,当这种「非线性」的思维方式成为主流后,AI Agent 的交互模式也会跟着发生变化。当前的 AI 为了证明自己有在思考,会把推理过程体现出来,始终脱离不了「文本窗」的限制。而「并行」运算时代的 AI,必然会「黑盒」化——后台推理「火力全开」,前台直接输出结果。
到那时候,AI 自然也不需要向用户证明「自己在思考」;「已思考 XXX 秒」这种没有意义的提示,也将彻底消失在 AI 时代中。