ServiceNow实验室揭示当前模型在真实工作环境中的严重局限性

这项由ServiceNow研究院、Mila-魁北克人工智能研究所以及蒙特利尔大学联合开展的大规模研究于2026年3月发表，通过编号arXiv:2603.13594v1可以查阅完整论文。研究团队构建了迄今为止最全面的企业级AI助手评测基准，深入揭示了当前最先进的AI模型在真实工作环境中面临的根本性挑战。

当我们谈论AI助手时，很多人脑海中浮现的可能是能够回答问题、写邮件或总结文档的聊天机器人。但真正的企业级AI助手需要承担更复杂的任务——它们必须像熟练的办公室员工一样，在多个系统之间协调工作，严格遵守公司政策，并且绝对不能出错。研究团队为了测试这些能力，构建了一个名为EnterpriseOps-Gym的综合测试环境，这就像是为AI助手建造的一个虚拟办公楼，里面包含了真实企业中的各种部门和工作流程。

研究结果令人警醒。即使是目前最强大的Claude Opus 4.5模型，在这个测试环境中的成功率也仅有37.4%，远低于企业实际应用所需的可靠性水平。更令人担忧的是，当面对无法完成的任务时，最好的模型也只能在53.9%的情况下正确拒绝执行，这意味着在近一半的情况下，AI助手会盲目尝试执行不可能或违反政策的操作，可能对企业系统造成意外损害。

这项研究的独特之处在于它模拟了真实企业环境的复杂性。研究团队与专业数据标注公司Turing合作，招募了超过160名贡献者，包括在客户服务管理、人力资源和IT服务管理方面的专业人士。他们共同构建了一个包含164个相互关联数据库表和512个功能工具的虚拟企业环境，设计了1150个专家级任务，涵盖八个核心业务领域。

一、企业AI助手面临的真实挑战

想象一下你刚入职一家大公司，需要同时处理客户服务、人事管理、IT支持等多个部门的工作。每个部门都有自己的系统和规则，而且这些规则之间经常相互影响。比如，当你处理一个客户投诉时，可能需要先查看客户的服务合同，然后检查产品保修信息，接着可能还要创建一个技术支持工单，最后还要确保所有操作都符合公司的隐私政策。这就是现代企业AI助手每天面临的现实。

研究团队发现，当前的AI模型在处理这种多步骤、多系统的复杂任务时表现不佳。以客户服务管理为例，AI助手需要像一名经验丰富的技术支持专员那样工作，不仅要处理客户问题，还要严格遵守服务级别协议，验证客户权限，管理物理或虚拟资产的安装，并处理支持案例的状态转换。但研究发现，即使是最先进的模型在这个领域的成功率也只有36.4%。

更复杂的是跨部门协作任务，研究称之为"混合"任务。这类任务要求AI助手在多个业务系统之间无缝切换，就像一个万能的办公室助理，既要懂技术支持，又要会人事管理，还得熟悉财务流程。在这种情况下，最好的AI模型的成功率下降到了30.7%，这表明当前的AI技术在处理真实企业环境的复杂性时仍然力不从心。

研究还发现了一个令人深思的现象：AI模型在简单的协作工具上表现相对较好，比如在电子邮件、团队协作和文档管理方面，顶级模型能达到51-52%的成功率。但一旦涉及政策约束较多的领域，如IT服务管理和跨部门混合任务，性能就会急剧下降。这说明AI助手虽然能够处理相对标准化的操作，但在需要深度理解企业政策和复杂业务逻辑的场景中仍然存在根本性局限。

二、详细的测试环境设计

为了真实模拟企业环境，研究团队构建的EnterpriseOps-Gym就像一个完整的虚拟公司生态系统。这个系统包含八个核心业务领域，每个领域都有其独特的挑战和复杂性。

在客户服务管理领域，AI助手需要扮演技术支持运营专家的角色。它必须处理整个客户问题解决流程，从问题接收到最终解决，同时严格遵守服务级别协议。比如，当一个VIP客户报告服务器问题时，AI助手需要自动识别这是一个高优先级事件，即使问题本身看似简单，也要按照VIP客户的处理流程进行。这种业务逻辑的复杂性正是企业环境的特色。

人力资源管理领域可能是所有测试领域中最敏感的。AI助手在这里需要像一个值得信赖的HR管理员，处理员工生命周期管理和数据隐私合规。可见性规则在这里至关重要，确保薪资或不当行为调查等敏感信息只能被适当的机密群体访问。研究团队设计了一些"安全离职"任务，要求AI助手启动非自愿离职程序，触发法律保留和取证任务，并立即撤销所有物理和数字访问权限。这类任务测试的不仅是AI的执行能力，更是它对企业安全和合规要求的理解。

IT服务管理领域严格遵循ITIL标准，AI助手需要扮演IT服务台工程师，管理事件、问题、变更和配置项目等结构化记录。这个领域的推理往往是关系性和因果性的，AI助手必须在复杂的实体关系图中导航，将事件与其根本原因联系起来。例如，在"紧急变更实施"任务中，AI助手必须记录"重大事件"，创建"紧急变更"请求以重启服务器，然后解决事件。这种多步骤的关联操作正是现实企业IT管理的日常。

三、惊人的测试结果分析

研究团队测试了14个前沿AI模型，结果令人深思。Claude Opus 4.5作为表现最好的模型，其37.4%的总体成功率听起来可能不算太差，但在企业环境中，这意味着每10个任务中有超过6个会失败，这样的可靠性显然无法满足实际部署需求。

更细致的分析揭示了有趣的模式。模型在协作任务上的表现明显优于业务流程任务。具体来说，在电子邮件、团队协作和云端硬盘管理等相对标准化的工具上，顶级模型能够达到51-52%的成功率。但当涉及到需要深度理解业务规则的领域时，性能就会显著下降，IT服务管理只有28.5%，跨部门混合任务只有30.7%。这个差异说明了什么？

实际上，这反映了当前AI模型的一个根本特点：它们更擅长处理相对简单、模式化的操作，但在需要复杂推理和策略规划的场景中就显得力不从心。电子邮件和文档管理虽然也有复杂性，但其操作模式相对固定，而企业业务流程则充满了条件判断、异常处理和政策约束。

开源模型的表现更加引人关注。最强的开源模型DeepSeek V3.2的成功率只有24.5%，与闭源模型存在显著差距。但更重要的是，所有模型在成本效益方面的表现。研究显示，Gemini-3-Flash在闭源模型中提供了最佳的性价比，以每任务0.03美元的成本达到31.9%的成功率，而更昂贵的模型如GPT-5虽然成本更高（每任务0.16美元），但性能提升有限（29.8%）。

关于"拒绝不可行任务"的测试结果特别值得关注。研究团队精心设计了30个不可行的任务，这些任务由于工具不足、明确的政策违规或资源不可用而无法完成。结果显示，即使是最好的模型也只能在53.9%的情况下正确拒绝这些任务。这意味着在近一半的情况下，AI助手会尝试执行不可能或有害的操作，可能对系统造成意外副作用。

四、深入的失败模式分析

研究团队不仅记录了模型的失败率，更深入分析了失败的具体原因，这为改进AI助手提供了宝贵的洞察。

最常见的失败模式是"缺少先决条件查找"。AI模型经常调用创建数据库对象的工具，但没有先查询必要的先决条件，结果产生了带有断开外键链接的悬空记录。比如，在需要为特定类别创建HR主题的任务中，模型会跳过检索可用类别的步骤，直接插入一个孤立的记录。这就像在烹饪时没有检查冰箱里有什么食材就开始做菜，结果做出了一道缺少关键配料的失败料理。

另一个重要的失败模式是"级联状态传播"失败。当某些状态转换发生时，系统政策会要求触发后续行动，但模型经常忘记执行这些必需的后续步骤。这类似于点燃了炉子但忘记放锅，或者发送了会议邀请但忘记预订会议室。

"错误的ID解析"也是一个频繁出现的问题。模型会将未经验证的标识符传递给工具调用，而不是通过先前的工具交互来解析正确的ID。最后，"过早完成幻觉"是指模型在所有必需步骤完成之前就声称任务已完成，这种情况在复杂的多步骤任务中尤为常见。

为了更系统地理解这些失败模式，研究团队将验证检查分为三类：任务完成验证检查是否实现了主要用户目标；完整性约束验证检查系统是否保持一致状态和有效的外键关系；权限和流程合规验证检查是否遵守了管理权限和程序规则的系统政策。结果显示，模型在权限和流程合规方面表现最差，这正是企业部署中最关键的安全考虑。

五、规划能力是核心瓶颈

研究中最重要的发现之一是确认了规划能力，而非工具使用能力，是当前AI助手的主要瓶颈。研究团队进行了一系列对照实验来验证这个结论。

在"计划条件执行"基线测试中，研究团队让专门的规划代理（使用Claude Sonnet 4.5）生成高级计划，然后让单独的执行器执行工具操作。结果显示，三个较弱的模型在所有测试领域都获得了6-13%的性能提升，证实了规划质量确实是一个有意义的瓶颈。

更令人印象深刻的是人工编写计划的实验。当研究团队为这些执行器模型提供人工编写的参考计划时，性能提升达到了14-35个百分点，几乎是自动规划改进的两倍。这个巨大的差距说明了什么？它表明当策略推理被外化时，主要的剩余挑战是忠实的指令遵循和精确的工具调用，这两个能力现代语言模型无论规模大小都表现出了广泛的胜任力。

这个发现还有一个有趣的含义：较小的模型在配备人工计划的情况下，能够与更大模型在相同条件下的性能相当或超越。这表明，一旦策略推理被外化，模型规模对执行质量的影响就大大降低了。

为了进一步验证这个结论，研究团队测试了添加干扰工具对性能的影响。他们让Claude Sonnet 4.5在增加5、10和15个干扰工具的情况下执行任务。令人惊讶的是，性能保持了显著的稳定性，平均完成率实际上轻微增加了约1%。这强烈支持了工具发现和选择不是主要瓶颈的观点。

六、思考时间的影响

研究团队还测试了增加"思考预算"对性能的影响，使用GPT-OSS-120B模型在低、中、高三种思考预算下进行测试。结果显示，增加思考预算在几乎所有领域都产生了显著的任务完成改进。

在低思考预算下，模型在复杂的服务和人员相关领域如客户服务管理、IT服务管理和人力资源方面几乎无法取得成功，成功率接近零。但扩展到高预算后，显著提升了能力，在云端硬盘管理方面从8.6%提升到41%，在日历管理方面从8.7%提升到35.6%，在团队协作方面从4%提升到32%。

然而，研究也发现性能扩展并不是普遍单调的。例如，电子邮件处理在中等预算时达到峰值45.2%，然后略有回退，而IT服务管理很早就达到平台期。这表明，仅仅分配更多思考token并不能普遍克服某些工作流程中的基本能力瓶颈。

七、多智能体系统的限制

为了探索更复杂的解决方案，研究团队评估了两种多智能体系统配置：一个规划器加执行器系统，以及一个规划器加分解加子任务执行器系统。

规划器加执行器设置在条件自动生成计划上的ReAct基础上持续超越基线，在客户服务管理方面产生10.7%的绝对收益，在人力资源方面产生8.8%的收益。然而，分解架构的鲁棒性较差。虽然它在IT服务管理方面提供了轻微提升，但在客户服务管理和人力资源方面都出现了回归，甚至在客户服务管理中低于基础ReAct性能。

这种情况与EnterpriseOps-Gym任务具有强顺序状态依赖关系是一致的，分解会破坏这种依赖关系。最终，自动化系统和带有人工计划的ReAct之间仍然存在相当大的差距，这表明进展需要约束感知计划生成的进步，而不仅仅是架构复杂性。

八、成本效益权衡分析

在实际企业部署中，成本效益平衡是一个关键考虑因素。研究团队的分析显示了当前AI模型在这方面的现实图景。

在闭源模型中，Gemini-3-Flash提供了最强的实用权衡，以每任务0.03美元的成本实现31.9%的性能，比GPT-5等更昂贵的模型提供更高的成功率，成本却只是后者的一小部分。在开源生态系统中，DeepSeek V3.2和GPT-OSS-120B成为帕累托主导选项，分别以0.014美元和0.015美元的成本实现24.5%和23.7%的性能。

然而，考虑到所有模型的成功率都低于40%，这些系统还不够可靠，无法在没有人工监督的情况下自主部署。对于最高的绝对可靠性，Claude Opus 4.5仍然是首选，尽管每任务需要0.36美元的高昂成本。

九、任务复杂度对性能的影响

研究团队分析了任务复杂度（以预期步骤数衡量）对模型性能的影响，结果显示了一个令人担忧的趋势。所有模型的性能都随着任务复杂度的增加而一致下降，反映了在多步骤序列中维护推理完整性的累积难度。

闭源模型群体以Claude Opus 4.5为首，表现出更大的韧性，即使在平均性能从4步时的约35%下降到16步时的20%以下时，仍保持性能领先。相比之下，开源队列显示了更陡峭的下降，像Kimi K2和GPT OSS 120B这样的模型在最大复杂度时收敛到接近10%的成功率。

这种近乎普遍的趋势表明，虽然当前模型可以处理短到中等的序列，但长复杂度任务中的快速错误积累仍然是生产环境中自主可靠性的关键障碍。

说到底，这项研究让我们清醒地认识到，尽管AI技术发展迅速，但要让AI助手真正在企业环境中发挥作用，我们还有很长的路要走。当前最先进的AI模型在面对真实企业工作的复杂性时，表现出了明显的局限性。它们就像刚入职的实习生，能够处理一些简单明确的任务，但在需要深度理解业务逻辑、严格遵守政策规定的复杂场景中，往往力不从心。

更重要的是，研究发现问题的根源主要不在于工具使用能力，而在于策略规划能力。这就像是说，AI助手知道怎么使用各种办公软件，但不知道什么时候该用哪个软件，以及如何将多个操作组合成一个完整的解决方案。这个发现为未来的AI助手改进指明了方向：我们需要的不是更多更复杂的工具，而是更好的规划和推理能力。

对于普通企业用户来说，这意味着在可预见的未来，AI助手更可能作为人类员工的得力助手，而不是完全的替代者。它们可以帮助处理一些标准化、重复性的工作，但在涉及复杂决策和跨部门协调的任务中，仍然需要人类的监督和干预。这样的发现，某种程度上也为那些担心被AI完全取代的办公室工作者提供了一些安慰。

对于AI技术的研究和开发者而言，EnterpriseOps-Gym提供了一个宝贵的测试平台，让他们能够在接近真实的企业环境中测试和改进AI系统。研究团队已经承诺将这个基准测试开源，这意味着全球的研究者都能够使用这个工具来推进企业级AI助手的发展。

随着企业对自动化需求的不断增长，相信这项研究将激发更多针对性的技术突破。也许在不久的将来，我们会看到专门针对策略规划、政策理解和跨系统协调优化的AI模型。那时，真正可靠的企业AI助手才可能从科幻小说走进现实办公室。

Q&A

Q1：EnterpriseOps-Gym是什么？

A：EnterpriseOps-Gym是ServiceNow研究院等机构开发的企业级AI助手测试基准，包含1150个专家设计的任务，涵盖客户服务、人力资源、IT管理等八个业务领域，用于评估AI模型在真实企业环境中的表现。

Q2：为什么最好的AI模型成功率只有37.4%？

A：主要原因是企业环境的复杂性远超一般应用场景。AI助手需要在多个系统间协调工作、严格遵守政策规定、处理复杂的业务逻辑，而当前AI模型在策略规划和跨系统状态管理方面存在根本性缺陷。

Q3：这个研究对普通企业用户有什么意义？

A：研究表明当前AI助手还无法完全胜任复杂的企业工作，更适合作为人类员工的辅助工具处理标准化任务。对于担心被AI取代的办公室工作者，短期内AI更可能是协助者而非替代者。