企业人工智能代理需要压力测试,而不是销售宣传

Abhishek Saxena,Sentient战略与增长负责人。


金融科技发展迅速。新闻无处不在,但清晰度不足。

FinTech Weekly为您汇总关键故事和事件。

点击这里订阅FinTech Weekly的新闻通讯

由摩根大通、Coinbase、贝莱德、Klarna等高管阅读。


企业AI存在一个信任问题,任何营销手段都难以解决。公司开始在生产环境中部署自主代理,单一的错误决策可能引发合规违规、支付失败、交易错误、财务损失或声誉危机。然而,行业评估代理是否准备好投入生产的标准仍然基本上是一个在舞台上看起来令人印象深刻的演示。

Nvidia本周推出的NemoClaw,标志着自主代理从试验阶段迅速转向企业工作流程。该平台增加了重要的安全和隐私控制措施,包括沙箱和策略护栏。但安全部署并不等同于生产就绪。更难的问题是,这些系统是否经过测试,能在模糊性、边缘情况和监管压力下可靠运行。

在受控环境中完成任务的代理相对容易。构建能够处理模糊性、从意外输入中恢复、在数千次并发交互中保持一致性,并且不违反监管约束的代理,是一个完全不同的工程难题。

正是在这一点上,许多企业部署遇到了麻烦。演示性能与生产可靠性之间的差距远比大多数团队预期的要大。

在测试中能完美处理客户支持查询的代理,面对未曾见过的边缘案例时可能会虚构不存在的退款政策。管理财务流程的代理,可能在历史数据上表现完美,但在市场条件超出训练分布时可能做出灾难性决策。协调供应链的物流代理,可能在模拟中成功,但在现实中的延误和冲突信号开始叠加时却难以应对。

任何经过对抗性测试环境的代理开发者都能迅速识别这些模式。这些系统——直到遇到定义真实操作的模糊性和压力——都能正常工作。

这也是为什么行业目前专注于构建更多代理框架,忽视了一个关键环节。真正的瓶颈不在于公司能多快创建代理,而在于他们能多有信心在赋予代理实际责任之前对其进行评估。

企业AI真正需要的是专为自主系统设计的严格、系统的压力测试基础设施。这意味着有意引入那些会让代理在生产中崩溃的输入。意味着评估代理在不确定性、冲突信息和未在干净基准数据集中出现的边缘案例下的表现。并且,这还需要持续评估,而非一次性测试。

NemoClaw的开源方法是朝着正确方向迈出的一步,因为它让开发者可以了解代理的运行方式。你无法正确测试一个黑箱系统。但仅有可见性是不够的。测试基础设施本身也需要随着被评估系统的演进而发展。

代理开发应假设失败模式是不可避免的,必须提前暴露出来。目标不是证明代理一次能工作,而是理解其在条件变得不可预测时的表现。这种思维方式改变了对代理的评估、护栏的设计以及系统在高风险环境中部署的准备方式。

随着代理从单一任务走向端到端的工作流程,风险只会增加。企业已在探索能协商合同、执行金融交易、协调供应链和管理复杂运营流程的代理。当这些系统跨越多个决策点时,一次错误的影响可能迅速扩散。

一个在客户支持中失败的代理会丢失一个工单;一个在金融中失败的代理可能会造成资本损失;一个在运营中失败的代理可能会延误整个生产线。
最终成功部署企业AI的公司,不会是那些最早部署代理的公司,而是那些真正可以信任其代理的公司。

信任不是在开发结束后添加的功能,而是一种工程学科——从系统的测试方式、在压力下的行为评估,到在投入生产之前对其失败模式的理解,都应从一开始就贯穿其中。

Nvidia正为企业提供强大的工具,以构建自主代理。更难的问题——也是决定这些系统在现实世界中是否成功的关键——是企业是否同样投资于证明这些代理已准备就绪所需的基础设施。


关于作者

Abhishek Saxena是Sentient的战略与增长负责人,Sentient是一个开源AI平台,致力于构建可信自主代理的基础设施。此前,Abhishek曾在Polygon Technology、苹果公司和InMobi担任职务,并拥有哈佛商学院的MBA学位。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
请输入评论内容
请输入评论内容
暂无评论