Gate 广场创作者新春激励正式开启,发帖解锁 $60,000 豪华奖池
如何参与:
报名活动表单:https://www.gate.com/questionnaire/7315
使用广场任意发帖小工具,搭配文字发布内容即可
丰厚奖励一览:
发帖即可可瓜分 $25,000 奖池
10 位幸运用户:获得 1 GT + Gate 鸭舌帽
Top 发帖奖励:发帖与互动越多,排名越高,赢取 Gate 新年周边、Gate 双肩包等好礼
新手专属福利:首帖即得 $50 奖励,继续发帖还能瓜分 $10,000 新手奖池
活动时间:2026 年 1 月 8 日 16:00 – 1 月 26 日 24:00(UTC+8)
详情:https://www.gate.com/announcements/article/49112
使 KI 系统可靠:如何系统性地发现和消除幻觉
生成式AI模型给开发团队带来了一个根本性的问题:它们会提供绝对确信的答案,即使这些答案完全是虚构的。一个AI代理可能声称生成了从未存在过的数据库条目,或者详细描述了它从未执行过的操作。这种真正的系统故障与AI生成的幻觉之间的区别,对于生产环境至关重要。
从传统软件测试到AI验证
传统的软件开发有明确的错误信号:故障功能返回错误码,配置错误的API会发出明显的HTTP状态码信号。这个问题是可预测和可重现的。
而AI系统的工作方式根本不同。它们报告任务的成功执行,即使它们根本没有启动这些任务。它们引用从未进行过的数据库查询。它们详细描述只存在于训练数据中的操作——但答案看起来绝对合理。内容完全是虚构的。
这就需要一种全新的测试策略。在传统的QA测试中,工程师知道确切的答案格式、输入和输出结构。而对于AI系统,这种可预测性不存在。输入是提示(Prompt)——用户提出请求的方式几乎无限。
核心策略:与现实验证
识别幻觉的最有效方法是直接:与实际系统状态进行验证。当代理声称创建了数据记录时,会检查这些条目是否确实存在于数据库中。如果现实与其相反,代理的声明就毫无意义。
一个实际例子:一个没有写入权限的AI代理被要求创建新数据记录。测试框架随后验证:
这种方法通过多个层面实现:
单元测试和集成测试,设定明确边界: 测试故意执行代理没有权限的操作,并验证系统正确拒绝。
使用真实生产数据作为测试用例: 最有效的方法是利用历史客户对话。这些对话通常转换为标准化格式(通常为JSON),并在测试套件中运行。每个真实对话都成为一个测试用例,揭示代理声称与系统日志不符的地方。这涵盖了边界情况和极端场景,超出合成测试的范围——因为真实用户会产生不可预料的条件。
持续的错误分析: 定期检查代理对实际用户请求的反应,识别虚构信息,并不断更新测试套件。这不是一次性过程,而是持续监控。
两种互补的评估方法
实践表明,单一的测试方法不足以应对所有情况。两种不同的策略必须协同工作:
基于代码的评估器:用于客观验证。当错误定义明确且可通过规则验证时效果最佳。例如,解析结构、JSON有效性或SQL语法的验证。这些测试提供二元的、可靠的结果。
LLM作为评判的评估器:某些质量指标无法用二元方式分类。语气是否得当?总结是否正确完整?回答是否有帮助且客观?这些问题需要用不同的模型作为评估者,比如借助LangGraph框架。
此外,检索增强生成(RAG)验证也至关重要:测试会明确检查代理是否真正使用了提供的上下文,还是只是虚构和幻觉。
这种组合可以捕获单一方法可能遗漏的不同类型的幻觉。
为什么传统QA训练不足以应对
经验丰富的质量工程师在首次测试AI系统时会遇到困难。他们多年来完善的假设和技术无法直接迁移。
核心问题在于:AI系统有数千个提示(Prompts),这些提示需要不断更新和测试。每个提示都可能与其他提示产生不可预料的交互。微小的提示变更可能改变整个系统的行为。
大多数工程师缺乏对以下内容的清晰理解:
令人惊讶的是时间分布:创建一个AI代理相对简单。而自动化测试这个代理才是真正的挑战。实际上,花在测试和优化AI系统上的时间远远超过了最初的开发时间。
实用的可扩展测试框架
有效的框架基于四个支柱:
这些不同的验证方法结合起来,可以捕获单一方法遗漏的幻觉。
一个实际应用示例:当AI系统处理图像任务——比如自动识别或处理内容(如去除水印)——验证变得尤为关键。系统不仅要报告已去除水印,还必须验证图像的实际变化。
从每周发布到可靠发布
幻觉比传统软件错误更快破坏用户信任。一个错误会令人沮丧,而一个自信地提供虚假信息的代理会持续破坏信誉。
通过系统性测试,可以实现更快的发布节奏:可靠的每周部署,而非因稳定性问题而延迟数月。自动验证可以在代码进入生产前捕获回归问题。经过真实用户对话训练和测试的系统,能正确处理绝大多数实际请求。
这种快速迭代成为竞争优势:AI系统通过增加新功能、优化回答质量和逐步扩展应用场景不断提升。
行业趋势:将AI测试作为基础能力
AI的采用速度在各行业加快。越来越多的创业公司以AI为核心产品。更多成熟企业将智能集成到关键系统中。更多模型在生产环境中自主决策。
这从根本上改变了质量工程师的要求:他们不仅要懂得如何测试传统软件,还必须理解:
Prompt工程已成为基本技能。数据测试和动态数据验证不再是专业话题,而是每个测试工程师应掌握的标准能力。
行业现实验证了这一变化。无处不在的验证挑战相似。几年前在生产环境中单独解决的问题,现在已成为普遍需求。全球团队面临相同的难题。
系统性测试的作用——以及不足
目标不是完美。模型总会遇到边界情况,出现虚构内容。目标是系统性:识别幻觉,防止它们影响用户。
这些技术只要正确应用,就能奏效。目前缺乏的是对如何在实际生产环境中部署这些框架、确保可靠性、满足业务关键需求的广泛实践理解。
AI行业目前通过生产错误和持续改进来定义最佳实践。每发现一次幻觉,都促使测试更完善。每个新方法都在实践中验证。这就是技术标准形成的路径——不是通过理论,而是通过操作现实。