Agent 评测别只盯准确率:FDE 现场更该看的 5 个指标

培训含墨墨会员2026年5月3日

实验环境里 92% 准确率,上线一周被投诉「胡说八道」——这种事在 Agent 项目里太常见了。

五个更接近生产的指标

  1. 人工接管率:多少请求必须升级到人?
  2. 可审计率:结论能否追溯到引用片段?
  3. 延迟 P95:业务高峰是否可接受?
  4. 越权尝试率:模型是否试图访问不该访问的数据?
  5. 回归稳定性:换模型版本后指标波动多大?

怎么跟客户解释

别和客户争「模型聪不聪明」,把评测报告翻译成风险、成本、时效三件事,更容易推进试点扩容。

评论

还没有评论,来抢沙发吧。