Agent 评测别只盯准确率:FDE 现场更该看的 5 个指标
实验环境里 92% 准确率,上线一周被投诉「胡说八道」——这种事在 Agent 项目里太常见了。
五个更接近生产的指标
- 人工接管率:多少请求必须升级到人?
- 可审计率:结论能否追溯到引用片段?
- 延迟 P95:业务高峰是否可接受?
- 越权尝试率:模型是否试图访问不该访问的数据?
- 回归稳定性:换模型版本后指标波动多大?
怎么跟客户解释
别和客户争「模型聪不聪明」,把评测报告翻译成风险、成本、时效三件事,更容易推进试点扩容。
评论
还没有评论,来抢沙发吧。