人人都是FDEForward Deployed Engineer

Agent 评测别只盯准确率：FDE 现场更该看的 5 个指标

培训含墨墨会员2026年5月3日

实验环境里 92% 准确率，上线一周被投诉「胡说八道」——这种事在 Agent 项目里太常见了。

五个更接近生产的指标

人工接管率：多少请求必须升级到人？
可审计率：结论能否追溯到引用片段？
延迟 P95：业务高峰是否可接受？
越权尝试率：模型是否试图访问不该访问的数据？
回归稳定性：换模型版本后指标波动多大？

怎么跟客户解释

别和客户争「模型聪不聪明」，把评测报告翻译成风险、成本、时效三件事，更容易推进试点扩容。

评论

还没有评论，来抢沙发吧。