Day 7 · 评测体系设计
预计时间:3 小时
学习材料
| # | 资料 | 时间 | 类型 |
|---|---|---|---|
| 1 | Anthropic: Building Effective Agents — 搜索 "evaluating agents" | 1h | 官方指南 |
| 2 | Evaluation and Benchmarking of LLM Agents: A Survey | 1h | 综述论文 |
Agent 评测三层
Layer 1: Pass/Fail 测试
输入 X → Agent 执行 → 输出 = 预期 Y?最简单,适合确定性任务。
Layer 2: Transcript Grading
人工或 LLM 审查 Agent 的执行过程(transcript),评估:
- 决策质量
- 工具使用是否合理
- 是否有冗余步骤
Layer 3: 模型评分器(LLM-as-Judge)
用另一个 LLM 评估 Agent 输出的质量,适合开放式任务。
实践任务(1h)
给 site-farm agent team 设计评测:
- 接入 AgentOps 或 Langfuse
- 跑一轮完整的 agent 工作流
- 查看 trace,记录:
- 哪些步骤耗时最长?
- 哪些步骤失败率最高?
- 有没有冗余的 LLM 调用?
自检问题
- [ ] Pass/Fail、Transcript Grading、LLM-as-Judge 分别适合什么场景?
- [ ] 你的 Agent 中哪些环节最需要评测?
- [ ] 怎么设计一个验证回路让 Agent 自动检测自己的错误?