Skip to content

Day 7 · 评测体系设计

预计时间:3 小时

学习材料

#资料时间类型
1Anthropic: Building Effective Agents — 搜索 "evaluating agents"1h官方指南
2Evaluation and Benchmarking of LLM Agents: A Survey1h综述论文

Agent 评测三层

Layer 1: Pass/Fail 测试

输入 X → Agent 执行 → 输出 = 预期 Y?

最简单,适合确定性任务。

Layer 2: Transcript Grading

人工或 LLM 审查 Agent 的执行过程(transcript),评估:

  • 决策质量
  • 工具使用是否合理
  • 是否有冗余步骤

Layer 3: 模型评分器(LLM-as-Judge)

用另一个 LLM 评估 Agent 输出的质量,适合开放式任务。

实践任务(1h)

给 site-farm agent team 设计评测:

  1. 接入 AgentOps 或 Langfuse
  2. 跑一轮完整的 agent 工作流
  3. 查看 trace,记录:
    • 哪些步骤耗时最长?
    • 哪些步骤失败率最高?
    • 有没有冗余的 LLM 调用?

自检问题

  • [ ] Pass/Fail、Transcript Grading、LLM-as-Judge 分别适合什么场景?
  • [ ] 你的 Agent 中哪些环节最需要评测?
  • [ ] 怎么设计一个验证回路让 Agent 自动检测自己的错误?