Day 7 · 评测体系设计

预计时间：3 小时

学习材料

#	资料	时间	类型
1	Anthropic: Building Effective Agents — 搜索 "evaluating agents"	1h	官方指南
2	Evaluation and Benchmarking of LLM Agents: A Survey	1h	综述论文

输入 X → Agent 执行 → 输出 = 预期 Y？

最简单，适合确定性任务。

人工或 LLM 审查 Agent 的执行过程（transcript），评估：

用另一个 LLM 评估 Agent 输出的质量，适合开放式任务。

给 site-farm agent team 设计评测：