下面是一套 Lecture 12 Exit Ticket,对应 lec12.md 的当前内容。把它当成一份“模型到底有没有真本事”的观察单会更轻松。重点不是刷分,而是看你能不能判断:这个分数到底在量什么、漏掉了什么、又会不会被数据污染。

Exit Ticket(10 题,开卷)

1) 为什么 evaluation 不是“平均分”这么简单

请用 2 句话回答:

2) perplexity 为什么仍然有价值

请说明:

3) 知识类 / 指令类 / agent 类 benchmark 的口味有什么不同

请分别用一句短语说明:

4) safety 评估为什么不能只看“会不会拒绝”

请用 2 到 3 句话回答:

5) 什么叫 evaluation validity

请回答:

6) 为什么 quizzing 和 asking 不是一回事

请用 2 句话回答:

7) 数据集质量为什么会影响评估

请说明:

8) Chatbot Arena、IFEval、SWEBench 这些名字在提醒你什么

请分别用一句短语说明:

9) 这一讲最重要的结论是什么

请用 1 到 2 句话回答:

10) 如果你给一个产品经理讲评估,你会怎么说

请尽量自然一点: