lec12-exit

下面是一套 Lecture 12 Exit Ticket，对应 lec12.md 的当前内容。把它当成一份“模型到底有没有真本事”的观察单会更轻松。重点不是刷分，而是看你能不能判断：这个分数到底在量什么、漏掉了什么、又会不会被数据污染。

Exit Ticket（10 题，开卷）

1) 为什么 evaluation 不是“平均分”这么简单

请用 2 句话回答：

为什么一个分数往往不够
评估里最容易被忽略的是什么

2) perplexity 为什么仍然有价值

请说明：

perplexity 主要在看什么
为什么它不等于“模型整体好不好”

3) 知识类 / 指令类 / agent 类 benchmark 的口味有什么不同

请分别用一句短语说明：

knowledge benchmark
instruction-following benchmark
agent benchmark

4) safety 评估为什么不能只看“会不会拒绝”

请用 2 到 3 句话回答：

safety benchmark 在关心什么
为什么“拒绝得多”不一定代表更安全

5) 什么叫 evaluation validity

请回答：

评估真的在测你想测的东西吗
为什么这个问题经常比你想得更麻烦

6) 为什么 quizzing 和 asking 不是一回事

请用 2 句话回答：

两者的输入场景有什么不同
为什么这会影响评估结论

7) 数据集质量为什么会影响评估

请说明：

contamination 是什么直觉
为什么 benchmark 可能被“刷题”污染

8) Chatbot Arena、IFEval、SWEBench 这些名字在提醒你什么

请分别用一句短语说明：

它们分别更像在测什么
为什么这比单看一个传统 benchmark 更接近真实使用

9) 这一讲最重要的结论是什么

请用 1 到 2 句话回答：

评估不是一个分数，而是一组取舍
你会如何用它判断真实可用性

10) 如果你给一个产品经理讲评估，你会怎么说

请尽量自然一点：

为什么不能只看 leaderboard
为什么“真能用”比“分数漂亮”更重要