下面是一套 Lecture 12 Exit Ticket,对应 lec12.md 的当前内容。把它当成一份“模型到底有没有真本事”的观察单会更轻松。重点不是刷分,而是看你能不能判断:这个分数到底在量什么、漏掉了什么、又会不会被数据污染。
Exit Ticket(10 题,开卷)
1) 为什么 evaluation 不是“平均分”这么简单
请用 2 句话回答:
- 为什么一个分数往往不够
- 评估里最容易被忽略的是什么
2) perplexity 为什么仍然有价值
请说明:
- perplexity 主要在看什么
- 为什么它不等于“模型整体好不好”
3) 知识类 / 指令类 / agent 类 benchmark 的口味有什么不同
请分别用一句短语说明:
- knowledge benchmark
- instruction-following benchmark
- agent benchmark
4) safety 评估为什么不能只看“会不会拒绝”
请用 2 到 3 句话回答:
- safety benchmark 在关心什么
- 为什么“拒绝得多”不一定代表更安全
5) 什么叫 evaluation validity
请回答:
- 评估真的在测你想测的东西吗
- 为什么这个问题经常比你想得更麻烦
6) 为什么 quizzing 和 asking 不是一回事
请用 2 句话回答:
7) 数据集质量为什么会影响评估
请说明:
- contamination 是什么直觉
- 为什么 benchmark 可能被“刷题”污染
8) Chatbot Arena、IFEval、SWEBench 这些名字在提醒你什么
请分别用一句短语说明:
- 它们分别更像在测什么
- 为什么这比单看一个传统 benchmark 更接近真实使用
9) 这一讲最重要的结论是什么
请用 1 到 2 句话回答:
- 评估不是一个分数,而是一组取舍
- 你会如何用它判断真实可用性
10) 如果你给一个产品经理讲评估,你会怎么说
请尽量自然一点:
- 为什么不能只看 leaderboard
- 为什么“真能用”比“分数漂亮”更重要