预训练模型能力课堂练习

这份练习的目标

这一组练习不是为了“考倒模型”,而是为了让大家亲手观察:

  1. 预训练模型已经具备哪些基础能力
  2. 这些能力分别表现在哪些任务上
  3. 同一个任务在“零样本 -> 加上下文 -> 加 few-shot -> 加图片”时会怎样变化

建议使用本地模型:

如果你的电脑带不动,也可以和同学两人一组完成。

练习要求

例如:

第一部分:10 类基础任务

任务 1:续写能力

目标:观察模型最基本的 language modeling 能力。
示例 prompt:

记录什么:

任务 2:风格模仿与改写

目标:观察模型是否学到了语言风格分布。
示例 prompt:

记录什么:

任务 3:基础知识问答

目标:观察模型的常识和课程知识记忆。
示例 prompt:

记录什么:

建议你额外加一个本专业问题,例如:

任务 4:上下文理解

目标:观察模型是否能利用给定上下文。
示例做法:

先给一小段文字,再问:

记录什么:

任务 5:完形填空 / 上下文预测

目标:观察模型对词语搭配和局部语义的把握。
示例 prompt:

记录什么:

任务 6:分类能力

目标:观察预训练表示向下游任务迁移的效果。
示例 prompt:

记录什么:

任务 7:摘要能力

目标:观察模型是否能压缩和提炼信息。
示例 prompt:

记录什么:

如果可能,优先选一段本专业材料:

任务 8:翻译与跨语言能力

目标:观察预训练模型的多语言迁移能力。
示例 prompt:

记录什么:

第二部分:同一任务,逐步加难

这一部分是本次课堂最重要的练习。
请围绕同一个主题,比如“预训练为什么重要”,做下面 4 轮对比。

第 1 轮:零样本

直接问:

观察:

第 2 轮:加上下文

先给一小段课程文字,再问同样的问题。
例如你可以先贴一段关于 GPT / BERT / T5 的说明。

观察:

建议至少有一轮改成:

第 3 轮:加 few-shot 示例

先给两个示例:

再给第 3 个问题:

观察:

第 4 轮:加图片

如果主题允许,就加入一张图,例如:

再问:

观察:

第三部分:Prompt 专项练习

这一部分对应本章新补充的内容。
目标不是“找到神奇咒语”,而是亲手看到:

练习 1:同一任务,zero-shot 和 few-shot 对比

请选择一个简单任务,例如:

先做 zero-shot:

再做 few-shot:

记录什么:

练习 2:Prompt template 练习

请把一个随意提问,改写成更完整的 Prompt template。

例如把:

改成:

记录什么:

练习 3:直接回答 vs Chain-of-Thought

请选择一个需要多步思考的问题,例如:

先直接问:

再要求模型一步一步思考:

记录什么:

练习 4:Prompt 的失败案例

请故意设计一个 Prompt,让模型仍然做不好。

可以尝试:

记录什么:

如果可以,优先找一个本专业失败案例。
这样你更容易判断:

练习 5:用一句话区分 Prompt 和训练

请每位同学都写一句自己的总结:

建议句式:

练习 6:角色 Prompt 小实验

选一个同样的问题,分别让模型扮演:

例如:

记录什么:

练习 7:结构化 Prompt 小实验

请把同一个任务分别写成两种版本:

例如:

记录什么:

练习 8:Self-consistency 小实验

请选一道容易出现不同答案的题,例如:

做法:

如果模型支持采样参数,也可以适当提高随机性。

记录什么:

练习 9:Tool / RAG / Reflexion 场景判断

下面三类问题,请判断更适合:

你可以自己选题,也可以用这几个例子:

记录什么:

最后要交什么

每组提交一页简短记录,包含:

  1. 你们选了哪些任务
  2. 每类任务最有代表性的 1 组 prompt 和输出
  3. 你们认为模型最强的 2 项能力
  4. 你们认为模型最容易出问题的 2 个地方
  5. 在“零样本 -> 加上下文 -> 加 few-shot -> 加图片”的对比中,你们看到的最大变化是什么
  6. 在 Prompt 专项练习里,你们认为最有用的技巧是什么
  7. 你们观察到的一个典型失败案例是什么,它暴露了模型的什么边界
  8. 你们选的哪一项内容最贴近自己的专业 / 课题,它的效果怎样
  9. 在 Prompt 专项练习里,你们最成功的一次 Prompt 改写是什么,为什么
  10. 哪一个问题让你们意识到“只改 Prompt 不够,应该加 tool、RAG 或训练”

这份练习真正想让你带走什么

  1. 预训练模型的能力不是单一的“会聊天”,而是可以拆成很多可观察的子能力。
  2. 同一个模型在不同提示条件下,表现会明显变化。
  3. 预训练提供的是底座能力,而上下文、示例和多模态输入会进一步塑造它的表现。
  4. Prompt 不是一句“神奇咒语”,而是任务定义、上下文组织和约束设计。
  5. Prompt 是运行时接口,不是新的训练阶段;它能调动能力,但不能凭空创造能力。
  6. 把模型放进自己的专业场景里测试,才更容易看出它是真懂,还是只是会说。