预训练模型能力课堂练习
这份练习的目标
这一组练习不是为了“考倒模型”,而是为了让大家亲手观察:
- 预训练模型已经具备哪些基础能力
- 这些能力分别表现在哪些任务上
- 同一个任务在“零样本 -> 加上下文 -> 加 few-shot -> 加图片”时会怎样变化
建议使用本地模型:
如果你的电脑带不动,也可以和同学两人一组完成。
练习要求
- 每一类任务至少保留 1 组 prompt 和 1 组输出
- 每做完一类任务,都写 1 到 2 句话观察
- 不要求模型一定答对,重点是比较它“擅长什么、容易错在哪里”
- 至少有 1 组任务必须来自你自己的专业 / 课题方向
例如:
- 通信方向:信号、频谱、调制、信道、基站、协议
- 电子信息方向:电路、器件、实验平台、测试流程
- 人工智能方向:模型结构、训练流程、评测结果
- 其他方向:请选你熟悉的专业概念、场景或文本材料
第一部分:10 类基础任务
任务 1:续写能力
目标:观察模型最基本的 language modeling 能力。
示例 prompt:
- “春天来了,校园里最先变化的是……”
- “The capital of France is …”
记录什么:
任务 2:风格模仿与改写
目标:观察模型是否学到了语言风格分布。
示例 prompt:
- “请把这段话改写得更正式。”
- “请把这段话改写成大一学生能听懂的版本。”
- “请把这段话压缩成三句话。”
记录什么:
任务 3:基础知识问答
目标:观察模型的常识和课程知识记忆。
示例 prompt:
- “什么是 Transformer?”
- “什么是预训练?”
- “BERT 和 GPT 的主要差别是什么?”
记录什么:
建议你额外加一个本专业问题,例如:
请解释什么是频谱泄漏。
请解释 OFDM 为什么适合无线通信。
请解释这条实验曲线可能反映了什么现象。
任务 4:上下文理解
目标:观察模型是否能利用给定上下文。
示例做法:
先给一小段文字,再问:
- “这段话里的‘他’指的是谁?”
- “这段文字最主要的信息是什么?”
记录什么:
任务 5:完形填空 / 上下文预测
目标:观察模型对词语搭配和局部语义的把握。
示例 prompt:
- “北京是中国的___。”
- “猫抓老鼠,狗看___。”
- “在 NLP 里,BERT 更擅长___任务。”
记录什么:
任务 6:分类能力
目标:观察预训练表示向下游任务迁移的效果。
示例 prompt:
- “请判断这条评论是正面还是负面,并说明原因。”
- “请判断这段文本更像体育、科技还是娱乐新闻。”
记录什么:
任务 7:摘要能力
目标:观察模型是否能压缩和提炼信息。
示例 prompt:
- “请把下面这段话总结成一句话。”
- “请提炼出 3 个要点。”
记录什么:
如果可能,优先选一段本专业材料:
- 论文摘要
- 项目说明
- 实验记录
- 技术报告中的一段说明
任务 8:翻译与跨语言能力
目标:观察预训练模型的多语言迁移能力。
示例 prompt:
- “请把这句话翻译成英文。”
- “请把这段英文翻译成中文,并保持学术语气。”
记录什么:
第二部分:同一任务,逐步加难
这一部分是本次课堂最重要的练习。
请围绕同一个主题,比如“预训练为什么重要”,做下面 4 轮对比。
第 1 轮:零样本
直接问:
- “请解释什么是预训练,以及它为什么改变了 NLP。”
观察:
第 2 轮:加上下文
先给一小段课程文字,再问同样的问题。
例如你可以先贴一段关于 GPT / BERT / T5 的说明。
观察:
建议至少有一轮改成:
- 先给一段你本专业的课件、论文摘要、项目说明或实验记录
- 再问模型解释、总结或分类
第 3 轮:加 few-shot 示例
先给两个示例:
- 示例 1:问题 + 一个你认可的简洁回答
- 示例 2:问题 + 一个你认可的简洁回答
再给第 3 个问题:
- “请按上面的风格,解释为什么 Transformer 适合做大规模预训练。”
观察:
第 4 轮:加图片
如果主题允许,就加入一张图,例如:
再问:
观察:
第三部分:Prompt 专项练习
这一部分对应本章新补充的内容。
目标不是“找到神奇咒语”,而是亲手看到:
- Prompt 是怎样把预训练能力调出来的
- Prompt 能改善什么
- Prompt 又解决不了什么
练习 1:同一任务,zero-shot 和 few-shot 对比
请选择一个简单任务,例如:
- 情感分类
- 新闻分类
- 课程概念解释
- 本专业概念分类或术语解释
先做 zero-shot:
请判断下面这句话是正面还是负面,并说明原因:这家餐厅环境很好,但上菜很慢。
再做 few-shot:
- 先给 2 到 3 个“输入 -> 输出”示例
- 再给一个新例子,让模型照着做
记录什么:
- few-shot 是否比 zero-shot 更稳定
- 输出格式是否更一致
- 模型是否真的“跟着例子学”
练习 2:Prompt template 练习
请把一个随意提问,改写成更完整的 Prompt template。
例如把:
改成:
- 角色:你是一名课程助教
- 任务:向大一学生解释 Transformer
- 约束:不要用公式
- 输出格式:先一句话,再列 3 个关键点
记录什么:
- template 后的回答是否更稳定
- 输出格式是否更容易控制
练习 3:直接回答 vs Chain-of-Thought
请选择一个需要多步思考的问题,例如:
- 一道简单数学题
- 一道常识推理题
- 一道课程概念比较题
先直接问:
再要求模型一步一步思考:
请一步一步思考,再给出答案。
Let's think step by step.
记录什么:
- CoT 是否让答案更完整
- 它有没有真的减少错误
- 回答只是变长了,还是变清楚了
练习 4:Prompt 的失败案例
请故意设计一个 Prompt,让模型仍然做不好。
可以尝试:
- 一个超出它知识边界的问题
- 一个格式要求很复杂的问题
- 一个非常容易产生幻觉的问题
- 一个小模型本来就难做好的推理任务
记录什么:
- 问题出在 Prompt 不清楚,还是模型能力不够
- 如果继续改 Prompt,问题有没有真正解决
如果可以,优先找一个本专业失败案例。
这样你更容易判断:
练习 5:用一句话区分 Prompt 和训练
请每位同学都写一句自己的总结:
- Prompt 在做什么?
- 它和“重新训练模型”最大的区别是什么?
建议句式:
Prompt 更像是在______;训练更像是在______。
练习 6:角色 Prompt 小实验
选一个同样的问题,分别让模型扮演:
- 严谨的课程助教
- 通信系统工程师
- 面向新生的科普讲解员
例如:
请解释什么是频谱泄漏。
请解释为什么大模型需要预训练。
记录什么:
- 角色变化后,回答的语气和重点是否真的变化
- role prompting 带来的是“风格变化”,还是“内容质量变化”
练习 7:结构化 Prompt 小实验
请把同一个任务分别写成两种版本:
例如:
<task>...</task>
<context>...</context>
<output_format>...</output_format>
记录什么:
- 结构化之后,模型是否更少漏掉要求
- 对复杂输入时,结构化是否更有帮助
练习 8:Self-consistency 小实验
请选一道容易出现不同答案的题,例如:
- 一道简单推理题
- 一道程序 bug 定位题
- 一道容易答得很满但不一定稳的课程问题
做法:
- 用同一个 prompt 连续问模型 3 到 5 次
- 看它的答案是否一致
如果模型支持采样参数,也可以适当提高随机性。
记录什么:
- 哪些问题答案很稳定
- 哪些问题会出现多种 reasoning path
- 多问几次有没有帮你更快识别“不稳的答案”
下面三类问题,请判断更适合:
- 只靠 prompt
- 加 tool use
- 加 RAG
- 加 reflexion
你可以自己选题,也可以用这几个例子:
帮我计算一条链路的 SNR 和容量
根据这段公司内部文档回答问题
请检查你刚才的答案是否有逻辑漏洞
记录什么:
- 哪些问题再怎么改 prompt 也不该只靠模型猜
- 什么时候应该把问题升级成“系统设计”
最后要交什么
每组提交一页简短记录,包含:
- 你们选了哪些任务
- 每类任务最有代表性的 1 组 prompt 和输出
- 你们认为模型最强的 2 项能力
- 你们认为模型最容易出问题的 2 个地方
- 在“零样本 -> 加上下文 -> 加 few-shot -> 加图片”的对比中,你们看到的最大变化是什么
- 在 Prompt 专项练习里,你们认为最有用的技巧是什么
- 你们观察到的一个典型失败案例是什么,它暴露了模型的什么边界
- 你们选的哪一项内容最贴近自己的专业 / 课题,它的效果怎样
- 在 Prompt 专项练习里,你们最成功的一次 Prompt 改写是什么,为什么
- 哪一个问题让你们意识到“只改 Prompt 不够,应该加 tool、RAG 或训练”
这份练习真正想让你带走什么
- 预训练模型的能力不是单一的“会聊天”,而是可以拆成很多可观察的子能力。
- 同一个模型在不同提示条件下,表现会明显变化。
- 预训练提供的是底座能力,而上下文、示例和多模态输入会进一步塑造它的表现。
- Prompt 不是一句“神奇咒语”,而是任务定义、上下文组织和约束设计。
- Prompt 是运行时接口,不是新的训练阶段;它能调动能力,但不能凭空创造能力。
- 把模型放进自己的专业场景里测试,才更容易看出它是真懂,还是只是会说。