预训练模型能力课堂练习

这份练习的目标

这一组练习不是为了“考倒模型”，而是为了让大家亲手观察：

预训练模型已经具备哪些基础能力
这些能力分别表现在哪些任务上
同一个任务在“零样本 -> 加上下文 -> 加 few-shot -> 加图片”时会怎样变化

建议使用本地模型：

qwen3.5:0.8b

如果你的电脑带不动，也可以和同学两人一组完成。

练习要求

每一类任务至少保留 1 组 prompt 和 1 组输出
每做完一类任务，都写 1 到 2 句话观察
不要求模型一定答对，重点是比较它“擅长什么、容易错在哪里”
至少有 1 组任务必须来自你自己的专业 / 课题方向

例如：

通信方向：信号、频谱、调制、信道、基站、协议
电子信息方向：电路、器件、实验平台、测试流程
人工智能方向：模型结构、训练流程、评测结果
其他方向：请选你熟悉的专业概念、场景或文本材料

第一部分：10 类基础任务

任务 1：续写能力

目标：观察模型最基本的 language modeling 能力。
示例 prompt：

“春天来了，校园里最先变化的是……”
“The capital of France is …”

记录什么：

它是否续写流畅
是否符合语法
是否会掉进套话

任务 2：风格模仿与改写

目标：观察模型是否学到了语言风格分布。
示例 prompt：

“请把这段话改写得更正式。”
“请把这段话改写成大一学生能听懂的版本。”
“请把这段话压缩成三句话。”

记录什么：

它是否真的改了风格
内容是否保持基本一致

任务 3：基础知识问答

目标：观察模型的常识和课程知识记忆。
示例 prompt：

“什么是 Transformer？”
“什么是预训练？”
“BERT 和 GPT 的主要差别是什么？”

记录什么：

回答是否像在“解释概念”
是否会出现明显幻觉

建议你额外加一个本专业问题，例如：

请解释什么是频谱泄漏。
请解释 OFDM 为什么适合无线通信。
请解释这条实验曲线可能反映了什么现象。

任务 4：上下文理解

目标：观察模型是否能利用给定上下文。
示例做法：

先给一小段文字，再问：

“这段话里的‘他’指的是谁？”
“这段文字最主要的信息是什么？”

记录什么：

它是否真的依赖上下文，而不是只看问题表面

任务 5：完形填空 / 上下文预测

目标：观察模型对词语搭配和局部语义的把握。
示例 prompt：

“北京是中国的___。”
“猫抓老鼠，狗看___。”
“在 NLP 里，BERT 更擅长___任务。”

记录什么：

它补出的词是否自然
是不是能看出上下文约束

任务 6：分类能力

目标：观察预训练表示向下游任务迁移的效果。
示例 prompt：

“请判断这条评论是正面还是负面，并说明原因。”
“请判断这段文本更像体育、科技还是娱乐新闻。”

记录什么：

它是否能给出分类
它的理由是否合理

任务 7：摘要能力

目标：观察模型是否能压缩和提炼信息。
示例 prompt：

“请把下面这段话总结成一句话。”
“请提炼出 3 个要点。”

记录什么：

它是否抓住了主线
是否出现无关扩展

如果可能，优先选一段本专业材料：

论文摘要
项目说明
实验记录
技术报告中的一段说明

任务 8：翻译与跨语言能力

目标：观察预训练模型的多语言迁移能力。
示例 prompt：

“请把这句话翻译成英文。”
“请把这段英文翻译成中文，并保持学术语气。”

记录什么：

翻译是否自然
术语是否稳定

第二部分：同一任务，逐步加难

这一部分是本次课堂最重要的练习。
请围绕同一个主题，比如“预训练为什么重要”，做下面 4 轮对比。

第 1 轮：零样本

直接问：

“请解释什么是预训练，以及它为什么改变了 NLP。”

观察：

回答是否完整
是否容易空泛

第 2 轮：加上下文

先给一小段课程文字，再问同样的问题。
例如你可以先贴一段关于 GPT / BERT / T5 的说明。

观察：

回答是否更贴近你给的上下文
是否减少“泛泛而谈”

建议至少有一轮改成：

先给一段你本专业的课件、论文摘要、项目说明或实验记录
再问模型解释、总结或分类

第 3 轮：加 few-shot 示例

先给两个示例：

示例 1：问题 + 一个你认可的简洁回答
示例 2：问题 + 一个你认可的简洁回答

再给第 3 个问题：

“请按上面的风格，解释为什么 Transformer 适合做大规模预训练。”

观察：

输出格式是否更稳定
回答风格是否更像你给的示例

第 4 轮：加图片

如果主题允许，就加入一张图，例如：

模型结构图
世界地图鸡块图
一个带文本的教学图示

再问：

“请结合图像解释这张图想表达什么。”

观察：

模型是否能把视觉信息和文字问题结合起来

第三部分：Prompt 专项练习

这一部分对应本章新补充的内容。
目标不是“找到神奇咒语”，而是亲手看到：

Prompt 是怎样把预训练能力调出来的
Prompt 能改善什么
Prompt 又解决不了什么

练习 1：同一任务，zero-shot 和 few-shot 对比

请选择一个简单任务，例如：

情感分类
新闻分类
课程概念解释
本专业概念分类或术语解释

先做 zero-shot：

请判断下面这句话是正面还是负面，并说明原因：这家餐厅环境很好，但上菜很慢。

再做 few-shot：

先给 2 到 3 个“输入 -> 输出”示例
再给一个新例子，让模型照着做

记录什么：

few-shot 是否比 zero-shot 更稳定
输出格式是否更一致
模型是否真的“跟着例子学”

练习 2：Prompt template 练习

请把一个随意提问，改写成更完整的 Prompt template。

例如把：

解释一下 Transformer

改成：

角色：你是一名课程助教
任务：向大一学生解释 Transformer
约束：不要用公式
输出格式：先一句话，再列 3 个关键点

记录什么：

template 后的回答是否更稳定
输出格式是否更容易控制

练习 3：直接回答 vs Chain-of-Thought

请选择一个需要多步思考的问题，例如：

一道简单数学题
一道常识推理题
一道课程概念比较题

先直接问：

请直接给出答案。

再要求模型一步一步思考：

请一步一步思考，再给出答案。
Let's think step by step.

记录什么：

CoT 是否让答案更完整
它有没有真的减少错误
回答只是变长了，还是变清楚了

练习 4：Prompt 的失败案例

请故意设计一个 Prompt，让模型仍然做不好。

可以尝试：

一个超出它知识边界的问题
一个格式要求很复杂的问题
一个非常容易产生幻觉的问题
一个小模型本来就难做好的推理任务

记录什么：

问题出在 Prompt 不清楚，还是模型能力不够
如果继续改 Prompt，问题有没有真正解决

如果可以，优先找一个本专业失败案例。
这样你更容易判断：

它是真的不懂领域知识
还是只是领域表达太复杂

练习 5：用一句话区分 Prompt 和训练

请每位同学都写一句自己的总结：

Prompt 在做什么？
它和“重新训练模型”最大的区别是什么？

建议句式：

Prompt 更像是在______；训练更像是在______。

练习 6：角色 Prompt 小实验

选一个同样的问题，分别让模型扮演：

严谨的课程助教
通信系统工程师
面向新生的科普讲解员

例如：

请解释什么是频谱泄漏。
请解释为什么大模型需要预训练。

记录什么：

角色变化后，回答的语气和重点是否真的变化
role prompting 带来的是“风格变化”，还是“内容质量变化”

练习 7：结构化 Prompt 小实验

请把同一个任务分别写成两种版本：

自然语言一段话
明确分区的结构化 prompt

例如：

<task>...</task>
<context>...</context>
<output_format>...</output_format>

记录什么：

结构化之后，模型是否更少漏掉要求
对复杂输入时，结构化是否更有帮助

练习 8：Self-consistency 小实验

请选一道容易出现不同答案的题，例如：

一道简单推理题
一道程序 bug 定位题
一道容易答得很满但不一定稳的课程问题

做法：

用同一个 prompt 连续问模型 3 到 5 次
看它的答案是否一致

如果模型支持采样参数，也可以适当提高随机性。

记录什么：

哪些问题答案很稳定
哪些问题会出现多种 reasoning path
多问几次有没有帮你更快识别“不稳的答案”

练习 9：Tool / RAG / Reflexion 场景判断

下面三类问题，请判断更适合：

只靠 prompt
加 tool use
加 RAG
加 reflexion

你可以自己选题，也可以用这几个例子：

帮我计算一条链路的 SNR 和容量
根据这段公司内部文档回答问题
请检查你刚才的答案是否有逻辑漏洞

记录什么：

哪些问题再怎么改 prompt 也不该只靠模型猜
什么时候应该把问题升级成“系统设计”

最后要交什么

每组提交一页简短记录，包含：

你们选了哪些任务
每类任务最有代表性的 1 组 prompt 和输出
你们认为模型最强的 2 项能力
你们认为模型最容易出问题的 2 个地方
在“零样本 -> 加上下文 -> 加 few-shot -> 加图片”的对比中，你们看到的最大变化是什么
在 Prompt 专项练习里，你们认为最有用的技巧是什么
你们观察到的一个典型失败案例是什么，它暴露了模型的什么边界
你们选的哪一项内容最贴近自己的专业 / 课题，它的效果怎样
在 Prompt 专项练习里，你们最成功的一次 Prompt 改写是什么，为什么
哪一个问题让你们意识到“只改 Prompt 不够，应该加 tool、RAG 或训练”

这份练习真正想让你带走什么

预训练模型的能力不是单一的“会聊天”，而是可以拆成很多可观察的子能力。
同一个模型在不同提示条件下，表现会明显变化。
预训练提供的是底座能力，而上下文、示例和多模态输入会进一步塑造它的表现。
Prompt 不是一句“神奇咒语”，而是任务定义、上下文组织和约束设计。
Prompt 是运行时接口，不是新的训练阶段；它能调动能力，但不能凭空创造能力。
把模型放进自己的专业场景里测试，才更容易看出它是真懂，还是只是会说。