大模型原理与应用
Principles and Applications of Foundation Models
2026 年春季
陈一帅
yschen@bjtu.edu.cn
北京交通大学电信学院
课程讲稿:https://yishuai.github.io/talk/ai-model/model.html
简介
这门课围绕大模型的原理、训练、系统与应用展开,目标是帮助学生建立一套完整、可迁移的知识框架。课程既讨论 Transformer、tokenization、预训练、微调和对齐等模型层面的核心问题,也覆盖计算资源、并行训练、推理部署、数据处理与评测等工程层面的关键环节。
课程内容覆盖从 AI 基础回顾、Transformer 机制、预训练与提示方法,到 Agent 系统、多 Agent 协作、微调、对齐后训练、多模态、时间序列 Foundation Model,以及 CS336 公开课中的模型架构、MoE、GPU、并行、scaling laws、数据治理和 RLVR 等主题;同时还结合 AI 项目开发实践,把提示词、规划、设计、实现与交付串成一条完整链路。
课程希望学生在完成学习后,不仅能够调用和评估大模型,还能够理解其关键结构、掌握基本训练、调试与系统优化方法,并进一步将这些方法迁移到通信、图像、时序、智能体和项目开发等具体场景中,形成面向实际问题的建模、实现与判断能力。
内容
- 🎓 课程导论|课程地图与学习方法(PDF)
- 🧭 AI 基础回顾|从机器学习到大模型(PDF)
- 准备
- 电脑实验环境准备:先把 VS Code、Anaconda、PyTorch 和 Jupyter 这些工具装顺。
- 练习
- 作业
- 检查
- 🧠 Transformer 核心机制|注意力、结构与训练(PDF)
- 🧠 预训练|大模型能力的起点(PDF)
- 🤖 Agent 系统|工具、记忆、工作流与评测(PDF)
- 练习
- 本地 `Ollama + qwen + PydanticAI` 工具调用 Agent
- 说明:先告诉你这套 demo 在干什么、怎么最快跑起来。
- 代码说明:一块块看本地 Ollama、PydanticAI 和工具调用怎么接上。
- OpenAI Provider 简洁写法:看看怎么把模型接入这层写得更省事。
- 作业
- 作业手册:拿课程 demo 改成一个和自己专业有关的小型 agent。
- 检查
- 扩展
- 多 Agent 的完整内容已经单独提到后面一节了,方便和单 Agent 对照着看。
- 👥 多 Agent 系统|CrewAI、分工协作与工作流(PDF)
- 练习
- 进阶练习
- 作业
- 作业手册:把多 Agent 这套分工思路,自己改成一个能讲清楚的项目。
- 检查
- Exit Ticket:看看你是不是已经能分清 agent、task、crew、flow 和 process 了。
- 🧩 微调|让基础模型真正可用(PDF)
- 准备
- 练习
- 讲义
- 作业
- 作业手册:围绕 Hugging Face 微调文章做一次“复现 + 解释”。
- 检查
- 🎯 对齐与 RL 后训练|偏好学习、奖励设计与推理优化(PDF)
- 练习
- 作业
- 作业手册:基于两份 GRPO notebook,自己设计一个小型奖励实验。
- 检查
- 小结
- 🖼️ 多模态大模型|视觉、语言与跨模态理解(PDF)
- 练习
- 作业
- 作业手册:围绕同一组图片做几轮提问,看看模型会不会跑偏。
- 检查
- 📡 行业应用实践|时间序列 Foundation 模型(PDF)
- 📚 专题拓展 I:学术前沿
- 🧪 专题拓展 II:技术前沿
- 🚀 专题拓展 III:应用前沿
- AI 企业级项目开发实践(PDF):提示词驱动选题、规划、实现与交付
- 企业开发流程
- 产品开发流程
- 练习
- 练习手册:把想法一路推进到计划和设计,看看它能不能真的落地。
- 检查
- 参考与致谢
- agent-skills:谢谢 Addy Osmani,这个项目给了我们不少把工作流“技能化”的灵感。
- gstack:谢谢 Garry Tan,gstack 让 AI / agent 工具链的组织方式更直观。
- superpowers:谢谢 Obra,superpowers 这套提示词和流程很值得借鉴。
这门课能带你做什么
- 建立一套从模型原理到系统实现的整体知识框架,理解 Transformer、MoE、scale law、RLHF、RLVR 和数据治理等关键主题之间的关系。
- 具备从 tokenization、训练、评测、推理到部署的基本动手能力,能够把课堂方法迁移到真实的实验与项目中。
- 理解大模型在算力、显存、并行、通信和数据成本上的主要瓶颈,知道为什么一个模型“做得出来”不等于“做得划算”。
- 掌握 Agent、多 Agent 和 AI 项目开发中的基本设计思路,能够把提示词、规划、设计、实现和交付串成一条完整流程。
- 在学习技术的同时建立科研视野、工程判断与责任意识,理解国产生态、模型安全、评测边界与数据治理的重要性。
适合谁来听
- 通信工程、人工智能、新一代电子信息技术、计算机及相关专业的研究生与高年级本科生。
- 已经具备机器学习、深度学习与 Python 基础,希望系统补上“大模型这一层”的学习者。
- 对模型训练、推理优化、数据处理、Agent 系统或多模态应用感兴趣,希望把原理和工程实践连起来的人。
- 希望将大模型用于通信、图像、时序、运维、信息处理或 AI 项目开发场景的学生与研究人员。
开课前最好会这些
- 数学基础:线性代数、概率论与数理统计
- 编程基础:Python
- 框架基础:PyTorch 或 TensorFlow
- 课程基础:机器学习、深度学习
怎么算成绩
- 课堂参与与讨论:10%
- 文献阅读与综述:20%
- 上机实验与报告:30%
- 课程项目设计:40%
顺手资料
课程内容会跟着授课进度继续补充,边上课边长出来。