CMU 11-868: Large Language Model Systems
课程简介
- 所属大学:Carnegie Mellon University
- 先修要求:强烈建议已修读 Deep Learning (11785) 或 Advanced NLP (11-611 或 11-711)
- 编程语言:Python
- 课程难度:🌟🌟🌟🌟
- 预计学时:120 学时
该课程面向研究生开设,聚焦“从算法到工程”的大语言模型系统构建全过程。课程内容包括但不限于:
- GPU 编程与自动微分:掌握 CUDA kernel 调用、并行编程基础,以及深度学习框架设计原理。
- 模型训练与分布式系统:学习高效的训练算法、通信优化(ZeRO、FlashAttention)、分布式训练框架(DDP、GPipe、Megatron-LM)。
- 模型压缩与加速:量化(GPTQ)、稀疏化(MoE)、编译技术(JAX、Triton)、以及推理时的服务化设计(vLLM、CacheGen)。
- 前沿技术与系统实践:涵盖检索增强生成(RAG)、多模态 LLM、RLHF 系统,以及端到端的在线维护和监控。
与同类课程相比,本课程的优势在于紧密结合最新论文与开源实现(通过 miniTorch 框架动手扩展 CUDA 支持);项目驱动的作业体系(五次编程作业 + 期末大项目);以及工业嘉宾讲座,能让学生近距离了解真实世界中 LLM 工程实践的挑战与解决方案。
自学建议:
- 提前配置好支持 CUDA 的开发环境(NVIDIA GPU + CUDA Toolkit + PyTorch)。
- 复习并行计算和深度学习基础(自动微分、张量运算)。
- 阅读每次课前指定的论文与幻灯片,跟着作业把 miniTorch 框架从纯 Python 拓展到真实 CUDA 内核。
该课程要求你对深度学习有一定的预备知识,不适合纯小白入手,可见 FAQ 的先修要求。 实验总体来说是有难度的,主要内容如下:
- Assignment1: 自动微分框架 + CUDA 手写算子 + 基础神经网络构建
- Assignmant2: GPT2 模型构建
- Assignment3: 通过手写 CUDA 的 Softmax 和 LayerNorm 算子优化模型训练速度
- Assignment4: 分布式模型训练,自学的话可能不太好配置环境
课程资源
- 课程网站:https://llmsystem.github.io/llmsystem2025spring/
- 课程大纲:https://llmsystem.github.io/llmsystem2025spring/docs/Syllabus/
- 课程作业:https://llmsystem.github.io/llmsystem2025springhw/
- 课程教材:精选论文 + 《Programming Massively Parallel Processors, 4th Ed》 部分章节