CMU 15-779: Advanced Topics in Machine Learning Systems (LLM Edition)

课程简介

所属大学：Carnegie Mellon University
先修要求：无硬性先修要求；建议具备机器学习入门与深度学习训练经验，熟悉 PyTorch；了解 CUDA/GPU 基础会显著提升学习效率
编程语言：Python（系统与算子层面内容可能涉及 CUDA/硬件概念）
课程难度：4/5
预计学时：80-120 学时

这门课从系统视角系统性回答一个核心问题：一个用高层框架（例如 PyTorch）写出来的模型，是如何被分解为底层 kernel，并在异构硬件加速器（GPU/TPU）与分布式环境中高效执行的。课程覆盖 GPU 编程、ML 编译器、图级优化、分布式训练与自动并行化、LLM Serving 与推理加速等主题，强系统导向，适合希望把“框架层经验”向“算子/编译/硬件/集群执行”打通的人。

从教学组织上，这门课会要求你持续完成课前论文阅读（paper review / reading assignments），并以小组形式完成期末系统类课程项目（proposal、presentation、report），因此自学时建议把它当成一个“按周推进的系统训练营”，而不是只看几份 slide。

课程内容

课程内容以 lecture 为主线，主题大致包括：

ML 系统基础：以 TensorFlow/PyTorch 为例理解计算图、执行模型与系统抽象
GPU 架构与 CUDA 编程：硬件与编程模型、内存与性能优化要点
Transformer 与 Attention 案例：FlashAttention 等 IO-aware attention 优化思路
高级 CUDA 编程：warp specialization、mega kernel 等低延迟/高吞吐优化技术
ML 编译：Tile-based DSL（Triton 等）、内核自动调优（Ansor 等）、图级优化（TASO/PET 等）、超优化（Mirage）
并行化与分布式训练：ZeRO/FSDP、模型/流水线并行、自动并行化（Alpa 等）
LLM 推理与服务：批处理、PagedAttention、RadixAttention、推测解码等
后训练与模型结构：参数高效微调（LoRA/QLoRA）、MoE（架构、kernel、并行化）

课程资源

课程网站：https://www.cs.cmu.edu/~zhihaoj2/15-779/
课程安排（含每讲 slide 与阅读列表）：https://www.cs.cmu.edu/~zhihaoj2/15-779/schedule.html
课程讲义（PDF slides）：https://www.cs.cmu.edu/~zhihaoj2/15-779/slides/
课程规则与项目要求（Grading、Paper Review、Course Project）：https://www.cs.cmu.edu/~zhihaoj2/15-779/logistics.html
预备材料（深度学习入门材料汇总）：https://www.cs.cmu.edu/~zhihaoj2/15-779/materials.html