流水线并行
中间的bubble是 向前传播以后,等向后传播的时间。越是靠前的层次等得越久。
张量并行
优点是没有bubble浪费。缺点是需要针对不同网络结构不同设计。
Cons: Different blocks are better split differently, lots of customizations
需要的通信:All-gather of partial activations and gradients for each split tensor(所有激活、梯度都要全部汇集)
两者也可以结合用
(2021)
参考
Scaling Up LLM Pretraining: Parallel Training
Chenyan Xiong
11-667