Fused MLP

特性介绍

在开启了TP和SP的大模型训练场景下，MLP Column反向的gather通信并不依赖RoW、swiglu等反向计算，可以优先处理，从而通过调整通信和计算的顺序，减少等待闲置时间，提高利用率。

RC2以上版本，当开启模型并行（TP）及序列并行（SP）时，通过设置--use-fused-mlp启用MLP融合加速。

适合序列长度1k以内场景，7B参数量或8K以上序列场景收益有限。以下为模型在单机八卡场景，TP=8，PP=1，开启sequence-parallel，MC2特性下性能验证结果。

模型	序列	基线吞吐 TFLOP/s/GPU	优化吞吐 TFLOP/s/GPU	性能提升
Llama2-7B-sft	动态	408.2	452.91	11.0%
Llama2-7B-sft	1k	86.69	96.49	11.3%
Llama2-7B-sft	2k	134.23	136.29	1.5%
Llama2-7B-sft	4k	152.43	155.95	2.3%
Llama2-7B-sft	8k	153.05	157.74	3.1%
Llama2-13B-sft	动态	695.05	754.30	8.5%