代码拉取完成,页面将自动刷新
在开启了TP和SP的大模型训练场景下,MLP Column反向的gather通信并不依赖RoW、swiglu等反向计算,可以优先处理,从而通过调整通信和计算的顺序,减少等待闲置时间,提高利用率。
RC2以上版本,当开启模型并行(TP)及序列并行(SP)时,通过设置--use-fused-mlp启用MLP融合加速。
适合序列长度1k以内场景,7B参数量或8K以上序列场景收益有限。以下为模型在单机八卡场景,TP=8,PP=1,开启sequence-parallel,MC2特性下性能验证结果。
模型 | 序列 | 基线吞吐 TFLOP/s/GPU | 优化吞吐 TFLOP/s/GPU | 性能提升 |
---|---|---|---|---|
Llama2-7B-sft | 动态 | 408.2 | 452.91 | 11.0% |
Llama2-7B-sft | 1k | 86.69 | 96.49 | 11.3% |
Llama2-7B-sft | 2k | 134.23 | 136.29 | 1.5% |
Llama2-7B-sft | 4k | 152.43 | 155.95 | 2.3% |
Llama2-7B-sft | 8k | 153.05 | 157.74 | 3.1% |
Llama2-13B-sft | 动态 | 695.05 | 754.30 | 8.5% |
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。