200 Star 1.3K Fork 1.2K

GVPAscend/MindSpeed-LLM

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
文件
克隆/下载
fused_mlp.md 1.23 KB
一键复制 编辑 原始数据 按行查看 历史
jzh 提交于 3个月前 . !2673docs readme modify

Fused MLP

特性介绍

在开启了TP和SP的大模型训练场景下,MLP Column反向的gather通信并不依赖RoW、swiglu等反向计算,可以优先处理,从而通过调整通信和计算的顺序,减少等待闲置时间,提高利用率。

使用方法

RC2以上版本,当开启模型并行(TP)及序列并行(SP)时,通过设置--use-fused-mlp启用MLP融合加速。

使用效果

适合序列长度1k以内场景,7B参数量或8K以上序列场景收益有限。以下为模型在单机八卡场景,TP=8,PP=1,开启sequence-parallel,MC2特性下性能验证结果。

模型 序列 基线吞吐 TFLOP/s/GPU 优化吞吐 TFLOP/s/GPU 性能提升
Llama2-7B-sft 动态 408.2 452.91 11.0%
Llama2-7B-sft 1k 86.69 96.49 11.3%
Llama2-7B-sft 2k 134.23 136.29 1.5%
Llama2-7B-sft 4k 152.43 155.95 2.3%
Llama2-7B-sft 8k 153.05 157.74 3.1%
Llama2-13B-sft 动态 695.05 754.30 8.5%
Loading...
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
Python
1
https://gitee.com/ascend/MindSpeed-LLM.git
git@gitee.com:ascend/MindSpeed-LLM.git
ascend
MindSpeed-LLM
MindSpeed-LLM
2.1.0

搜索帮助