【MindSpore开源实习】MoE（混合专家）中路由策略(optimal_transport路由策略)实现

创建了RFC

修改了描述

原值

【任务分值】 50分 

【背景描述】

Transformer是功能强大的神经网络模型。训练Transformer模型通常需要耗费大量的时间和资源。Transformer的计算主要来自attention层和FFN层，目前已经有不少文献专注于对这两部分进行优化或近似计算来提升模型的计算效率，从而降低训练成本。现在需要在GPU和昇腾上实现attention和FFN的近似计算。

【需求描述】

完成attention近似计算方案梳理；

完成GPU/昇腾下代码开发，实现近似计算；

给出api接口，方便调用。

【环境要求】

硬件平台：GPU/昇腾

软件平台：MindSpore

【编程语言】

python

【产出标准】

近似计算方法可以运行在GPU和昇腾上，训练收敛时间减少15%，GLUE下游任务精度降低少于1%；给出api接口一键调用。

【PR提交地址】

https://gitee.com/mindspore/mindspore.git

【期望完成时间】

2022-8-31

【开发指导】

Attention近似计算：1）CoRe: An Efficient Coarse-refined Training Framework for BERT 2）Efficient content-based sparse attention with routing transformers 3）Fast transformers with clustered attention

FFN 近似计算： oRe: An Efficient Coarse-refined Training Framework for BERT 

【导师及邮箱】

qianjiahong@huawei.com

新值

【任务分值】 50分 

【背景描述】

Transformer是功能强大的神经网络模型。训练Transformer模型通常需要耗费大量的时间和资源。Transformer的计算主要来自attention层和FFN层，目前已经有不少文献专注于对这两部分进行优化或近似计算来提升模型的计算效率，从而降低训练成本。现在需要在GPU和昇腾上实现attention和FFN的近似计算。

【需求描述】

完成attention近似计算方案梳理；

完成GPU/昇腾下代码开发，实现近似计算；

给出api接口，方便调用。

【环境要求】

硬件平台：GPU/昇腾

软件平台：MindSpore

【编程语言】

python

【产出标准】

近似计算方法可以运行在GPU和昇腾上，训练收敛时间减少15%，GLUE下游任务精度降低少于1%；给出api接口一键调用。

【PR提交地址】

https://gitee.com/mindspore/mindspore.git

【期望完成时间】

2022-8-31

【开发指导】

Attention近似计算：1）CoRe: An Efficient Coarse-refined Training Framework for BERT 2）Efficient content-based sparse attention with routing transformers 3）Fast transformers with clustered attention

FFN 近似计算： oRe: An Efficient Coarse-refined Training Framework for BERT 

【导师及邮箱】

qianjiahong@huawei.com

将任务类型从 RFC 修改为Intern

添加了

intern

标签

移除了

intern

标签

添加了

intern

标签

移除了

intern

标签

添加了

intern

标签

添加了

intern-task-assign

标签

移除了

intern

标签

移除了

intern-task-assign

标签

添加了

intern

标签

修改了描述

原值

【任务分值】 50分 

【背景描述】

Transformer是功能强大的神经网络模型。训练Transformer模型通常需要耗费大量的时间和资源。Transformer的计算主要来自attention层和FFN层，目前已经有不少文献专注于对这两部分进行优化或近似计算来提升模型的计算效率，从而降低训练成本。现在需要在GPU和昇腾上实现attention和FFN的近似计算。

【需求描述】

完成attention近似计算方案梳理；

完成GPU/昇腾下代码开发，实现近似计算；

给出api接口，方便调用。

【环境要求】

硬件平台：GPU/昇腾

软件平台：MindSpore

【编程语言】

python

【产出标准】

近似计算方法可以运行在GPU和昇腾上，训练收敛时间减少15%，GLUE下游任务精度降低少于1%；给出api接口一键调用。

【PR提交地址】

https://gitee.com/mindspore/mindspore.git

【期望完成时间】

2022-8-31

【开发指导】

Attention近似计算：1）CoRe: An Efficient Coarse-refined Training Framework for BERT 2）Efficient content-based sparse attention with routing transformers 3）Fast transformers with clustered attention

FFN 近似计算： oRe: An Efficient Coarse-refined Training Framework for BERT 

【导师及邮箱】

qianjiahong@huawei.com

新值

【任务分值】 50分 

【背景描述】

MoE（Mixture of Expert，混合专家）结构是扩展大模型参数量的主要手段。MoE中重要的组件是路由机制（gate），负责把token发送给各个专家。不同的路由机制有不同的通信开销和模型收敛效果。探索高效的路由机制有着重要意义。

【需求描述】

实现MoE中多种路由策略，如ntlb，hashing，optimal_transport等。

【环境要求】

硬件平台：GPU/昇腾

软件平台：MindSpore

【编程语言】

Python

【产出标准】

实现optimal_transport路由策略，并验证正确性；通过Transformer MoE，集成到MindSpore中。

【PR提交地址】

https://gitee.com/mindspore/mindspore.git

【期望完成时间】

2022-8-31

【开发指导】

[1] https://github.com/tensorflow/mesh

[2] https://github.com/tensorflow/lingvo

[3] GShard: Scaling Giant Models with Conditional Computation and Automatic Sharding. https://arxiv.org/abs/2006.16668

[4] Scaling Vision with Sparse Mixture of Experts. https://arxiv.org/abs/2106.05974

【导师及邮箱】

zhangxiaoda@huawei.com

修改了标题

移除了

intern

标签

添加了

intern

标签

添加了

intern-task-assign

标签

移除了

intern

标签

移除了

intern-task-assign

标签

添加了

intern

标签