代码拉取完成,页面将自动刷新
在深度学习中,当数据集和参数量的规模越来越大,训练所需的时间和硬件资源会随之增加,最后会变成制约训练的瓶颈。分布式并行训练,可以降低对内存、计算性能等硬件的需求,是进行训练的重要优化手段。根据并行的原理及模式不同,业界主流的并行类型有以下几种:
目前MindSpore提供下述的四种并行模式:
DATA_PARALLEL
:数据并行模式。
AUTO_PARALLEL
:自动并行模式,融合了数据并行、算子级模型并行的分布式并行模式,可以自动建立代价模型,找到训练时间较短的并行策略,为用户选择合适的并行模式。当前MindSpore支持算子级并行策略的自动搜索,提供了如下的三种不同的策略搜索算法:
dynamic_programming
:动态规划策略搜索算法。能够搜索出代价模型刻画的最优策略,但在搜索巨大网络模型的并行策略时耗时较长。其代价模型是围绕Ascend 910芯片基于内存的计算开销和通信开销对训练时间建模。recursive_programming
:双递归策略搜索算法。对于巨大网络以及大规模多卡切分能够保证瞬间生成最优策略。其基于符号运算的代价模型可以自由适配不同的加速器集群。sharding_propagation
:切分策略传播算法。由配置并行策略的算子向未配置的算子传播并行策略。在传播时,算法会尽量选取引发张量重排布通信最少的策略。关于算子的并行策略配置和张量重排布,可参考这篇设计文档。SEMI_AUTO_PARALLEL
:半自动并行模式,相较于自动并行,该模式需要用户对算子手动配置切分策略实现并行。
HYBRID_PARALLEL
:在MindSpore中特指用户通过手动切分模型实现混合并行的场景。
MindSpore为您提供了一系列简单易用的并行训练组件。为了更好的了解MindSpore的分布式并行训练组件,我们建议您按照以下顺序阅读本教程。
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。