338 Star 1.5K Fork 883

MindSpore/docs

Create your Gitee Account
Explore and code with more than 12 million developers,Free private repositories !:)
Sign up
Clone or Download
recover.rst 1.57 KB
Copy Edit Raw Blame History
宦晓玲 authored 2023-11-25 16:14 . modify the format of rst files 2.3

故障恢复

查看源文件
.. toctree::
  :maxdepth: 1
  :hidden:

  disaster_recover
  fault_recover

在分布式并行训练过程中,遇到计算节点的故障或通信中断等问题,MindSpore有三种恢复方式:

  • 模型重新加载:在训练时,通过配置参数合并保存,每张卡均保存了完整的模型参数文件,发生故障后可以直接加载之前保存的checkpoint进行恢复。详细请参考模型保存与加载中的 模型加载
  • 动态组网场景下故障恢复:在动态组网启动场景下,若某个进程出现故障,其他进程会进入等待状态,可以通过重新拉起故障进程使得训练任务继续进行,而无需重启集群(目前仅支持GPU硬件平台)。
  • 基于冗余信息的故障恢复:在大模型训练中,根据数据并行的维度所划分的设备,他们的模型参数是相同的。根据这个原理,可以利用这些冗余的参数信息作为备份,在一个节点故障时,利用相同参数的另一节点就可以恢复故障的节点。
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
1
https://gitee.com/mindspore/docs.git
git@gitee.com:mindspore/docs.git
mindspore
docs
docs
master

Search