登录
注册
开源
企业版
高校版
搜索
帮助中心
使用条款
关于我们
开源
企业版
高校版
私有云
模力方舟
AI 队友
登录
注册
轻量养虾,开箱即用!低 Token + 稳定算力,Gitee & 模力方舟联合出品的 PocketClaw 正式开售!点击了解详情~
代码拉取完成,页面将自动刷新
仓库状态说明
开源项目
>
其他开源
>
图书/手册/教程
&&
人工智能
>
机器学习/深度学习
&&
捐赠
捐赠前请先登录
取消
前往登录
扫描微信二维码支付
取消
支付完成
支付提示
将跳转至支付宝完成支付
确定
取消
Watch
不关注
关注所有动态
仅关注版本发行动态
关注但不提醒动态
368
Star
1.6K
Fork
1.1K
MindSpore
/
docs
关闭
代码
Issues
1
Pull Requests
2
Wiki
统计
流水线
服务
JavaDoc
PHPDoc
质量分析
Jenkins for Gitee
腾讯云托管
腾讯云 Serverless
悬镜安全
阿里云 SAE
Codeblitz
SBOM
开发画像分析
我知道了,不再自动展开
更新失败,请稍后重试!
移除标识
内容风险标识
本任务被
标识为内容中包含有代码安全 Bug 、隐私泄露等敏感信息,仓库外成员不可访问
关于多机多卡分布式训练mpirun没讲清楚
DONE
#I6P0FI
RFC
CSH
创建于
2023-03-21 20:27
<!-- Thanks for sending an issue! Here are some tips for you: 1) If this is your first time, please read our contributor guidelines: https://gitee.com/mindspore/mindspore/blob/master/CONTRIBUTING.md 2) If you want to get the answer quickly, please add label `mindspore-assistant` to the issue, we will find it and answer you as soon as possible. --> 1. 【Document Link】/【文档链接】 https://www.mindspore.cn/tutorials/experts/zh-CN/r1.9/parallel/train_ascend.html#%E5%A4%9A%E6%9C%BA%E5%A4%9A%E5%8D%A1%E8%AE%AD%E7%BB%83-1 2. 【Issues Section】/【问题文档片段】 多机多卡训练 在运行多机多卡训练前,需要保证每个节点上都有相同的OpenMPI、Python以及MindSpore版本和安装路径。并且节点之间设置好ssh无密码登录,ssh无密码登录设置方式可以参考GPU配置分布式环境。 OpenMPI多机训练一般采用配置hostfile的方式,在mpirun命令行参数中加--hostfile filepath。hostfile文件每一行格式为[hostname] slots=[slotnum],hostname可以是ip或者主机名,slotnum代表该机启动的子进程数目。 3. 【Existing Issues】/【存在的问题】 关于mpirun的部分讲的太模糊 hostfile是什么看不懂,需要讲一下如何获取并给一个具体样例 4. 【Expected Result】【预期结果】 跟着一步步做可以做出来不会懵掉 - Please fill in the expected result
<!-- Thanks for sending an issue! Here are some tips for you: 1) If this is your first time, please read our contributor guidelines: https://gitee.com/mindspore/mindspore/blob/master/CONTRIBUTING.md 2) If you want to get the answer quickly, please add label `mindspore-assistant` to the issue, we will find it and answer you as soon as possible. --> 1. 【Document Link】/【文档链接】 https://www.mindspore.cn/tutorials/experts/zh-CN/r1.9/parallel/train_ascend.html#%E5%A4%9A%E6%9C%BA%E5%A4%9A%E5%8D%A1%E8%AE%AD%E7%BB%83-1 2. 【Issues Section】/【问题文档片段】 多机多卡训练 在运行多机多卡训练前,需要保证每个节点上都有相同的OpenMPI、Python以及MindSpore版本和安装路径。并且节点之间设置好ssh无密码登录,ssh无密码登录设置方式可以参考GPU配置分布式环境。 OpenMPI多机训练一般采用配置hostfile的方式,在mpirun命令行参数中加--hostfile filepath。hostfile文件每一行格式为[hostname] slots=[slotnum],hostname可以是ip或者主机名,slotnum代表该机启动的子进程数目。 3. 【Existing Issues】/【存在的问题】 关于mpirun的部分讲的太模糊 hostfile是什么看不懂,需要讲一下如何获取并给一个具体样例 4. 【Expected Result】【预期结果】 跟着一步步做可以做出来不会懵掉 - Please fill in the expected result
评论 (
2
)
登录
后才可以发表评论
状态
DONE
VALIDATION
CLOSED
TODO
ACCEPTED
WIP
DONE
REJECTED
负责人
未设置
baihuawei
huaweib
负责人
协作者
+负责人
+协作者
wuweikang
HW_KK
负责人
协作者
+负责人
+协作者
huangxinjing
huangxinjing
负责人
协作者
+负责人
+协作者
标签
parallel
kind/usability
documentation
未设置
项目
未立项任务
未立项任务
里程碑
未关联里程碑
未关联里程碑
Pull Requests
未关联
未关联
关联的 Pull Requests 被合并后可能会关闭此 issue
分支
未关联
分支 (
-
)
标签 (
-
)
开始日期   -   截止日期
-
置顶选项
不置顶
置顶等级:高
置顶等级:中
置顶等级:低
优先级
不指定
严重
主要
次要
不重要
预计工期
(小时)
参与者(4)
1
https://gitee.com/mindspore/docs.git
git@gitee.com:mindspore/docs.git
mindspore
docs
docs
点此查找更多帮助
搜索帮助
Git 命令在线学习
如何在 Gitee 导入 GitHub 仓库
Git 仓库基础操作
企业版和社区版功能对比
SSH 公钥设置
如何处理代码冲突
仓库体积过大,如何减小?
如何找回被删除的仓库数据
Gitee 产品配额说明
GitHub仓库快速导入Gitee及同步更新
什么是 Release(发行版)
将 PHP 项目自动发布到 packagist.org
仓库举报
回到顶部
登录提示
该操作需登录 Gitee 帐号,请先登录后再操作。
立即登录
没有帐号,去注册