197 Star 1.3K Fork 1.2K

GVPAscend/MindSpeed-LLM

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
文件
ci
configs
docs
mindspore
pytorch
features
cc_lora.md
communication-over-computation.md
deterministic_computation.md
environment_variable.md
fine-tuning-with-context-parallel.md
fused_mlp.md
mc2.md
o2.md
profiling.md
recompute_relative.md
ring-attention-context-parallel.md
tensor_parallel_2d.md
variable_length_flash_attention.md
virtual_pipeline_parallel.md
yarn.md
models
solutions
install_guide.md
quick_start.md
readme.md
examples
mindspeed_llm
sources/images
tests
.gitignore
LICENSE
OWNERS
README.md
SECURITYNOTE.md
Third_Party_Open_Source_Software_Notice
convert_ckpt.py
evaluation.py
img.png
inference.py
posttrain_gpt.py
preprocess_data.py
pretrain_gpt.py
pretrain_mamba.py
requirements.txt
setup.py
克隆/下载
deterministic_computation.md 669 Bytes
一键复制 编辑 原始数据 按行查看 历史
jzh 提交于 2个月前 . !2911[pytorch][bugfix]update

确定性配置是使集群在相同拓扑前提下,当输入相同输入情况下,过程动作相同,得到相同输出。

昇腾芯片默认采用了不确定计算加速模型训练,有时为了重复实验与对比实验需要确定性的计算结果,MindSpeed-LLM配置使能确定性计算的开关如下:

  • 启动命令中加入开关
--use-deter-comp
  • 环境变量中加入开关
export HCCL_DETERMINISTIC=True

如果配置 HCCL_LOGIC_SUPERPOD_ID,集群通过 ROCE 通讯时,集群拓扑关系发生变化,集合通信也会产生不同行为,通讯算法的逻辑有区别,两者确定性方案不统一。

Loading...
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
Python
1
https://gitee.com/ascend/MindSpeed-LLM.git
git@gitee.com:ascend/MindSpeed-LLM.git
ascend
MindSpeed-LLM
MindSpeed-LLM
2.1.0

搜索帮助