docs/models/checkpoint.md · RuanZhiXiang/ModelLink - Gitee.com

5月24日 | Gitee Talk 模力方舟 AI 应用沙龙合肥站，多个 AI+ 项目实践分享，跨行业 AI 场景落地，报名现已开启~

forked from Ascend/MindSpeed-LLM

加入 Gitee

与超过 1200万开发者一起发现、参与优秀开源项目，私有仓库也完全免费：）

文件

克隆/下载

checkpoint.md 4.14 KB

MindSpeed-LLM 支持 Huggingface、Megatron-Legacy 以及 Megatron-Core 之间的权重格式互转，具体功能列表如下:

<table>
  <thead>
    <tr>
      <th>源格式</th>
      <th>目标格式</th>
      <th>支持特性</th>
      <th>特性入参</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <td rowspan="12">HuggingFace </td>
      <td rowspan="4">Megatron-Legacy</td>
      <td>张量并行</td>
      <td>--target-tensor-parallel-size</td>
    </tr>
    <tr>
      <td>流水并行</td>
      <td>--target-pipeline-parallel-size</td>
    </tr>
    <tr>
      <td>流水并行动态划分</td>
      <td>--num-layer-list</td>
    </tr>
    <tr>
      <td>虚拟流水并行</td>
      <td>--num-layers-per-virtual-pipeline-stage</td>
    </tr>
    <tr>
      <td rowspan="8">Megatron-Core</td>
      <td>张量并行</td>
      <td>--target-tensor-parallel-size</td>
    </tr>
    <tr>
      <td>流水并行</td>
      <td>--target-pipeline-parallel-size</td>
    </tr>
    <tr>
      <td>流水并行动态划分</td>
      <td>--num-layer-list</td>
    </tr>
    <tr>
      <td>虚拟流水并行</td>
      <td>--num-layers-per-virtual-pipeline-stage</td>
    </tr>
    <tr>
      <td>专家并行</td>
      <td>--target-expert-model-parallel-size</td>
    </tr>
  </tbody>
  <tbody>
    <tr>
      <td rowspan="20">Megatron-Legacy </td>
      <td rowspan="6">Huggingface</td>
      <td>张量并行</td>
      <td>--target-tensor-parallel-size</td>
    </tr>
    <tr>
      <td>流水并行</td>
      <td>--target-pipeline-parallel-size</td>
    </tr>
    <tr>
      <td>LoRA训练模块</td>
      <td>--lora-target-modules</td>
    </tr>
    <tr>
      <td>LoRA权重</td>
      <td>--lora-load</td>
    </tr>
    <tr>
      <td>LoRA r</td>
      <td>--lora-r</td>
    </tr>
    <tr>
      <td>LoRA alpa</td>
      <td>--lora-alpha</td>
    </tr>
    <tr>
      <td rowspan="4">Megatron-Core</td>
      <td>张量并行</td>
      <td>--target-tensor-parallel-size</td>
    </tr>
    <tr>
      <td>流水并行</td>
      <td>--target-pipeline-parallel-size</td>
    </tr>
    <tr>
      <td>流水并行动态划分</td>
      <td>--num-layer-list</td>
    </tr>
    <tr>
      <td>虚拟流水并行</td>
      <td>--num-layers-per-virtual-pipeline-stage</td>
    </tr>
    <tr>
      <td rowspan="6">Megatron-Legacy</td>
      <td>张量并行</td>
      <td>--target-tensor-parallel-size</td>
    </tr>
    <tr>
      <td>流水并行</td>
      <td>--target-pipeline-parallel-size</td>
    </tr>
    <tr>
      <td>LoRA训练模块</td>
      <td>--lora-target-modules</td>
    </tr>
    <tr>
      <td>LoRA权重</td>
      <td>--lora-load</td>
    </tr>
    <tr>
      <td>LoRA r</td>
      <td>--lora-r</td>
    </tr>
    <tr>
      <td>LoRA alpa</td>
      <td>--lora-alpha</td>
    </tr>
  </tbody>
  <tbody>
    <tr>
      <td rowspan="13">Megatron-Core </td>
      <td rowspan="2">Huggingface</td>
      <td>张量并行</td>
      <td>--target-tensor-parallel-size</td>
    </tr>
    <tr>
      <td>流水并行</td>
      <td>--target-pipeline-parallel-size</td>
    </tr>
    <tr>
      <td rowspan="4">Megatron-Legacy</td>
      <td>张量并行</td>
      <td>--target-tensor-parallel-size</td>
    </tr>
    <tr>
      <td>流水并行</td>
      <td>--target-pipeline-parallel-size</td>
    </tr>
    <tr>
      <td>流水并行动态划分</td>
      <td>--num-layer-list</td>
    </tr>
    <tr>
      <td>虚拟流水并行</td>
      <td>--num-layers-per-virtual-pipeline-stage</td>
    </tr>
    <tr>
      <td rowspan="5">Megatron-Core</td>
      <td>张量并行</td>
      <td>--target-tensor-parallel-size</td>
    </tr>
    <tr>
      <td>流水并行</td>
      <td>--target-pipeline-parallel-size</td>
    </tr>
    <tr>
      <td>专家并行</td>
      <td>--target-expert-model-parallel-size</td>
    </tr>
    <tr>
      <td>流水并行动态划分</td>
      <td>--num-layer-list</td>
    </tr>
    <tr>
      <td>虚拟流水并行</td>
      <td>--num-layers-per-virtual-pipeline-stage</td>
    </tr>
  </tbody>
</table>

具体的权重转换功能命令介绍见 [MindSpeed-LLM 大模型使用指南权重下载及转换](../USER_GUIDE.md/#权重下载及转换)章节.

一键复制编辑原始数据按行查看历史

提交于 7个月前 . !1820 修复readme参数名字错误+增加一些参数说明

MindSpeed-LLM 支持 Huggingface、Megatron-Legacy 以及 Megatron-Core 之间的权重格式互转，具体功能列表如下:

源格式	目标格式	支持特性	特性入参
HuggingFace	Megatron-Legacy	张量并行	--target-tensor-parallel-size
		流水并行	--target-pipeline-parallel-size
		流水并行动态划分	--num-layer-list
		虚拟流水并行	--num-layers-per-virtual-pipeline-stage
	Megatron-Core	张量并行	--target-tensor-parallel-size
		流水并行	--target-pipeline-parallel-size
		流水并行动态划分	--num-layer-list
		虚拟流水并行	--num-layers-per-virtual-pipeline-stage
		专家并行	--target-expert-model-parallel-size
		Megatron-Legacy	Huggingface	张量并行	--target-tensor-parallel-size
				流水并行	--target-pipeline-parallel-size
				LoRA训练模块	--lora-target-modules
LoRA权重	--lora-load
LoRA r	--lora-r
LoRA alpa	--lora-alpha
Megatron-Core	张量并行		--target-tensor-parallel-size
	流水并行		--target-pipeline-parallel-size
	流水并行动态划分		--num-layer-list
	虚拟流水并行		--num-layers-per-virtual-pipeline-stage
Megatron-Legacy	张量并行		--target-tensor-parallel-size
	流水并行		--target-pipeline-parallel-size
	LoRA训练模块		--lora-target-modules
	LoRA权重		--lora-load
	LoRA r		--lora-r
	LoRA alpa		--lora-alpha
Megatron-Core	Huggingface		张量并行	--target-tensor-parallel-size
	Huggingface		流水并行	--target-pipeline-parallel-size
	Megatron-Legacy		张量并行	--target-tensor-parallel-size
			流水并行	--target-pipeline-parallel-size
		流水并行动态划分	--num-layer-list
		虚拟流水并行	--num-layers-per-virtual-pipeline-stage
	Megatron-Core	张量并行	--target-tensor-parallel-size
		流水并行	--target-pipeline-parallel-size
		专家并行	--target-expert-model-parallel-size
		流水并行动态划分	--num-layer-list
		虚拟流水并行	--num-layers-per-virtual-pipeline-stage

具体的权重转换功能命令介绍见 MindSpeed-LLM 大模型使用指南权重下载及转换章节.

Loading...

马建仓 AI 助手

尝试更多

代码解读

代码找茬

代码优化

Python

1

https://gitee.com/RyanAlexander/ModelLink.git

git@gitee.com:RyanAlexander/ModelLink.git

RyanAlexander

ModelLink

ModelLink

master