登录
注册
开源
企业版
高校版
搜索
帮助中心
使用条款
关于我们
开源
企业版
高校版
私有云
模力方舟
AI 队友
登录
注册
代码拉取完成,页面将自动刷新
仓库状态说明
开源项目
>
人工智能
&&
捐赠
捐赠前请先登录
取消
前往登录
扫描微信二维码支付
取消
支付完成
支付提示
将跳转至支付宝完成支付
确定
取消
Watch
不关注
关注所有动态
仅关注版本发行动态
关注但不提醒动态
205
Star
1.3K
Fork
1.2K
Ascend
/
MindSpeed-LLM
暂停
代码
Issues
3
Pull Requests
32
Wiki
统计
流水线
服务
质量分析
Jenkins for Gitee
腾讯云托管
腾讯云 Serverless
悬镜安全
阿里云 SAE
Codeblitz
SBOM
我知道了,不再自动展开
更新失败,请稍后重试!
移除标识
内容风险标识
本任务被
标识为内容中包含有代码安全 Bug 、隐私泄露等敏感信息,仓库外成员不可访问
【ICT BG】 qwen_3_30b_a3b_moe_2507后Lora参数合并问题
WIP
#ICXT89
需求
Azure
创建于
2025-09-13 09:52
之前在ISSUE https://gitee.com/ascend/MindSpeed-LLM/issues/ICWAPX#note_46309912 中提问了qwen_3_30b_a3b_moe_2507的Lora参数问题,脚本跑通但是模型生成观测舒服感觉存在问题,因此想问一下: 观察到输出日志中会出现: > building GPT model ... > building GPT model ... > trainable params: 81,199,104 || all params: 4,245,933,056 || trainable%: 1.9123971793492167 > loading checkpoint from /data2/models/qwen-3/Qwen3-30B-A3B-Instruct-2507-mcore at iteration 1 > loading checkpoint from /data2/checkpoints/qwen_3_30b_a3b_moe_mcore at iteration 700 > could not find arguments in the checkpoint ... > checkpoint version 3.0 > successfully loaded checkpoint from /data2/models/qwen-3/Qwen3-30B-A3B-Instruct-2507-mcore [ t 0, p 0 ] at iteration 0 > building GPT model ... > trainable params: 81,199,104 || all params: 4,245,933,056 || trainable%: 1.9123971793492167 > 中会说:could not find arguments in the checkpoint ...,不知是否会有影响,我测试了一下最终的结果 发现模型会一直生成感叹号不会有文本生成,感觉权重转换还是有问题,以下是我现在的参数,麻烦帮忙看一下有没有使用的问题: ```bash source /usr/local/Ascend/ascend-toolkit/set_env.sh python convert_ckpt.py \ --use-mcore-models \ --model-type GPT \ --load-model-type mg \ --save-model-type hf \ --target-tensor-parallel-size 1 \ --target-pipeline-parallel-size 1 \ --target-expert-parallel-size 1 \ --lora-r 16 \ --lora-alpha 32 \ --lora-target-modules linear_qkv linear_proj linear_fc1 linear_fc2 \ --spec mindspeed_llm.tasks.models.spec.qwen3_spec layer_spec \ --load-dir /data2/models/qwen-3/Qwen3-30B-A3B-Instruct-2507-mcore \ --lora-load /data2/checkpoints/qwen_3_30b_a3b_moe_mcore \ --save-dir /data2/models/qwen-3/Qwen3-30B-A3B-Instruct-2507 \ --params-dtype bf16 \ --model-type-hf qwen3-moe ``` 其中: 1. /data2/models/qwen-3/Qwen3-30B-A3B-Instruct-2507-mcore 是通过ckpt_convert_qwen3_moe_hf2mcore.sh脚本转换为mcore格式的路径 2. /data2/checkpoints/qwen_3_30b_a3b_moe_mcore 是通过tune_qwen3_30b_a3b_4K_lora_ptd.sh LoRA训完的模型保存参数地址 3. /data2/models/qwen-3/Qwen3-30B-A3B-Instruct-2507 是hf原始模型参数的地址,最终的参数保存在了该地址的mg2hf文件夹下,测试也是用的这个mg2hf文件夹中的参数
之前在ISSUE https://gitee.com/ascend/MindSpeed-LLM/issues/ICWAPX#note_46309912 中提问了qwen_3_30b_a3b_moe_2507的Lora参数问题,脚本跑通但是模型生成观测舒服感觉存在问题,因此想问一下: 观察到输出日志中会出现: > building GPT model ... > building GPT model ... > trainable params: 81,199,104 || all params: 4,245,933,056 || trainable%: 1.9123971793492167 > loading checkpoint from /data2/models/qwen-3/Qwen3-30B-A3B-Instruct-2507-mcore at iteration 1 > loading checkpoint from /data2/checkpoints/qwen_3_30b_a3b_moe_mcore at iteration 700 > could not find arguments in the checkpoint ... > checkpoint version 3.0 > successfully loaded checkpoint from /data2/models/qwen-3/Qwen3-30B-A3B-Instruct-2507-mcore [ t 0, p 0 ] at iteration 0 > building GPT model ... > trainable params: 81,199,104 || all params: 4,245,933,056 || trainable%: 1.9123971793492167 > 中会说:could not find arguments in the checkpoint ...,不知是否会有影响,我测试了一下最终的结果 发现模型会一直生成感叹号不会有文本生成,感觉权重转换还是有问题,以下是我现在的参数,麻烦帮忙看一下有没有使用的问题: ```bash source /usr/local/Ascend/ascend-toolkit/set_env.sh python convert_ckpt.py \ --use-mcore-models \ --model-type GPT \ --load-model-type mg \ --save-model-type hf \ --target-tensor-parallel-size 1 \ --target-pipeline-parallel-size 1 \ --target-expert-parallel-size 1 \ --lora-r 16 \ --lora-alpha 32 \ --lora-target-modules linear_qkv linear_proj linear_fc1 linear_fc2 \ --spec mindspeed_llm.tasks.models.spec.qwen3_spec layer_spec \ --load-dir /data2/models/qwen-3/Qwen3-30B-A3B-Instruct-2507-mcore \ --lora-load /data2/checkpoints/qwen_3_30b_a3b_moe_mcore \ --save-dir /data2/models/qwen-3/Qwen3-30B-A3B-Instruct-2507 \ --params-dtype bf16 \ --model-type-hf qwen3-moe ``` 其中: 1. /data2/models/qwen-3/Qwen3-30B-A3B-Instruct-2507-mcore 是通过ckpt_convert_qwen3_moe_hf2mcore.sh脚本转换为mcore格式的路径 2. /data2/checkpoints/qwen_3_30b_a3b_moe_mcore 是通过tune_qwen3_30b_a3b_4K_lora_ptd.sh LoRA训完的模型保存参数地址 3. /data2/models/qwen-3/Qwen3-30B-A3B-Instruct-2507 是hf原始模型参数的地址,最终的参数保存在了该地址的mg2hf文件夹下,测试也是用的这个mg2hf文件夹中的参数
评论 (
1
)
登录
后才可以发表评论
状态
WIP
TODO
WIP
DONE
CLOSED
REJECTED
负责人
未设置
标签
未设置
项目
未立项任务
未立项任务
里程碑
未关联里程碑
未关联里程碑
Pull Requests
未关联
未关联
关联的 Pull Requests 被合并后可能会关闭此 issue
分支
未关联
分支 (
-
)
标签 (
-
)
开始日期   -   截止日期
-
置顶选项
不置顶
置顶等级:高
置顶等级:中
置顶等级:低
优先级
不指定
严重
主要
次要
不重要
预计工期
(小时)
参与者(2)
Python
1
https://gitee.com/ascend/MindSpeed-LLM.git
git@gitee.com:ascend/MindSpeed-LLM.git
ascend
MindSpeed-LLM
MindSpeed-LLM
点此查找更多帮助
搜索帮助
Git 命令在线学习
如何在 Gitee 导入 GitHub 仓库
Git 仓库基础操作
企业版和社区版功能对比
SSH 公钥设置
如何处理代码冲突
仓库体积过大,如何减小?
如何找回被删除的仓库数据
Gitee 产品配额说明
GitHub仓库快速导入Gitee及同步更新
什么是 Release(发行版)
将 PHP 项目自动发布到 packagist.org
评论
仓库举报
回到顶部
登录提示
该操作需登录 Gitee 帐号,请先登录后再操作。
立即登录
没有帐号,去注册