75 Star 582 Fork 1.1K

Ascend/pytorch

torch_npu多卡微调大模型报错ERR01005 OPS internal error Exception raised from operator()

DONE
训练问题
创建于  
2024-12-25 11:26

评论 (4)

jy 创建了训练问题 5个月前

EZ9999: [PID: 997623] 2024-12-25-02:46:02.738.329 Op NLLLossGrad does not has any binary.
TraceBack (most recent call last):
Kernel Run failed. opType: 39, NLLLossGrad
launch failed for NLLLossGrad, errno:561000.
报错显示算子问题,请检测kernels包是否安装

安装了:Ascend-hdk-310p-npu-driver_24.1.rc2_linux-aarch64.run
Ascend-hdk-310p-npu-firmware_7.3.0.1.231.run
Ascend-cann-toolkit_8.0.RC3.alpha003_linux-aarch64.run
Ascend-cann-kernels-310p_8.0.RC3.alpha003_linux-aarch64.run

百度云盘放了详细日志,麻烦看下链接: https://pan.baidu.com/s/1DmKzqgdTlclS0ejdxqM_lw?pwd=8q69 提取码: 8q69

当前推理芯片暂不支持该算子,请使用训练芯片。推理芯片的支持需要等待后续版本。

huangyunlong 任务状态TODO 修改为WIP 5个月前
huangyunlong 任务状态WIP 修改为DONE 5个月前

登录 后才可以发表评论

状态
负责人
项目
里程碑
Pull Requests
关联的 Pull Requests 被合并后可能会关闭此 issue
分支
优先级
预计工期 (小时)
开始日期   -   截止日期
-
置顶选项
参与者(2)
huangyunlong-huangyunlong2022 jy-xiaoninghome
Python
1
https://gitee.com/ascend/pytorch.git
git@gitee.com:ascend/pytorch.git
ascend
pytorch
pytorch

搜索帮助