diff --git "a/sig/Hygon Arch/content/2-CSV\346\265\213\350\257\225\346\226\207\346\241\243/4-KATA-3/4-\346\265\213\350\257\225\347\233\264\351\200\232DCU.md" "b/sig/Hygon Arch/content/2-CSV\346\265\213\350\257\225\346\226\207\346\241\243/4-KATA-3/4-\346\265\213\350\257\225\347\233\264\351\200\232DCU.md" index 7c938e9ceed49a7fa1a9cad846ac1e137769b187..5f496000ed01f677e940a5726d61b23c80c7cb84 100644 --- "a/sig/Hygon Arch/content/2-CSV\346\265\213\350\257\225\346\226\207\346\241\243/4-KATA-3/4-\346\265\213\350\257\225\347\233\264\351\200\232DCU.md" +++ "b/sig/Hygon Arch/content/2-CSV\346\265\213\350\257\225\346\226\207\346\241\243/4-KATA-3/4-\346\265\213\350\257\225\347\233\264\351\200\232DCU.md" @@ -233,3 +233,44 @@ RUN apt-get update \ && apt-get install wget pciutils ocaml libelf-dev libnuma1 libdrm2 libdrm-amdgpu1 kmod build-essential -y ``` +## 常见问题总结 + +* 查看pod状态,出现Insufficient dcu/a100 + +``` +Warning Failedscheduling 14s default-scheduler 0/1 nodes are available: 1 Insufficient dcu/a100. preemption: 0/1 nodes are available: 1 NO preemption victim found for incming pod.. +``` + +该问题产生的直接原因是,DCU直通到kata容器过程中,从vfio device plugin中获取不到DCU资源,导致kata容器启动失败。 + +可能的原因是: + +1)DCU绑定到vfio驱动失败。 +正常情况下,经过执行`./setup_dcu_passthrough.sh -d 0000:bb:dd.ff`之后,在host上的/dev/vfio/目录,会存在设备的group id文件。如: +```sh +ls /dev/vfio +16 vfio +``` + +如果该目录下不存在设备的group id文件,那么,需要检查设备绑定vfio是否成功。 + +2)直通到容器的设备数超过vfio device plugin资源池中的DCU设备数量,导致无法分配资源。 + +* 容器中设备驱动加载失败 + +进入容器后,通过dmesg命令查看虚拟机kernel的日志,其中包含dcu驱动的错误日志信息。 + +出现这种问题的原因可能是 + +1)host没有开启IOMMU。可以检查Host的kernel日志,确认IOMMU是否开启。 + +2)DCU的vbios没有更新。参考`使用一键部署脚本,部署DCU环境`一节。 + +* 容器中执行rocminfo命令后,没有看到DCU设备信息 + +1)确保在容器中开启了hymgr:`HYCONTAINER_ENV=0 /opt/hyhal/bin/hymgr &` + +2)确保在容器中执行了`source /opt/dtk/env.sh` + +3)确保容器中demesg中包含dcu驱动加载正常,没有出现错误。 +