您好，这是勾选debugger后生成的log目录：

一、问题现象（附报错日志上下文）：
模型使用了Adam作为优化器，GPU和CPU上能正常运行，但NPU平台上报错。
tensorflow.python.framework.errors_impl.InvalidArgumentError: Ref Tensors (e.g., Variables) are not supported as results: tensor ins_fc5/weights:0, dst is Adam/update_ins_fc5/weights/ApplyAdam

二、软件版本:
--CANN版本：CANN_5.0.2
--Tensorflow/Pytorch/MindSpore版本：TensorFlow-1.15
--Python版本：Python 3.7.5
--PycharmToolKit版本：3.0

三、日志信息:
https://cann-nju-jsnet.obs.cn-north-4.myhuaweicloud.com/MA-new-JSNet_npu_20211030172830-12-06-18-39/log/modelarts-job-46aa4c1b-5733-487d-95fd-007357af8f56-worker-0.log?AccessKeyId=6S8ZGH0YRPWHSTTJ58NU&Expires=1638893295&x-obs-security-token=gQpjbi1ub3J0aC00i0uqMsOTM1cN9TPo1eDIBDQsINPcKa_ohrIXvdytCeXUcfoaXAWBrve3BR5ZfTncmT3tQ_oBGxHt3Dr2C0Kij6F4gWzcPLRcY-LBugbE0x3rH0GG4_wWQFgTP9WcMgLptrFQRY-7rCnkLZ2O8vvEThV7QO3NU2cLehaL_EQeQsgwqYXluDW8YoihZc0iPei1Z4wQK46W0aRPb_NTW4_NsNv0sneNEvjX4N03x_Q6zJfn-eJU7reIHk0zOcGntvtcf5WHk5o1ZQqRh0aqRw6EwuDWEQK8dV1fnlZKoCnddcErYPFL7vHpwSZpgqJ_gp6Mut5Q9-FFYl4qHfNeCd2fdHN4kSMIBQWDqLWYfYPEWW86JzbUYgiDhkZnOVIFbJzz-r623X8di7wvTSOmacwg1EAsbYGGLge6AIqRjs_kBqdP9GXn2hPubhnFwCPHiOvZjN2AbQdXvnNiVFw_j9nEsOAtwJuGXyWMuWQWyGW8-fCbmT287RtQ3yPlbTmMnKEd0DRdm6Bzq_Li3h2MIaN0A_uQrIv-RuE36DDFZSDKw-t-yQx_j80iusYzicoZ46wcF3wDFTcVKZYzRpXHJu9GVpzZXME7Ek6513cW4wQ8kMP58Rk9_r75d4WA2fRnSCTanNdYz7hBPkCZXgVWs28twG0ej-Q4SIbLUuWrvVAXc0U3Ywa12rqtVWVqsDBd3Fpwv5la3lO8pg6qmG5wxoWtiMlwJ1IeV6HS6RYdfoQ5XHgnLf7nyNMf5QtLkejJgp1aYW417Jy8lVt2w2YPIEvBcwDR0VjjnwfIwnzOokrjoyci&Signature=JNtMACtE9cELJ9aMF6Ozly/iMrM%3D

你好，从目前的报错来看，我怀疑有算子不支持。我们需要收集Debug日志信息。操作方法如下：
https://support.huaweicloud.com/tfmigr-cann503alpha2training/atlasma_13_0004.html#section4
勾选Debugger选项卡然后训练。

您好，这是勾选debugger后生成的log目录：

URL:
https://e-share.obs-website.cn-north-1.myhuaweicloud.com?token=/Xky4PyJ1N/G6kAmM+WbymOLJYVQerCmFZ69sY51U0UqQlGxV4tNnmI9loRjF80pQhD9G799arLQ4AkukOtCH52khrc2K9kymjtbX7MF/mm5NbP8DBL6QBG9G/sNxfheTaQH9DgSGQN0JDT8D4UkMtmbuAJyyPJDSuIW+boEovUH8iW/SLW2wHIa4X7rEGQJuUTI5hMWVKw3tryhJTgb2PdAvdfIaKJjxtqCZlFTnpqr+rznpqb+OMsW7iI/DyyCjj779EYAt/zjnKSbXl6Ewzhitsd7fGBeggCLZ8JxqWj2FOt5R+O0w3lzYdFl3GWL4MXGXNdOuPPXWwCuWMkvpNoJHEbCNdnqdF8pWiEGezp2nRYvkzjkqunHp3zhFVbC5UghpNDcM83SXCiZWlW/zyPInZLma4EtAFCucC0w7tNXGUB1iuUbAfrPpZUpV7hpQb3sq3d5XTKsCbSyZKV43dQocqblIJ9GkikHjlyWCJxHSsXcAM9KEyaRsxPs7dQZkP7mXnwfz7w6V05kfLCtMSscDjzMWLN+eEaGH8D9Iov4AiHu6fZeNQOR25cP5dR6pkXATBv/Y0TsLsuMTOq+0tKrLYbwbtP1onC1lvhm4PIkw+OrsnHPYZJ3IiQl3yi01WBLGWJnLZeU3c9rpMrp0SdYQoWhdY7jgntJ9hIdJIuuwQ3ne92YsBTtXBTrD5gkIGLK0v1Lz/e8puh7dOKiqKswEY7NhLsPeG6mZy/tZRAfSK2bfeGDe81xMzPgxzJDVNj3ps67bAcV1XvzpxvmHTqtrH79NeEVe0rqRjLGBc1Ycd0sDxwWbNNdNI4rC7odEwNP17MO3+XXmjJXDws+AM9MLIS9i2WHTt4Fp3BWKgbjWrCETXVT1TZPQ/zAb+AhARF+NH22UybaExe8dzz08nupWdmuisUp9cC9xgIbi7FekSzVDUbjVmlA9W7x/JPn++NfW9GzEhtY1TgS0JTJGB/AJORudloBP9dowRUqNjs3+JC8FhLicZoeGxwFynh8cOwTNHD4kawbQYEVic7eUFi6CWysFSvpi+VQR7Hg1FtC/0N35h+xnZ7HgBI1EfawxoVysspCHtnd5kjGYPf+smL/DhXT2bSgIpb6geHwtKZJ3N5rJltvxnpsxgjnVGgXoA6XvSRaC0nrlnKtR+Owr06GieecOEHTQMXZrtVOF9OK1iz8vq3+fVgm/ry2NUhFst/uBrxoLcSebsoNbZjs56SlqjFYCvFs6nGinVqP88V7dpn8RVn0YMSO1CCfTaQ1luT0hateQbADgfcEfiUi/U2u4PkZ0p5roGnmo2WnPTlUSKChp4oLi9zyc/lg+spfv86NMkj+uSABxShQVN7c6KDNIdoCYgY/Bg3dRnfediC5+NxnRicaFw8BhcOM1SZETO+XGr9eFQya3zAlIntUZWbgqzTFSpnl6Ge3O3r2UnvrJSJJxguMnHEmBJo3LTfN/H1+8CyU7m9dwnK3Yt3uC753TbHURz2Etn9LuhOq277qC1uJ3elZE91A95N9Ie7beUc4M/fwMV2629zGvbtE87CC2Eo4bR74+NCsmcSntzrHeZX0eQcF97lWV5gQO/XezlBwAPGhGZG0EGlB6+BqlWvoHhBLDZysuY6BZ/wZOR3IJ9IxNnqzAep6UdRMZNdeAHfIL7XK7D1bcDeCuhTOg531//N4v+gZMwem0xJachG3QBMBMwdl7Xz3Jg5rNqxOTPsB3DlA/Kn4x1OEFm274QhVrXRH3+lXAZsgC/dyw7bKhn4VEEBZWM7O3IsF8k24wrkixhDVE2Kpmc4GGD3zShsA4RlxrXsaqlMtYFy1cZWtG1ADHED248GyCL89A9+leoxCkitBsUXLlxwbj/9TzyD8jEJbNfk7a7smyDTg+cOrdcXpSKeSIQQjHJ5Juqmg+LMAkeAo9jBHDvD3++4FvchuNvWuDfuEBmhEyKtUUF02bUFZYkRi8wW/MJK3zp8BPC6XB0eWATQs0qOKz2ib/DQCLYf7CXa7+s2sYFV6c2O1PvWtFnDE3++aaDuilXHZ52qqdgFGdclLxYFpZKB8ODuBPcY3wU4Y+RMh2saGCj1np4jw/ITets6PtUtBbmt8x8T+dLOkCY7mj6Vps5bZaIML/h6+56ZDzg4ISXYpoYNcJl8TiLw39vZI6qwks1sBkubj56pVlMjqg3DIAg93I6qPimevlwysPSYv5XNXZKLT8F1JoS+e8ro6+IN4PsbwHCM9zzkVoGVtu++j1kFEKw==

提取码:
111111

*有效期至: 2021/12/09 10:23:17 GMT+08:00

node: FarthestPointSample is not in white list, so currently not support
node: GatherPoint is not in white list, so currently not support
node: QueryBallPoint is not in white list, so currently not support
node: ThreeNN is not in white list, so currently not support
node: PyFunc is not in white list, so currently not support
node: GroupPoint is not in white list, so currently not support
node: ScalarSummary is not in white list, so currently not support
node: ThreeInterpolate is not in white list, so currently not support
node: MergeSummary is not in white list, so currently not support
node: ThreeInterpolateGrad is not in white list, so currently not support
node: _Arg is not in white list, so currently not support
node: _Retval is not in white list, so currently not support

FarthestPointSample, GatherPoint, QueryBallPoint, GroupPoint, ThreeInterpolate, ThreeInterpolateGrad都是网络必备的自定义算子（本网络基于PointNet++改进，上述自定义算子的PointNet++提出的），请问有没有办法添加到white list呢？

你好，建议你把自定义算子都分析一下，是否能用TF的原生功能API替换？包括 PyFunc

您好，我之前几个星期研读过该网络有关的三篇论文，这两天又做了些思考和调研，觉得对上述"not in white list"的算子难以用TF原生API替换，具体情况如下：

【1】 FarthestPointSample / GatherPoint / QueryBallPoint / ThreeNN / GroupPoint / ThreeInterpolate / ThreeInterpolateGrad ：其中涉及KNN+KD树、类似kmeans聚类的聚合操作、根据特定指标采样（区别于tf支持的random.uniform_candidate_sampler和random.categorical等采样算子）等。所以这块算子的替代可能要从算法层面去复现。
【2】 PyFunc ：如果能用tf原生api实现【1】中算子，则不需要PyFunc。
【3】 ScalarSummary / MergeSummary ：用于数据输出到TensorBoard进行分析，只在train.py中出现，可用stdout的log输出替代。
【4】 _Arg / _Retval ：暂未找到这两个算子在网络中的调用位置，猜测是因为tensorflow使用xla_compiler对自定义算子编译时插入导致。（相关问题参考链接：）

所以目前来看，瓶颈应该在于网络用到的核心算子无法用TF原生API直接替换，而modelarts平台也不支持自定义算子。
我目前能想到的解决方案是：从算法层面入手，仅用tensorflow原生算子（或在modelarts平台进行算子开发）重新实现【1】中算子，但算子开发的工作量较大，准确性也较难保证；

请问您那边还有什么能从工程上尝试的建议吗？非常感谢！

我尝试了混合计算，依旧有相同的错误（下面是开启Debugger的日志

URL:
https://e-share.obs-website.cn-north-1.myhuaweicloud.com?token=/Xky4PyJ1N/G6kAmM+WbymOLJYVQerCmFZ69sY51U0UqQlGxV4tNnmI9loRjF80pQhD9G799arLQ4AkukOtCH52khrc2K9kymjtbX7MF/mm5NbP8DBL6QBG9G/sNxfhedEmXTjZuVZ3ldVO1emwmIp/wnIU6mRdKw32MJxEGnxJG/mi+205lXhno8Hr5DWy9wT4p1WhLiEuB/5e3NT3Hr4wAsBKjbYJJGuDZCWcsPFv7DGo/GdsVkU+urR4SkbBd1caV1aWC5/GYxhXKm+ugTDurtjPh5NkpEP1Ze1ByZ+7opE/oeB1lQORO5AnMD3SUIagtwchrtoSlMvQSM13xhki09wcauSYmhQ3WMrvpE+FcugHBEczMs36zZwv31McJbhzUaT3xtAYtUzzhfCs1fsgLY65HNfFH3B0Ol0xZLFqGKe1y9rtStQDX+n1xVLsbO3uFCs2L0TzRgvgQfV1mBxcnuBy4Sdd4LT1GaiuweGG3EXrvgSdlM6oLBPc5Ml8vreL0+b92ELHbA56ZSUnwAiCWbPD4MijekcH3sVHGS5xowKehy+KhS/xp2IobL0KE+5FHatDV9gyjQRofxqIe8aCsrkpYXoWjDEFltHeEQLAez/lY2qbfTSRl1iy794D6YI7m4ptw4PUSmUvN1e6wP7zDTyPp9rLr9C5qpd/NvNZtDkqYOKRMubCDjMEkS97Rn4hHRm4p+Dm9X47vTGLWv0Akw0DL6LMxN/K/exeORq0Z35/saua1A78l4SUmyxQUq7hBG6X/32py6lT2ZGs5TgnQhKbs0xmiym9STQBFZeW3pQVmnZpsdiGl++Lq3Vd+f6CYTnuMEOYjlrMftVhKpp3mnKvfH0aSAm1ivre09tXd1umqCeNfCdJqheYutF1rAhmgU8xmpYoonzLqsH/mIbvhdkCWmSVMOiaP7t1UdicmIGxb/UpeF3M+z17p1Yq3qpx6hsP2susWyy87z/a2+x1MsP8K4zeNeWDgy/DUXX2yKWsWcMe+nOG+hiRqpF7RPxwsdKbTv3ssFOzYz/9M24DbE3Zki8HW9+elj+SKP++KB8WpMSDq4bHmIsdNwm5wJOdfA0neIldTI7cF7cUDeofTMmnHKe72UMk7pFvo2lv/P5Mi09dwHY28v/BxzHEXF09cM9nmrj6x5y1v4Pk8y/OZgrqMaOK3tpePNQ6tzpixRRIVHwecpItibrp7F3wvUPXYPKLt2hlnJ9dDoDSAC8ywzPHAmZqyXQLH0C4AX9f59eYCrbHRHuV0xpAUC8qHFtIz9e0qjXWnCVQCaE2LkHyKSZloi4anm5B5TLQcB1rLjS78/RyoKKDmZ7F3mxMFHNrmRSPNr+Wc1h/6X2FPT9zxvNrxeY/DGW3wlC8iVJaQgv2tWI4HvymeNXgfnwBDSnpNXIPpY/yI/EbTRUsfpbMSJTz2s6/hhOI6+VulPLmG9/YPHTU9F7v8P5K+A1J1x1i9BjI1c2mVIS7brkC/9b5wS00V/lNE3clgnldm+eK7FiQTIKsmWK4sFCZrOBvE+47NQCn2n6k1Qm6oIyMNtj0h2simvwxmbvzQxZi9e8VSYXWXdV0LT6LnIUSG5v3yMOB8Z659boekmgCzNkg74VAnoOhfUiO0H/yTTDvNFoo8J6R8qciFzyeesrg4H8wBY+XJv2PX+RTrv0iViHVo5wA8w5VTINQ6BaHK16JZrO3yDp/rqIjR9IlJxPvsYSZQhJb16vtXDoXmlyu3v8IMKxgQMZs5XJ35+/HnZZnEZlWCMNiU+Xm59EiG/oXgg5loY/ZNuIZVb1xOl3fYmF7VIiiA41xalg3JWx4uS3JgQkImr/VTe3/dL6Gli/UVm6WzFynUkD09BKeEHY+Ta/j/efcVau4h3qMwAgEVR+DaXW9rjTO5IRxQHlai0xNHlDHnj5HTXzcwtRijNO/NBjoCTQWz3F6rrdIBnvQ7N/6Xh6IU/fZr1vEkH2GufCGhhfreJyYwAgAlz/CjZx2AYfKcT9jWz3UTQfSPKvl2Uvwt1HiBs7P561NB+xU96BmQHHZVSsI0mWJxLkgC8VdiwFAr5FlGV+mavR7fWwWxW+v5E0etgwl43ovwGwN0YNtcC9/9Yeyls9GF1umArkFxnGEtgsvYeEq05SK35NFoOYuqmfBADfyH68d7BZBtOkB3XmObxUvS5Igrk0x8FhO1oy/LrBvZ/YH+hABxkkrLqOZknCRKAWcJ1zVfsePLpLDqvYSp

提取码:
111111

*有效期至: 2021/12/14 02:21:40 GMT+08:00

过期啦。。。可以分享时间长一点吗？

抱歉。。。OBS Browser+客户端最长也仅支持24小时的分享

URL:
https://e-share.obs-website.cn-north-1.myhuaweicloud.com?token=/Xky4PyJ1N/G6kAmM+WbymOLJYVQerCmFZ69sY51U0UqQlGxV4tNnmI9loRjF80pQhD9G799arLQ4AkukOtCH52khrc2K9kymjtbX7MF/mm5NbP8DBL6QBG9G/sNxfhegCnqA2BQgnGsraCb47/8P4yExS6IjjI9c5efiT8X1rvd1vT22LLu0k9T7L4WJlEVOEcVXdnTUVX4K2c8u2RRWWMWUkwr9RJh+o53v/1kf89RIT09QuUvi7XDt8eNJcdjOhIgVYTkyVXty3tr3Qn5I80p5/4Q+btvLmv96//zFDs32iHrczTVaSpGXjx/M6mH30wTOfbR5sMFyKZKO8U7GOvhML8yGAqOQTPEXxhzn/m7ib/TzklUlSundeegpksJJIftEzRqCbRyUL6j3x8GMp8kDGeRHfiOevDGD66VfbApNJbQizgK2DR4/zG/7m9WT4daPp+jJJHuK7znAp8GciX6NxQTNC54Vmtbk8zgPYFc1DaUDpXq0rEobH8egglOHHrDC3MlT/FH2sY38CQZnnCSg8KvIKJlBPBCbwHy/0SynI+fDsn10PtrN5SATmtxZJ5dtkQ8uHQN3lEz4qUcDfxRjj4iH3eM6l8lvy8zfdsA+EJXbHqCDnsE9NJEikp/Kub5uhv0HnIJZaCTTCIRgnT+yYCsgSIRay3FX9QnCdbk96FtCXgV5NXbHm5uO7AN5Kk/Cs31N3Dr7SSrNiwpB7EtrepFBOQuNQXHA+FH4urRXrg5FBqnl0tcSoj2+5nDJ3VIy+oDJZKQ7x/EhylBfmrHke/xhvQZex0CDs2crLJw8Zby20d/eD54tT+4Eex9QALmpsk/F1RN0xx5HfDgxCr1JNuCqxB/DmGUTTK3DeBIeMf1+vl3nZFWS5V+wwzTPnsa8eODC1ekIa7+bSRgGlrUNHysRsR+RC6tN8bPjyy6EDk5YxTHVwoCc2PrLBEHt24Rs+ReuvYXJuj9NWqkAbZtqkeyl45LAalRDzR0H0qK+41oQN1Q7kMByg0N+QKCv7D92/g3MpjNQILIyw25ylJM7c4/7ZgeOXvHT0x44alwTEgA1yegY5Wa74yoXJLcdWm/jqUKT8AgH9isSISWnnG5UH2/mRgyodGlbk54y1HUVQcBV0MDTUsokZsArGJ6FRotyaeSgY3YPpS2xSYy2A8NYCfcYNBd3XFM37VU1r41eV7A6fi3AK55BKiw2gX22Bmt3HoTR0l8uVGk9Wz0WDP+wdYWgmCZmTuuX9gyYLh35mmehhjf7h23R4fSpixuXC5dfYCyaKMcx4W6OvjXC0WKvfQD2gPULFT7lJshXWGaNHVc862t9yQIcX6/6tTM9e8LGY0KKOsrALwzK/NKVCNhEXHYMupDKzMd1GWodIVvy9S5AFg0OxS2S7eNjKSLvSFAsGjVW4AQx+C3T8YVGilKNrhdN29LA8xzFQldj+AT2KH7/ElTJuDBtlu0gzRTFjIjAD3W4WIc6q95W8JoCCnaZ5VaKslwROqdu4nyBBJRrXrgpgcEYCfMkB6sA7GbtcDoiljNXBHZK3fVwbAWd/LwBEDNRIouQQmRdk/YQRjwXaRDhpae9sf3Vt4w5C/HxVscfEmvP/ob5bzwwYYdovFusf6dpdTs9i5ylo9LdRTYt9myX2KcGfAdmwcO+W2Kk/3jsHS/5Cq21Vgs3Y0W/5qc6r8f2l6ZKl4g23WC2OJmJgcm6Yqt0hsL9y/0r2wZCQ7rHC5+ra4iQ9y4rMlJAlmb6Ky5SqHHwOn29LHf1lSP5O0DAPv+Z0UKdKQlMr4rbaAHidjguOndQWCra3W71EqIxyo+AiUNEg3INwgPj627oEdVjAMrfqsIdk6Tn6+WpfLG8QGzDV99GVA5aY88UTLwy1pFaHdVPyyQucaS2wmdQ7FmtnXQOv2M5yIKiGQnRbyvmO3CTcsZQCCpq7W1wOgPb0FNPyu2kPMOGSaokkxjyYvyNDL3uzTu7unfY0fNDR1QMAmoRYxgzO5CS2/DrkZ/su1v0yUCkx81YwEnRoTJCBOCfQBd5duIP6tG3hZHOgpk6j67wHJBhiIR38am0ItUx4lpeDGtnqO9FJ6wqQ3PlLMQNwzYUPmbIlKdN+50283/5GC22mgz8Xom2in7D3S/R0WWJpUqjA4VNb8DTSrVdL8B+zF87MO6pWn+j1M+55PbOOz1R4tl7nadVmFB/hmWIUjiPja7p+H1andCJnZPSsJkF0AxHxIvaHDuPRo4

提取码:
111111

*有效期至: 2021/12/16 15:01:16 GMT+08:00

你好同学，你先解决掉当前错误。是不是数据预处理有问题。如果是运行前预处理数据的，建议先把数据处理好作为数据集，运行的时候直接加载处理好的数据呢。
Traceback (most recent call last):
File "/home/ma-user/modelarts/user-job-dir/code/utils/s3dis_utils/dataset_s3dis.py", line 151, in del
while not self.data_sample_queue.empty() and not self.data_queue.empty():
File "", line 2, in empty
File "/home/ma-user/anaconda/lib/python3.7/multiprocessing/managers.py", line 815, in _callmethod
self._connect()
File "/home/ma-user/anaconda/lib/python3.7/multiprocessing/managers.py", line 802, in _connect
conn = self._Client(self._token.address, authkey=self._authkey)
File "/home/ma-user/anaconda/lib/python3.7/multiprocessing/connection.py", line 492, in Client
c = SocketClient(address)
File "/home/ma-user/anaconda/lib/python3.7/multiprocessing/connection.py", line 620, in SocketClient
s.connect(address)
FileNotFoundError: [Errno 2] No such file or directory

好的，谢谢！
已找到FileNotFoundError: [Errno 2] No such file or directory问题所在：原因是代码通过生产-消费者模型多线程读取数据，生产者给出的数据文件路径是从给定的文件中读取的，程序在训练中被ctrl+c或非正常终止时，读取到的数据文件路径与原文件的不一致，所以消费者FileNotFound。这个问题在cpu和gpu下训练过程中被ctrl+c或非正常终止时也会产生。

使用的数据集已经是本地处理好再上传的，根据数据文件路径读取数据，就能开始训练

这个是相关性比较高的issue：#I4EEYB:【应用开发】pointnet++点云模型遇到很多的算子不支持
使用你们提供的算子可能可以解决我的问题，请问这几个算子开发好了吗？

这个是相关性比较高的issue：#I4EEYB:【应用开发】pointnet++点云模型遇到很多的算子不支持
使用你们提供的算子可能可以解决我的问题，请问这几个算子开发好了吗？

@divsigma 今年没希望了。。。

那我先把issue关闭，有其他问题我们再看

Ascend / modelzoo

内容风险标识

【南京大学】【JSNet】NPU训练报错，可能与Adam有关

评论 (14)

您好，这是勾选debugger后生成的log目录：

Ascend / modelzoo .gitee-modal { width: 500px !important; }

内容风险标识

【南京大学】【JSNet】NPU训练报错，可能与Adam有关

评论 (14)

您好，这是勾选debugger后生成的log目录：

搜索帮助

Ascend / modelzoo