所有star的仓库都会放在这里。可以根据需求创建不同的星选集来管理它们。
针对训练&大模型场景,提供端到端命令行&可视化调试调优工具,帮助用户快速提高模型开发效率
最近更新:
8个月前
TensorProbe (code name: kj600) is a LLM pretrain debugger with model's torch module , optimizer status, collective communication tensor collection and aggregation. It also supports rule-based alerts.
最近更新:
接近2年前