@losewell
losewell 暂无简介
DeepSeek-V3 是一个强大的 Mixture-of-Experts (MoE) 语言模型,它拥有671B个总参数,每个 token 有37B个激活参数