并行通信库
DeepGEMM是一个专注于为FP8高效通用矩阵乘法(GEMM)库,支持普通及混合专家(MoE)分组的矩阵计算需求,可动态优化资源分配以提升算力效率。 该库基于CUDA开发,采用轻量级即时编译(JIT)模块,在运行时动态编译内核,无需预先编译安装。
DeepSeek 开源 FlashMLA(高效解码内核)
Get up and running with large language models.
Expert-Specialized Fine-Tuning
Breaking the Barrier of Closed-Source Models in Code Intelligence
请描述组织的定位/愿景 请附上组织宣传图
这些公司或软件正在使用我们的开源软件:
请发送申请邮件至
如果您觉得我们的开源软件对你有所帮助,请扫下方二维码打赏我们一杯咖啡。
网站: Follow @aaa on Weibo 邮箱: