知乎官方帐号 ,欢迎关注我们的技术专栏 https://zhuanlan.zhihu.com/hackers

cuBERT

BERT推理在 NVIDIA(CUDA,CUBLAS)和 Intel MKL 上的快速实现

最近更新: 9个月前

ZhiLight

高度优化的 LLM 推理加速引擎,适用于Llama及其变种。

最近更新: 9个月前

protobuf

Protocol Buffers - Google's data interchange format

最近更新: 9个月前

TLLM_QMM

TLLM_QMM 剥离了 Nvidia 的 TensorRT-LLM 中量化内核的实现,去除了对 NVInfer 的依赖,并提供了易于使用的 Pytorch 模块。我们修改了去量化和权重预处理,以与流行的量化算法(如 AWQ 和 GPTQ)对齐,并将它们与新的 FP8 量化结合在一起。

最近更新: 9个月前

libphutil

A collection of PHP utility classes

最近更新: 9个月前

kids

Kids Is Data Stream 一个日志采集系统

最近更新: 9个月前
成就
4
Star
3
Fork
成员(3)
551147 normalcoder 1578927376
诺墨
jiaojian
houyafan

搜索帮助