代码拉取完成,页面将自动刷新
这个文档以DeepSeek-V3-0324
模型为例,介绍如何使用动态量化功能
(注意,目前的量化功能为初版,后续会支持动态设定量化方法,以及设置重要性矩阵来提高量化精度)
首先我们要编写一个配置文件(可以直接使用下一节中的示例)
假设配置文件保存在 /root/dtype_config.json
下面这条命令会读会读取/root/dtype_config.json
中的的规则来进行动态量化,并部署api server
ftllm server fastllm/DeepSeek-V3-0324 --dtype_config /root/dtype_config.json
下面这条命令会读会读取/root/dtype_config.json
中的的规则来进行动态量化,并导出模型
ftllm export fastllm/DeepSeek-V3-0324 --dtype_config /root/dtype_config.json -o DeepSeek-V3-0324-MIX
编写动态量化配置时,最好先了解如下知识:
正则表达式
有一定了解json
格式有一定了解model.safetensors.index.json
来查看模型的权重名称。我们以如下示例来说明如何编写配置文件:
[
{
"key" : "(.)*",
"dtype" : "int4g",
"comment": "default use dtype int4g"
},
{
"key" : "model\\.layers\\.([0-9]|[1][0-9]|2[0-5])\\.(.)*",
"dtype" : "fp8",
"comment": "layer 0~25 use dtype fp8"
},
{
"key" : "(.)*mlp\\.gate\\.weight",
"dtype" : "float16",
"comment": "gate use float16"
},
{
"key" : "(.)*experts(.)*[gate|up|down]_proj(.)*",
"dtype" : "int4",
"comment": "moe use int4"
}
]
将以上json代码保存为/root/dtype_config.json
(这里的路径只是举例,你可以保存到任意位置)
然后就可以使用--dtype_config /root/dtype_config.json
来读取其中的配置(如果你的文件不是保存在/root/dtype_config.json
,那么请使用你保存文件的路径)
说明:
key
: 指定匹配权重的正则表达式value
: 当权重和key
指定的正则表达式匹配时,使用value
指定的类型comment
参数仅为注释fp8
类型int4g
类型float16
类型int4
类型此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。