MindStudio ModelSlim,昇腾模型压缩工具。 【Powered by MindStudio】
昇腾压缩加速工具,一个以加速为目标、压缩为技术、昇腾为根本的亲和压缩工具。支持训练加速和推理加速,包括模型低秩分解、稀疏训练、训练后量化、量化感知训练等功能,昇腾AI模型开发用户可以灵活调用Python API接口,对模型进行性能调优,并支持导出不同格式模型,在昇腾AI处理器上运行。
条件 | 要求 |
---|---|
CANN版本 | >= 8.0.RC1.alpha001 |
硬件要求 | Atlas 800I A2 推理服务器、Atlas 300I Duo 推理卡 |
RC3 及之前的 CANN 包已包含msModelSlim代码,安装CANN包即可使用;RC4 及之后的 CANN 包需与msModelSlim代码仓配套使用。
msModelSlim当前处于逐步开源过程中,计划通过CANN的8.0.RC2、8.0.RC3、8.0.0三个版本进行过渡。
版本交替期间提供两种方式使用msModelSlim工具:
方式一:
方式二:
(CANN8.0.RC3之后的版本,将会只支持开源方式使用,通过CANN包直接使用的方式将不再受支持。后续功能优化、新增将更新在开源版本中。)
cd msit/msmodelslim
;并在进入的msmodelslim目录下,运行安装脚本 bash install.sh
;cd {python环境路径}/site-packages/msmodelslim/pytorch/weight_compression/compress_graph/
cd usr/local/lib/python3.7/site-packages/msmodelslim/pytorch/weight_compression/compress_graph/
sudo bash build.sh {CANN包安装路径}/ascend-toolkit/latest
chmod -R 550 build
功能名称 | 功能简介 |
---|---|
模型低秩分解 | 低秩分解是一种矩阵分解技术,它可以将一个大型矩阵分解为若干个较小矩阵的乘积,这些较小矩阵的秩相对较低。低秩分解在很多领域都有应用,如数据分析、机器学习、图像处理等。 |
模型稀疏加速训练 | 稀疏加速算法是一种旨在通过减少模型参数的数量来提高计算效率的训练方法。这种算法基于网络扩增训练的思想,通常涉及到在训练过程中引入额外的参数,然后通过某种方式对这些参数进行筛选或修剪,以实现模型的稀疏化。 |
模型蒸馏 | 蒸馏调优是一种模型压缩技术,它将一个大型、复杂的教师模型的知识转移到一个小型的学生模型中。在这个过程中,学生模型试图模仿教师模型的输出,通常是通过训练学生模型来匹配教师模型的输出或中间层的激活。 |
大模型量化 | 大模型量化是一种模型压缩技术,它通过减少模型权重和激活的数值表示的精度来降低模型的存储和计算需求。量化工具通常会将高位浮点数转换为低位定点数,从而直接减少模型权重的体积。 |
大模型稀疏量化和权重压缩 | 大模型稀疏量化工具结合了模型量化与模型稀疏化两种技术,旨在通过减少模型体积和降低内存及带宽消耗来提升模型的性能。 |
长序列压缩 | 长序列压缩通过一种免训练的KV-Cache的缓存压缩算法(RazorAttention),直接应用于KV-Cache管理策略中,通过这种集成,Transformer模型能够在处理长序列时更加高效,同时保持或提升模型的性能。 |
训练后量化(onnx/pytorch/mindspore) | 训练后量化不需要重新训练模型,而是在模型训练完成后直接对模型进行量化。 |
量化感知训练 | 量化感知训练是一种在模型训练过程中模拟量化效果的训练方法。通过在训练过程中加入量化操作,模型可以适应量化带来的精度损失,从而在量化后的模型上保持较高的性能。 |
Transformer类模型权重剪枝调优 | 模型权重剪枝是一种通过移除模型中不重要的权重(即那些对模型性能影响较小的权重)来减少模型复杂度的技术。剪枝后的模型权重更少,从而可以减少模型的存储需求,并可能加快模型的推理速度。 |
基于重要性评估的剪枝调优 | 基于重要性评估进行剪枝调优是一种常用的方法,它涉及到评估模型中每个权重的重要性,并据此决定哪些权重应该被剪枝。 基于重要性评估的剪枝调优可以显著减少模型的大小,提高模型的推理效率,同时尽量保持模型的性能。这种方法在深度学习模型压缩和加速中非常有用,特别是在需要部署模型到资源受限的环境中的情况下。 |
多模态推理优化工具 | 针对大规模多模态生成模型的推理优化解决方案,专注于提升推理效率和资源利用率。当前支持自适应采样优化等特性,可显著提高稳定扩散模型的推理效率。 |
Attention量化使用说明
w8a8精度调优策略
w8a16精度调优策略
稀疏量化精度调试案例
量化及稀疏量化场景导入代码样例
msModelSlim量化权重转AutoAWQ&AutoGPTQ使用指南
低显存量化特性使用说明
mindspeed-llm框架量化使用说明
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。