mindformers 发行版

最新版

v1.7.0

8ccc49b

2025-11-19 09:48

MindSpore Transformers v1.7.0

# MindSpore Transformers Release Notes

## MindSpore Transformers 1.7.0 Release Notes

以下为MindSpore Transformers套件1.7.0版本的变更日志，相较于1.6.0版本有以下关键新特性和bugfix。

### 新特性

* 数据集：Hugging Face数据集支持指定数据列读取，支持数据读取IO去冗余；
* 训练功能：支持PMA优化器；优化器状态支持CPU offloading；MoE训练支持分组路由；MoELayer支持机间通信合并；
* 推理功能：支持A8W4/A8W8量化推理；DeepSeek-V3/R1模型支持MTP并行推理；Mcore推理支持PP/EP并行；

### 新模型

以下为新支持模型：

| 模型                    | 规格                                                    |
|:----------------------|:------------------------------------------------------|
| Qwen3（Mcore）          | Qwen3-32B（预训练、微调、推理）、Qwen3-0.6B/1.7B/4B/8B/14B（微调、推理） |
| Qwen3-MoE（Mcore）      | Qwen3-30B-A3B（预训练、推理）、Qwen3-235B-A22B（推理）             |
| DeepSeek-V3/R1（Mcore） | DeepSeek-V3-671B（推理）                                  |
| TeleChat2（Mcore）      | TeleChat2-7B/35B（推理）                                  |

### Bugfix

在当前版本发布周期内，我们进行了模型/功能/易用性/文档等诸多方面的bugfix，在此列举部分关键修复内容：

* [!7150](https://gitee.com/mindspore/mindformers/pulls/7150): 修复Megatron数据集生成数量错误问题；
* [!7366](https://gitee.com/mindspore/mindformers/pulls/7366): 修复扩容续训时权重校验错误的问题；
* [!7533](https://gitee.com/mindspore/mindformers/pulls/7533): 修复指定Safetensors权重续训时，遇到相同后缀Safetensors加载异常的问题；
* [!7397](https://gitee.com/mindspore/mindformers/pulls/7397): 修复aux_loss使用默认值进行训练时，无法运行的问题；
* [!7486](https://gitee.com/mindspore/mindformers/pulls/7486): 修复Mcore架构训练场景CP与EP同时开启时的精度问题；
* [!7507](https://gitee.com/mindspore/mindformers/pulls/7507): 修复故障快恢中保存权重异常的问题；
* [!6912](https://gitee.com/mindspore/mindformers/pulls/6912)：修复build_context初始化时的循环导入问题；
* [!7513](https://gitee.com/mindspore/mindformers/pulls/7513)：修复Mcore架构推理场景加载训练权重时TP数大于kv_head数场景的问题；
* [!7247](https://gitee.com/mindspore/mindformers/pulls/7247)：修复Mcore架构推理场景Router模块无法根据配置选择融合算子和路由算法激活函数的问题。

### 变更说明

当前版本对部分历史的废弃模型/代码/资料进行了变更，详细的变更内容及说明如下：

| 变更内容   | 变更说明                                               |
|:-------|:---------------------------------------------------|
| 废弃模型日落 | 以下模型开始日落流程：Llama3.1、Mixtral、Llm_boost。将在1.8.0版本下架。 |

### 贡献者

感谢以下人员做出的贡献：

dengyepeng、hangangqiang、huangshengshuai、huangzhuo、wangpingan、wangshaocong、zhanzhan、常少中、陈心锐、陈昱坤、封霆谚、郭儒辰、贺冬冬、胡思超、胡志坤、宦晓玲、黄靖伟、霍新友、金仁操、孔紫怡、蓝翔、李惠兰、李俊标、李子垠、刘烙彬、刘通、鲁力宁、牛君豪、彭竞由、秦思莼、任峪瑾、赛尧、苏海波、万屹东、魏琢艺、肖尧、许峰、杨耀东、尤日帆、张森镇、张奕晖、张又文、赵奕舜、钟颢文、周小琪、朱晓晨

欢迎以任何形式对项目提供贡献！

最后提交信息为： !7559 [Docs] Add release notes

v1.6.0

68fa849

2025-07-30 09:33

MindSpore Transformers v1.6.0

# MindSpore Transformers Release Notes

## MindSpore Transformers 1.6.0 Release Notes

以下为MindSpore Transformers套件1.6.0版本的变更日志，相较于1.5.0版本有以下关键新特性和Bugfix。

### 新特性

* 模型架构：模型架构全新升级，封装高性能Transformer接口，提供LLM统一模型接口，通过module spec机制实现配置化模型组装。实现主流LLM模型可由公共模块组装搭建，减少冗余模型代码，增加功能特性的泛化性。其中所有Transformer接口与Megatron-LM进行了对齐，模型训练支持接口级精度比对。
* 社区协同：支持复用Hugging Face模型配置、分词器、模型权重。实现直接加载Hugging Face模型目录即可进行推理。
* 高可用：训练支持不重启快速恢复，在进程不退出的情况下，无需重新执行通信建链、图编译等耗时流程即可恢复训练；训练支持权重健康检测和异常数据跳过功能，通过监控特定指标判断权重健康性，支持跳过导致异常global norm的数据，多步跳过后自动终止训练，可手动从上一个健康的权重恢复训练。
* 服务化：Qwen3-32B支持vLLM服务化部署。
* 学习率：支持WSD（warmup stable decay）学习率，其为当前预训练常用的学习率算法。
* 文档资料：官方文档结构优化，调整了大纲结构使逻辑更清晰，方便查找所需内容；提供DeepSeek-R1模型蒸馏的案例。

### 新模型

以下为新支持模型：

| 模型               | 规格                       |
|:-----------------|:-------------------------|
| DeepSeek-V3（新架构） | DeepSeek-V3-671B（预训练、微调） |
| Qwen3（新架构）       | Qwen3-32B/235B（推理）       |

### Bugfix

在当前版本发布周期内，我们进行了模型/功能/易用性/文档等诸多方面的 bugfix ，在此列举部分关键修复内容：

* [!6575](https://gitee.com/mindspore/mindformers/pulls/6575)：修复了CommonDataloader在EOD压缩场景下Host显存占用大的问题
* [!6568](https://gitee.com/mindspore/mindformers/pulls/6568)：修复了单卡训练DropRateCallback报错
* [!6209](https://gitee.com/mindspore/mindformers/pulls/6209)：修复了MoE场景共享专家设置init_method_std不生效的问题
* [!6130](https://gitee.com/mindspore/mindformers/pulls/6130)：修复了构建时未将Megatron-LM数据集模块打包的问题

### 变更说明

当前版本对部分历史的废弃模型/代码/资料进行了变更，详细的变更内容及说明如下：

| 变更内容               | 变更说明                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                             |
|:-------------------|:---------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 下架了废弃模型的代码、配置文件和资料 | 涉及模型包括CodeLlama、Llama2、Llama3、Llama3.2、Llava、Llava-next、CogVLM2-Image、CogVLM2-Video、mLlama、Whisper、DeepSeek-V2、InternLM2、Qwen1.5、Qwen2、QwenVL、TeleChat、YiZhao、DeepSeek-Coder、DeepSeek-Coder-v1.5、GLM3、GLM32k、KnowLM、Yi、Bert、Clip、GPT2、ViT、MAE、Swin、T5、Blip2                                                                                                                                                                                                                                                                                                                                                                      |
| 下架了废弃接口的代码         | 涉及接口包括MaskedLanguageModelingTrainer、QuestionAnsweringTrainer、TextClassificationTrainer、FillMaskPipeline、ZeroShotImageClassificationTrainer、ConstrastiveLanguageImagePretrainTrainer、MaskedImageModelingTrainer、MaskedImageModelingPipeline、MIMDataset、SimMask、MaeMask、ImageClassificationTrainer、ImageClassificationPipeline、ImageCLSDataset、TranslationTrainer、TranslationPipeline、TranslationDataset、WMT16DataLoader、ImageToTextGenerationTrainer、ImageToTextPipeline、Mixup、RandomErasing、text_transform、SoftTargetCrossEntropy、MSELoss、L1Loss、SQuADMetric、FusedAdamWeightDecay、FP32StateAdamWeightDecay、hccl_tools、merge_hccl |
| 下架了废弃功能            | 涉及功能包括Chat Web                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                   |
| 下架了老版本官方文档         | 下架了仓库内老版本文档相关文件。后续官方资料文档统一呈现在MindSpore Transformers官方文档                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                                          |

### 贡献者

感谢以下人员做出的贡献：

chengxianbin、dengyepeng、ehaleva、heqinglin、huangshengshuai、huangzhuo、leida、lilei、liubuyu、wangpingan、wangshaocong、wuweikang、xiaruijie、yangminghai、zhangxuetong、zhanzhan、常少中、陈心锐、陈昱坤、樊瑞、封霆谚、葛煜洪、郭儒辰、郭志斌、胡安东、胡铭、胡思超、黄靖伟、黄磊、黄勇、吉荣庭、纪泽伟、金仁操、孔紫怡、蓝翔、雷赐晨、李俊标、李子垠、林盈来、刘晨晖、刘烙彬、刘力力、刘言伟、牛君豪、彭竞由、秦思莼、任峪瑾、赛尧、苏海波、孙宇轩、谭纬城、汪家傲、王泓皓、王振邦、魏琢艺、吴昊天、吴治锋、吴致远、肖尧、杨耀东、易阳、尤日帆、俞涵、张森镇、张奕晖、张又文、赵奕舜、周小琪、祝建伟

欢迎以任何形式对项目提供贡献！

最后提交信息为： !6932 [Build] Prevent the generation of non-standard metadata field...

v1.5.0

06e1af7

2025-05-22 10:25

MindSpore Transformers v1.5.0

# MindSpore Transformers Release Notes

## MindSpore Transformers 1.5.0 Release Notes

以下为MindSpore Transformers套件1.5.0版本的变更日志，相较于1.3.2版本有以下关键新特性和Bugfix。

### 新特性

* [分布式并行](https://www.mindspore.cn/mindformers/docs/zh-CN/r1.5.0/function/distributed_parallel.html)：新增序列流水线并行（Seq Pipe）特性，新增混合序列并行特性。
* [权重](https://www.mindspore.cn/mindformers/docs/zh-CN/r1.5.0/function/safetensors.html)：新增支持Safetensors格式权重。
* [训练监控](https://www.mindspore.cn/mindformers/docs/zh-CN/r1.5.0/function/monitor.html)：新增支持TensorBoard训练指标实时可视化监控功能。
* [高可用](https://www.mindspore.cn/mindformers/docs/zh-CN/r1.5.0/function/high_availability.html)：新增临终 CKPT 功能、UCE 故障容错恢复功能和进程级重调度恢复功能。
* [异构存储](https://www.mindspore.cn/mindformers/docs/zh-CN/r1.5.0/function/fine_grained_activations_swap.html)：新增支持训练时细粒度的激活值SWAP功能。

### 新模型

以下为新支持模型：

| 模型                                                                                           | 规格                                               |
|----------------------------------------------------------------------------------------------|--------------------------------------------------|
| [DeepSeek-V3/R1](https://gitee.com/mindspore/mindformers/tree/r1.5.0/research/deepseek3)     | DeepSeek-V3-671B（预训练、微调、推理）、DeepSeek-R1-671B（推理） |
| [Llama3.2](https://gitee.com/mindspore/mindformers/blob/r1.5.0/docs/model_cards/llama3_2.md) | Llama3.2-3B（推理）、Llama3.2-Vision-11B （微调、推理）      |
| [Qwen2.5](https://gitee.com/mindspore/mindformers/tree/r1.5.0/research/qwen2_5)              | Qwen2.5-0.5B/1.5B（推理）/7B/14B/32B/72B (微调、推理)     |
| [TeleChat2](https://gitee.com/mindspore/mindformers/tree/r1.5.0/research/telechat2)          | TeleChat2-7B/35B/115（微调、推理）                      |
| [YiZhao](https://gitee.com/mindspore/mindformers/tree/r1.5.0/research/yizhao)                | YiZhao-12B（预训练、微调、推理）                            |

### Bugfix

在当前版本发布周期内，我们进行了模型/功能/易用性/文档等诸多方面的 bugfix ，在此列举部分关键修复内容：

* [!6013](https://gitee.com/mindspore/mindformers/pulls/6013)：修复上下文并行（cp）与序列并行（use_seq_parallel）不兼容的问题。
* [!6007](https://gitee.com/mindspore/mindformers/pulls/6007)：修复训练时设置最多保留的checkpoint数量（keep_checkpoint_max）对保存纯模型参数的checkpoint不生效的问题。

### 变更说明

当前版本对部分历史的废弃模型/代码/资料进行了变更，详细的变更内容及说明如下：

| 变更内容               | 变更说明                                                                                                                                                                                         |
|--------------------|----------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------------|
| 下架了废弃模型的代码、配置文件和资料 | 涉及模型包含Bloom、BaiChuan、BaiChuan2、CodeGeeX、CodeGeeX2、GLM、GLM2、VisualGLM、InternLM、PanguAlpha、SAM、SkyWork、WizardCoder、Qwen、Ziya、Llama                                                             |
| 下架了废弃接口的代码         | 涉及接口包含CompareLoss、FusedCastAdamWeightDecay、MultiImgCapDataLoader、MultiImgCapDataset、ImageToTextRetrievalTrainer、auto_augment、group_ic_params、group_mim_parameters、TokenClassificationTrainer |
| 下架了老版本官方文档         | 下架了仓库内老版本文档相关文件。后续官方资料文档统一呈现在[MindSpore Transformers官方文档](https://www.mindspore.cn/mindformers/docs/zh-CN/r1.5.0/index.html)                                                                 |

### 贡献者

感谢以下人员做出的贡献：

chengxianbin、Chong Li、ehaleva、hangangqiang、huangshengshuai、huangzhuo、leida、lilei、limengyuan、liubuyu、lizhihao、moran、wangpingan、wangshaocong、wudawei、wutiancheng、wuweikang、yangminghai、yao_yf、zhanzhan、ZhouJingfeng、zhouyaqiang、常少中、陈心锐、陈昱坤、程泽睿志、樊瑞、范益、封霆谚、冯浩、葛煜洪、郭儒辰、何泽泉、胡安东、胡思超、胡志坤、宦晓玲、黄靖伟、黄磊、黄新元、黄勇、黄志超、黄子灵、季文尚、金仁操、孔紫怡、蓝翔、李嘉坤、李俊标、李子垠、林盈来、刘晨晖、刘烙彬、刘力力、刘言伟、马成贵、倪钰鑫、牛君豪、彭竞由、秦思莼、任峪瑾、赛尧、苏海波、孙宇轩、谭纬城、唐德志、汪家傲、王浩然、王振邦、魏琢艺、吴昊天、吴治锋、吴致远、肖尧、尤日帆、俞涵、张丹阳、张浩、张敏利、张森镇、张奕晖、张又文、赵奕舜、周声煦、周小琪、祝建伟、邹文祥

欢迎以任何形式对项目提供贡献！

最后提交信息为： !6100 【r1.5.0】【bugfix】修复eod_pad_length未实际生效

v1.3.2

024279c

2025-02-12 11:12

MindSpore Transformers v1.3.2

# MindSpore Transformers Release Notes

## MindSpore Transformers 1.3.2 Release Notes

以下为 MindSpore Transformers (以下称为 MindFormers) 套件 1.3.2 版本的变更日志，相较于1.3.0版本有以下关键新特性和 bugfix 。

### 新特性

- [Loss](https://gitee.com/mindspore/mindformers/pulls/4709)：更新流水线并行条件下的loss计算逻辑，使得能够与Megatron对齐。
- [可靠性](https://gitee.com/mindspore/mindformers/pulls/4629)：支持通过local-loss快速识别故障卡的功能。
- [高性能](https://gitee.com/mindspore/mindformers/pulls/4630)：支持使用特定rank进行profiling。
- [日志](https://gitee.com/mindspore/mindformers/pulls/4622)：增加在训练场景下打印保存ckpt时的时长信息的功能。
- [稳定性](https://www.mindspore.cn/mindformers/docs/zh-CN/r1.3.0/function/resume_training.html#%E6%96%AD%E7%82%B9%E7%BB%AD%E8%AE%AD)：断点续训支持通信阻塞，完成权重文件一致性校验。

### 新模型

以下为新支持模型：

| 模型                                                                                             | 规格                                                                |
|------------------------------------------------------------------------------------------------|-------------------------------------------------------------------|
| [TeleChat2](https://gitee.com/mindspore/mindformers/blob/r1.3.0/research/telechat2) | TeleChat2-7b (微调、推理)、TeleChat2-35b (微调、推理)、TeleChat2-115b (微调、推理) |

### Bugfix

在当前版本发布周期内，我们进行了模型/功能/易用性/文档等诸多方面的 bugfix ，在此仅列举部分修复内容：

- [!5051](https://gitee.com/mindspore/mindformers/pulls/5051)：修复训练或推理时，lora的dtype与model_config中不一致的问题。
- [!5021](https://gitee.com/mindspore/mindformers/pulls/5021)：修复benchmark训练工具在线下载处理数据集报错的问题。
- [!4999](https://gitee.com/mindspore/mindformers/pulls/4999)：修复多batch并发场景下SLoraModel无法改变输入batchsize的问题。
- [!4914](https://gitee.com/mindspore/mindformers/pulls/4914)：修复部分场景使用msrun启动MF_LOG_PATH失效的问题。

### 贡献者

感谢以下人员做出的贡献：

Chong Li、chenyijie、heqinglin、huangshengshuai、lilei、lizhihao、lizheng、moran、paolo poggi、wangshaocong、wutiancheng、xiaoshihan、yangminghai、yangzhenzhang、zhanzhan、zhaozhengquan、ZhouJingfeng、zhouyaqiang、包淦超、常少中、陈心锐、陈昱坤、陈志坚、程鹏、楚浩田、戴仁杰、冯浩、冯明昊、冯汛、耿辰华、郭儒辰、古雅诗、贺冬冬、何泽泉、胡思超、胡映彤、宦晓玲、黄磊、黄新元、黄勇、黄子灵、纪泽伟、金仁操、孔德硕、孔紫怡、寇凯睿、蓝翔、李俊标、李洋、李文、李永文、李子垠、林鑫、林盈来、刘晨晖、刘奇、刘烙彬、刘力力、刘思铭、吕凯盟、倪钰鑫、牛君豪、邱杨、任峪瑾、赛尧、孙宇轩、唐德志、谭纬城、王浩然、汪家傲、王嘉霖、王廖辉、王双玲、魏琢艺、吴治锋、吴致远、吴昊天、杨星宇、杨犇、杨承翰、杨璇、易阳、尤日帆、俞涵、张浩、张泓铨、张吉昊、张俊杰、张敏利、张森镇、张伟、张一飞、张奕晖、张雨强、赵奕舜、周洪叶、周声煦、周小琪、朱亿超、邹文祥

欢迎以任何形式对项目提供贡献！

最后提交信息为： !5142 【bugfix】【r1.3.0】更新qwen15推理开箱配置

v1.3.0

debac6a

2024-11-14 15:49

MindSpore Transformers v1.3.0

# MindSpore Transformers Release Notes

## MindSpore Transformers 1.3.0 Release Notes

以下为 MindSpore Transformers (以下称为 MindFormers ) 套件 1.3.0 版本的变更日志，相较于1.2.0版本有以下关键新特性和 bugfix 。

### 新特性

- [安装验证](https://www.mindspore.cn/mindformers/docs/zh-CN/dev/mindformers/mindformers.run_check.html)：新增了便捷的API用以查询MindFormers的安装是否成功。
- [日志优化]：优化 MindFormers 日志，打印信息更全面，更易于精度定位以及训练状态的监控。
- [LLM对话API](https://www.mindspore.cn/mindformers/docs/zh-CN/dev/generation/mindformers.generation.GenerationMixin.html#mindformers.generation.GenerationMixin.chat)：提供了大型语言模型的对话文本生成推理接口。
- [量化推理](https://www.mindspore.cn/mindformers/docs/zh-CN/dev/usage/quantization.html#)：集成 MindSpore Golden Stick 工具组件，提供统一量化推理流程。
- [BIN格式数据集](https://www.mindspore.cn/mindformers/docs/zh-CN/dev/function/dataset.html#bin-%E6%A0%BC%E5%BC%8F%E6%95%B0%E6%8D%AE%E9%9B%86)：新增对 BIN 格式数据集的处理能力，包括如何制作 BIN 格式数据集和在任务中使用 BIN 格式数据集。
- [在线数据集](https://www.mindspore.cn/mindformers/docs/zh-CN/dev/function/dataset.html#%E5%9C%A8%E7%BA%BF%E6%95%B0%E6%8D%AE%E9%9B%86)：训练时支持加载在线数据集，无需本地离线处理。
- [榜单评测](https://www.mindspore.cn/mindformers/docs/zh-CN/dev/usage/evaluation.html)：基于 Harness 评测框架，支持加载 MindFormers 模型进行评测，支持自定义 prompt 和评测指标，包含 loglikelihood、 generate_until、 loglikelihood_rolling 三种类型的评测任务。基于 VLMEvalKit 评测框架，支持加载 MindFormers 多模态大模型进行评测，支持自定义 prompt 和评测指标，包含 MME、 MMEBench、 COCO caption 三种图文理解评估方法。
- [Benchmark工具](https://gitee.com/mindspore/mindformers/tree/r1.3.0/docs/feature_cards/benchmark.md)：新增预置大模型训练推理 Benchmark 工具，支撑用户实现快捷部署。
- [长序列训练](https://gitee.com/mindspore/mindformers/tree/r1.3.0/docs/feature_cards/Long_Sequence_Training.md)：新增支持多种长序列并行，序列长度支持至10M。
- [断点续训优化](https://www.mindspore.cn/mindformers/docs/zh-CN/dev/function/resume_training.html#%E6%96%AD%E7%82%B9%E7%BB%AD%E8%AE%AD)：断点续训场景下，优化权重和全局一致性文件保存流程，减少续训权重的校验完整性过程，加速恢复时间。
- [流水线并行优化](https://www.mindspore.cn/docs/zh-CN/master/model_train/parallel/pipeline_parallel.html#interleaved-pipeline%E8%B0%83%E5%BA%A6)：提升流水线并行的效率，减少 Bubble 的占比，采用 interleaved pipeline 调度，且做了内存优化。
- [动态shape]：新增 Llama3-8B 和 Qwen2-7B 模型支持监督微调数据的输入长度动态变化。

### 新模型

以下为新支持模型：

| 模型                                                                                                           | 规格                                                                                                                 |
|--------------------------------------------------------------------------------------------------------------|--------------------------------------------------------------------------------------------------------------------|
| [Llama3.1](https://gitee.com/mindspore/mindformers/tree/r1.3.0/research/llama3_1/llama3_1.md)                | Llama3.1-8B (微调、推理)、Llama3.1-70B (微调、推理)                                                                           |
| [GLM4](https://gitee.com/mindspore/mindformers/tree/r1.3.0/docs/model_cards/glm4.md)                         | GLM4-9B (微调、推理)                                                                                                    |
| [CogVLM2_Video](https://gitee.com/mindspore/mindformers/tree/r1.3.0/docs/model_cards/cogvlm2_video.md)       | CogVLM2-Video-Chat-13B (微调、推理)                                                                                     |
| [CogVLM2_Image](https://gitee.com/mindspore/mindformers/tree/r1.3.0/docs/model_cards/cogvlm2_image.md)       | CogVLM2-Llama3-Chat-19B (推理)                                                                                       |
| [Qwen1.5](https://gitee.com/mindspore/mindformers/blob/r1.3.0/research/qwen1_5/qwen1_5.md)                   | Qwen1.5-0.5B (推理)、Qwen1.5-1.8B (推理)、Qwen1.5-4B (推理)、Qwen1.5-32B (推理)                                               |
| [Qwen2](https://gitee.com/mindspore/mindformers/tree/r1.3.0/research/qwen2/qwen2.md)                         | Qwen2-0.5B (微调、推理)、Qwen2-1.5B (微调、推理)、Qwen2-7B (微调、推理)、Qwen2-57B-A14B (推理)、Qwen2-57B (预训练、微调、推理)、Qwen2-72B (微调、推理) |
| [DeepSeek Coder1.5](https://gitee.com/mindspore/mindformers/tree/r1.3.0/research/deepseek1_5/deepseek1_5.md) | DeepSeek-Coder-7B-V1.5 (微调、推理)                                                                                     |
| [DeepSeekV2](https://gitee.com/mindspore/mindformers/tree/r1.3.0/research/deepseek2/deepseek2.md)            | DeepSeek-V2 (预训练、微调、推理)                                                                                            |
| [Whisper](https://gitee.com/mindspore/mindformers/tree/r1.3.0/docs/model_cards/whisper.md)                   | Whisper-Large-V3 (微调)                                                                                              |

### Bugfix

在当前版本发布周期内，我们进行了模型/功能/易用性/文档等诸多方面的 bugfix ，在此仅列举部分修复内容：

- [!3674](https://gitee.com/mindspore/mindformers/pulls/3674)：修复 Internlm2 模型解码不符合预期的问题。
- [!4401](https://gitee.com/mindspore/mindformers/pulls/4401)：修复 Baichuan2-13B 模型 MindIE 推理精度问题。

### 贡献者

感谢以下人员做出的贡献：

Chong Li，chenyijie，heqinglin，huangshengshuai，lilei，lizhihao，lizheng，moran，paolo poggi，wangshaocong，wutiancheng，xiaoshihan，yangminghai，yangzhenzhang，zhanzhan，zhaozhengquan，ZhouJingfeng，zhouyaqiang，包淦超，常少中，陈心锐，陈昱坤，陈志坚，程鹏，楚浩田，戴仁杰，冯浩，冯明昊，冯汛，耿辰华，郭儒辰，古雅诗，贺冬冬，何泽泉，胡思超，胡映彤，宦晓玲，黄磊，黄新元，黄勇，黄子灵，金仁操，孔德硕，孔紫怡，寇凯睿，蓝翔，李俊标，李洋，李文，李永文，李子垠，林鑫，林盈来，刘晨晖，刘奇，刘烙彬，刘力力，刘思铭，吕凯盟，倪钰鑫，牛君豪，邱杨，任峪瑾，赛尧，孙宇轩，唐德志，谭纬城，王浩然，汪家傲，王嘉霖，王廖辉，王双玲，魏琢艺，吴治锋，吴致远，吴昊天，杨星宇，杨犇，杨承翰，杨璇，易阳，尤日帆，俞涵，张浩，张泓铨，张吉昊，张俊杰，张敏利，张森镇，张伟，张一飞，张奕晖，张雨强，赵奕舜，周洪叶，周小琪，朱亿超，邹文祥

欢迎以任何形式对项目提供贡献！

最后提交信息为： !4633 [bugfix] [r1.3.0] [docs] ReleaseNote 文档规范

v1.2.0

980171a

2024-07-24 19:00

MindSpore Transformers v1.2.0

# MindSpore Transformers 1.2.0 RELEASE NOTE

以下为MindSpore Transformers (以下称为MindFormers) 套件 1.2.0 版本的变更日志，相较于[1.1.0](https://gitee.com/mindspore/mindformers/blob/r1.1.0/docs/RELEASE_NOTE.md)版本有以下关键新特性和bug
fix。

## 新特性

- **新增模型支持带框架推理**：新增支持模型包含Qwen1.5_7b、Qwen1.5_14b、Qwen1.5_72b、Llama3_70b、Yi_34b等。
- **新增模型支持bfloat16训练**：新增支持模型包含Qwen1.5_7b、Qwen1.5_14b、Qwen1.5_72b、Llama3_70b、Yi_34b等。
- [AdamW优化器](https://gitee.com/mindspore/mindformers/pulls/3310)：新增AdamW优化器，对齐Megatron AdamW。
- **支持MindIE进行服务化部署**：[MindIE](https://www.hiascend.com/software/mindie)，全称Mind Inference
  Engine，是华为昇腾针对AI全场景业务的推理加速套件。MindFormers新增对MindIE的对接，承载在模型应用层MindIE-LLM，通过MindIE-Service对MindFormers中LLM模型进行部署。
- [长序列训练](https://gitee.com/mindspore/mindformers/tree/r1.2.0/docs/feature_cards/Long_Sequence_Training.md)：新增支持长序列训练特性，通过在配置yaml文件中设置`parallel_config.context_parallel`开启序列并行，当前支持32k至256k。
- [断点续训权重加载2.0](https://gitee.com/mindspore/mindformers/tree/r1.2.0/docs/feature_cards/Resume_Training.md)：断点续训场景下，新增指定续训权重功能，新增故障恢复下进行权重完整性校验并自动加载最新完整权重。
- [权重自动转换2.0](https://gitee.com/mindspore/mindformers/tree/r1.2.0/docs/feature_cards/Transform_Ckpt.md)：自动权重转换新增多进程转换。

## 新模型

以下为新支持模型：

| 模型                                                                                            | 规格                                                            |
|-----------------------------------------------------------------------------------------------|---------------------------------------------------------------|
| [Mixtral](https://gitee.com/mindspore/mindformers/tree/r1.2.0/research/mixtral/mixtral.md)    | Mixtral_8x7b（新增32k预训练、推理）                                       
| [Qwen1.5](https://gitee.com/mindspore/mindformers/tree/r1.2.0/research/qwen1_5/qwen1_5.md)    | Qwen1.5_7b（预训练、微调、推理）、Qwen1.5_14b（预训练、微调、推理）、Qwen1.5_72b（新增预训练） |
| [Llama3](https://gitee.com/mindspore/mindformers/tree/r1.2.0/research/llama3/llama3.md)       | Llama3_70b（新增预训练、微调）                                            |
| [Deepseek](https://gitee.com/mindspore/mindformers/tree/r1.2.0/research/deepseek/deepseek.md) | Deepseek_Coder_33b（新增微调）                                              |
| [Yi](https://gitee.com/mindspore/mindformers/tree/r1.2.0/research/yi/yi.md)                   | Yi_6b（新增微调）、Yi_34b（新增预训练、微调）                                          |
| [QwenVL](https://gitee.com/mindspore/mindformers/tree/r1.2.0/research/qwenvl/qwenvl.md)       | QwenVL_9.6b（微调、推理）                                            |

## Bugfix

在当前版本发布周期内，我们进行了模型/功能/易用性/文档等诸多方面的Bugfix，在此仅列举部分修复内容：

- [!3345](https://gitee.com/mindspore/mindformers/pulls/3345)：修复`Linear`在`transpose_b=False`时传入正确`weight`仍报错问题。
- [!3277](https://gitee.com/mindspore/mindformers/pulls/3277)：修复使用梯度累积时，`warpper`传入了错误的`micro_batch_num`问题。

## 贡献者

感谢以下人员做出的贡献：

Chenhua Geng，heqinglin，koukairui，renyujin，shuchi，陈心锐，陈子恒，冯浩，胡思超，黄磊，黄生帅，黄勇，黄子灵，倪钰鑫，苏海波，李子垠，杨星宇，牛君豪，张森镇，张又文，谭纬城，吴致远，杨星宇，刘群，曹宇麟，方泽华，金仁操，刘群，李永文，钱驾宏，吴昊天，杨璇，汪家傲，范益，陈昱坤，李洋

欢迎以任何形式对项目提供贡献！

最后提交信息为： !3597 baichuan2_7b推理精度问题修复

v1.1.0

598e154

2024-05-16 15:23

MindSpore Transformers v1.1.0

# MindSpore Transformers 1.1.0 RELEASE NOTE

以下为MindSpore Transformers (以下称为MindFormers) 套件 1.1.0 版本的变更日志，相较于1.0.2版本有以下关键新特性和bug
fix。

## MindSpore版本适配

该版本对MindSpore2.3版本进行了适配，该版本支持MindSpore版本为MindSpore 2.3.0-rc2，请注意安装配套版本，其他版本可能会出现问题，同时支持的硬件为Atlas 800T A2服务器。

## 新特性

- [msrun启动方式](https://gitee.com/mindspore/mindformers/blob/r1.1.0/README.md#方式一使用msrun方式启动仅适用于配套mindspore23以上版本):
  msrun是动态组网启动方式的封装，用户可使用msrun以单个命令行指令的方式在各节点拉起多进程分布式任务，并且无需手动设置动态组网环境变量，并且无需依赖第三方库以及配置文件。
- [LoRA权重合并](https://gitee.com/mindspore/mindformers/tree/r1.1.0/docs/feature_cards/Transform_Lorackpt.md):
  LoRA权重合并将LoRA分支权重合并到原模型对应权重，合并后权重可以使用原模型直接进行推理。
- [生成任务min_length控制](https://gitee.com/mindspore/mindformers/pulls/2267):
  生成任务支持最短生成长度min_length和最短生成tokens数min_new_tokens配置，用以控制最短生成长度，防止模型生成长度过短。
- [ckpt权重转换至torch bin权重](https://gitee.com/mindspore/mindformers/tree/r1.1.0/docs/feature_cards/Convert_Weight.md):
  使用Mindformers训练得到的ckpt权重，可以通过提供的权重转换功能转换成torch
  bin权重，用于推理评估等下游任务。
- [GLM3支持多轮对话训练](https://gitee.com/mindspore/mindformers/tree/r1.1.0/docs/model_cards/glm3.md#多轮对话格式数据集):
  GLM3模型新增多轮对话训练，提供多轮对话的数据集处理方式。
- **训推一体**: 训推一体通过使用高性能算子库，在MindFormers框架中下发性能优化、tiling
  cache、动态shape、PagedAttention等方式，以在线推理方式达成高效的推理性能，实现训练到推理零成本迁移。目前语言类模型均支持训推一体。
- **BF16训练**：支持模型包含Llama2_7b、Llama2_13b、Llama2_70b、wizardcoder、glm3_6b、qwen_7b、qwen_14b等。
- [学习率优化](https://gitee.com/mindspore/mindformers/pulls/2301)：
  新增学习率CosineAnnealingLR和CosineAnnealingWarmRestarts，及对存量学习率warmup steps及decay
  steps配置，详见[!2300](https://gitee.com/mindspore/mindformers/pulls/2300)。
- [qwen系列支持8k序列长度训练](https://gitee.com/mindspore/mindformers/blob/r1.1.0/research/qwen/qwen.md#全参微调):
  qwen系列支持8k序列长度进行全参微调，支持规模为7b及14b。

## 新模型

以下为 research 模型：

| 模型                                                                                            | 规格            |
|-----------------------------------------------------------------------------------------------|---------------|
| [deepseek](https://gitee.com/mindspore/mindformers/tree/r1.1.0/research/deepseek/deepseek.md) | deepseek_coder_33b  |
| [Llama3](https://gitee.com/mindspore/mindformers/tree/r1.1.0/research/llama3/llama3.md)       | llama3_8b     |
| [mixtral](https://gitee.com/mindspore/mindformers/tree/r1.1.0/research/mixtral/mixtral.md)    | mixtral_8x7b  |
| [qwen_1.5](https://gitee.com/mindspore/mindformers/tree/r1.1.0/research/qwen1_5/qwen1_5.md)   | qwen1.5_72b qwen1.5_14B   |
| [yi](https://gitee.com/mindspore/mindformers/tree/r1.1.0/research/yi/yi.md)                   | yi_6b, yi_34b |

## Bugfix

在当前版本发布周期内，我们进行了模型/功能/易用性/文档等诸多方面的Bugfix，在此仅列举部分修复内容：

- [!2918](https://gitee.com/mindspore/mindformers/pulls/2918):
  修复training_dataloader中在开启isAlign时数组index问题，修复多进程下host内存占用过多问题。
- [!2360](https://gitee.com/mindspore/mindformers/pulls/2360): 修复CrossEntropy损失函数在logits数值较大时计算结果不对问题。
- [#I9BETP](https://gitee.com/mindspore/mindformers/issues/I9BETP)：修复PolynomialWithWarmUpLR学习率与PyTorch实现不一致问题。

## 贡献者

感谢以下人员做出的贡献：

Chenhua Geng, dingxu (E), heqinglin, koukairui, renyujin, shuchi, 陈心锐, 陈子恒, 冯浩, 胡桂鹏, 胡思超, 黄磊, 黄生帅,
黄勇, 黄子灵, 焦毅, 林鑫, 倪钰鑫, 彭康, 苏海波, 田凯, 李子垠, 杨星宇, 牛君豪, 张森镇, 张小雯, 张又文, 赵栢杨, 周胜凯,
朱国栋, 张银霞, 谭纬城，吴致远，杨星宇，刘群，曹宇麟，方泽华，金仁操，刘群，李永文，钱驾宏，吴昊天，杨璇，汪家傲

欢迎以任何形式对项目提供贡献！

最后提交信息为： update README.md.

v1.0.2

45d1fa5

2024-04-23 12:05

MindSpore Transformers v1.0.2

# MindSpore Transformers 1.0.2 RELEASE NOTE

以下为MindSpore Transformers (以下称为MindFormers) 套件 1.0.2 版本的变更日志，相较于1.0.1版本有以下关键新特性和bug fix修复。

## 新特性

- [GLM3](./model_cards/glm3.md)/[GLM3-32k](../research/glm32k/glm32k.md)新增支持Paged Attention推理。

## 新模型

以下为 research 模型：

| 模型                                        | 规格          |
|-------------------------------------------|-------------|
| [Qwen1_5](https://gitee.com/mindspore/mindformers/blob/r1.0/research/qwen1_5/qwen1_5.md) | qwen1_5_72b |
| [Mengzi3](https://gitee.com/mindspore/mindformers/blob/r1.0/research/mengzi3/mengzi3.md) | mengzi3_13b |

## Bugfix

在当前版本发布周期内，我们进行了模型/功能/文档等Bugfix，修复内容如下：

- [#I9EWKI](https://gitee.com/mindspore/mindformers/issues/I9EWKI)：修复了离线推理启动脚本[run_infer_main.py](https://gitee.com/mindspore/mindformers/blob/r1.0/run_infer_main.py)中dynamic开关和paged attention开关同时开启时报错的问题。
- [#I9G6BG](https://gitee.com/mindspore/mindformers/issues/I9G6BG)：修复了多卡权重自动转换Rank 0进程出错时，其他Rank进程不会自动终止的问题。

# MindSpore Transformers 1.0.1 RELEASE NOTE

以下为MindSpore Transformers (以下称为MindFormers) 套件 1.0.1 版本的变更日志，相较于1.0.0版本有以下关键bug fix修复。

## Bugfix

在当前版本发布周期内，我们进行了模型/功能/文档等Bugfix，修复内容如下：

- [#I91T78](https://gitee.com/mindspore/mindformers/issues/I91T78)：修复了大模型断点续训时日志显示的epoch与所加载ckpt的epoch不一致问题。

# MindSpore Transformers 1.0.0 RELEASE NOTE

以下为MindSpore Transformers (以下称为MindFormers) 套件 1.0.0 版本的变更日志

## 新特性

- [LLM数据在线加载](./feature_cards/LLM_DataLoader.md)：对于LLM模型的训练场景，该特性支持直接读取非MindRecord格式的数据，如json、parquet等，减少了将数据转换为MindRecord格式的工作量；
- [Flash Attention](./feature_cards/Training_Algorithms.md#flash-attention)：Flash Attention（简称FA），是深度学习业界主流的注意力计算加速算法；MindSpore+Ascend架构也提供了FA实现，当前MindFormers对部分模型进行了FA的适配，可使用 `model_config` 中的 `use_flash_attention` 配置项控制模型是否使用FA；依赖MindSpore2.2.10及以上版本；
- [断点续训支持Step级别恢复](./feature_cards/Resume_Training.md)：对断点续训特性进行了更新迭代，现在使用断点续训特性时，可以自动跳过已训练的数据，恢复到断点权重对应的step位置继续训练；
- [梯度累积](./feature_cards/Training_Algorithms.md#梯度累积)：梯度累积算法是业界常用的扩大batch_size，解决OOM的一种算法，MindSpore在2.1.1之后的版本中增加了 `mindspore.nn.wrap.cell_wrapper.GradAccumulationCell` 这一梯度累积实现接口，通过拆分MiniBatch的形式实现了梯度累积；MindFormers套件对上述实现接口进行了适配，新增 `gradient_accumulation_steps` 配置项以控制梯度累积步数；限制：梯度累积当前仅支持在半自动并行模式下使用；
- output文件夹路径支持自定义：MindFormers现在支持配置 `output_dir` 以自定义训练权重，切分策略等文件的保存路径；日志文件的保存路径由环境变量 `LOG_MF_PATH` 控制，可在[环境变量使用说明](https://mindformers.readthedocs.io/zh-cn/r1.0/docs/practice/Environment.html)中查看具体信息；
- [自动并行](./feature_cards/Auto_Parallel.md)：自动并行模式让用户可以无需为网络中的每一个算子配置并行策略，即可达到高效并行训练的效果。详情参考MindSpore官网关于[自动并行](https://www.mindspore.cn/tutorials/experts/zh-CN/master/parallel/auto_parallel.html)的说明。当前本特性为实验性特性，仅在llama2模型上提供了自动并行的使用配置；
- [adaptive loss scale](./feature_cards/Training_Algorithms.md#adaptive-loss-scaling)：现有dynamic loss scaling方案使用固定scale window，在FP16或更低精度(8bit浮点格式)混合精度训练训练时，如果选用较大的scale window，存在loss scaling 调整不及时的风险，影响模型收敛性和收敛速度；如果选用较小的scale window，loss scale调整至合适的值时，仍会频繁上调，损失大量训练数据；Adaptive loss scaling方案，通过动态调节scale window，实现自适应调整loss scale，实时将loss scale调整至FP16和8bit浮点格式正常训练所需的合适的值，同时避免损失大量训练数据；
- [LLM大模型通用export接口](./feature_cards/Inference.md#模型导出增量推理为例)：执行MindSpore Lite推理时需导出MindIR文件，本特性提供了适用于LLM大模型的通用export导出接口，用户可使用接口便捷地完成导出功能；
- [动态组网分布式启动方式](./feature_cards/Dynamic_Cluster.md)：MindSpore2.2.0以上版本提供了动态组网的启动方式，可以在不依赖rank table和第三方库的情况下拉起分布式任务；MindFormers在此提供了相应的脚本和使用教程；
- beam search采样：文本生成新增支持beam search后处理采样，调用model.generate()接口时，num_beams入参设置大于1的整数值即可启用beam search采样；当前尚不支持与增量推理，流式推理特性同时使用；
- 模型权重分次加载：MindFormers新增支持了模型权重分次加载的逻辑，适用于低参微调场景，分别加载base权重和lora微调权重；使用方式可参考[configs/README.md](https://gitee.com/mindspore/mindformers/blob/r1.0/configs/README.md)中关于 `load_checkpoint` 参数的介绍。

## 新模型

| 模型                                    | 规格             |
| --------------------------------------- | ---------------- |
| [CodeGeeX2](./model_cards/codegeex2.md) | codegeex2_6b     |
| [CodeLLaMA](./model_cards/codellama.md) | codellama_34b    |
| [GLM2-PTuning](./model_cards/glm2.md)   | glm2_6b_ptuning2 |
| [GLM3](./model_cards/glm3.md)           | glm3_6b          |
| [GPT2](./model_cards/gpt2.md)           | gpt2_13b         |

以下为 research 模型：

| 模型                                                  | 规格                                  |
| ----------------------------------------------------- | ------------------------------------- |
| [InternLM](../research/internlm/internlm.md)          | interlm_20b (仅推理)                  |
| [Qwen](../research/qwen/qwen.md)                      | qwen_7b<br/>qwen_7b_lora<br/>qwen_14b |
| [Skywork](../research/skywork/skywork.md)             | skywork_13b                           |
| [VisualGLM](../esearch/visualglm/visualglm.md)        | visualglm_6b                          |
| [WizardCoder](../research/wizardcoder/wizardcoder.md) | wizardcoder_15b                       |

## Bugfix

在当前版本发布周期内，我们进行了模型/功能/易用性/文档等诸多方面的Bugfix，在此仅列举部分修复内容：

- [#I8URBL](https://gitee.com/mindspore/mindformers/issues/I8URBL)：修复了部分数据集在半自动并行+full_batch下仍错误地进行shard导致的训练数据不正确的问题。
- [#I8JVTM](https://gitee.com/mindspore/mindformers/issues/I8JVTM)：修复了在使用Trainer传入模型实例时，GradAccumulation，PipelineCell等封装工具类未正确生效的问题。
- [#I8L4LZ](https://gitee.com/mindspore/mindformers/issues/I8L4LZ)：修复了断点续训传入数据集实例时无法跳过已训练数据的问题。
- [#I8NHO5](https://gitee.com/mindspore/mindformers/issues/I8NHO5)：修复了get_pet_model方法的加载权重逻辑，解决无法加载部分低参微调模型权重的问题。
- [#I8THC3](https://gitee.com/mindspore/mindformers/issues/I8THC3)：修复了权重切分创建软链接时多进程读写操作冲突的问题。

欢迎对本项目提出意见与建议，以帮助项目持续改进。

## 贡献者

感谢以下人员做出的贡献：

Chenhua Geng, dingxu (E), fushengshi, heqinglin, koukairui, liuzhidan, renyujin, shuchi, Zhenhao Li, ZhidanLiu, 陈心锐, 陈子恒, 冯浩, 胡桂鹏, 胡思超, 黄磊, 黄生帅, 黄欣靓, 黄勇, 黄子灵, 姜海涛, 焦毅, 李兴炜, 林鑫, 倪钰鑫, 彭康, 苏海波, 田凯, 杨贵龙, 杨路航, 余金, 张森镇, 张小雯, 张又文, 赵栢杨, 周胜凯, 朱国栋

欢迎以任何形式对项目提供贡献！

最后提交信息为： !2762 【r1.0】修复glm2_6b_ptuning2在增量推理时kvcache的序列维度没有扩充prefix的问题

v1.0.0

d25941f

2024-01-24 14:28

MindSpore Transformers v1.0.0

# MindSpore Transformers 1.0.0 RELEASE NOTE

本文为MindSpore Transformers (以下称为MindFormers) 套件 1.0.0 版本的变更日志

## 新特性

- LLM数据在线加载：对于LLM模型的训练场景，该特性支持直接读取非MindRecord格式的数据，如json、parquet等，减少了将数据转换为MindRecord格式的工作量；
- Flash Attention：Flash Attention（简称FA），是深度学习业界主流的注意力计算加速算法；MindSpore+Ascend架构也提供了FA实现，当前MindFormers对部分模型进行了FA的适配，可使用 `model_config` 中的 `use_flash_attention` 配置项控制模型是否使用FA；依赖MindSpore2.2.10及以上版本；
- 断点续训支持Step级别恢复：对断点续训特性进行了更新迭代，现在使用断点续训特性时，可以自动跳过已训练的数据，恢复到断点权重对应的step位置继续训练；
- 梯度累积：梯度累积算法是业界常用的扩大batch_size，解决OOM的一种算法，MindSpore在2.1.1之后的版本中增加了 `mindspore.nn.wrap.cell_wrapper.GradAccumulationCell` 这一梯度累积实现接口，通过拆分MiniBatch的形式实现了梯度累积；MindFormers套件对上述实现接口进行了适配，新增 `gradient_accumulation_steps` 配置项以控制梯度累积步数；限制：梯度累积当前仅支持在半自动并行模式下使用；
- output文件夹路径支持自定义：MindFormers现在支持配置 `output_dir` 以自定义训练权重，切分策略等文件的保存路径；日志文件的保存路径由环境变量 `LOG_MF_PATH` 控制，可在[环境变量使用说明](https://mindformers.readthedocs.io/zh-cn/r1.0/docs/practice/Environment.html)中查看具体信息；
- 自动并行：自动并行模式让用户可以无需为网络中的每一个算子配置并行策略，即可达到高效并行训练的效果。详情参考MindSpore官网关于[自动并行](https://www.mindspore.cn/tutorials/experts/zh-CN/master/parallel/auto_parallel.html)的说明。当前本特性为实验性特性，仅在llama2模型上提供了自动并行的使用配置；
- adaptive loss scale：现有dynamic loss scaling方案使用固定scale window，在FP16或更低精度(8bit浮点格式)混合精度训练训练时，如果选用较大的scale window，存在loss scaling 调整不及时的风险，影响模型收敛性和收敛速度；如果选用较小的scale window，loss scale调整至合适的值时，仍会频繁上调，损失大量训练数据；Adaptive loss scaling方案，通过动态调节scale window，实现自适应调整loss scale，实时将loss scale调整至FP16和8bit浮点格式正常训练所需的合适的值，同时避免损失大量训练数据；
- LLM大模型通用export接口：执行MindSpore Lite推理时需导出MindIR文件，本特性提供了适用于LLM大模型的通用export导出接口，用户可使用接口便捷地完成导出功能；
- 动态组网分布式启动方式：MindSpore2.2.0以上版本提供了动态组网的启动方式，可以在不依赖rank table和第三方库的情况下拉起分布式任务；MindFormers在此提供了相应的脚本和使用教程；
- beam search采样：文本生成新增支持beam search后处理采样，调用model.generate()接口时，num_beams入参设置大于1的整数值即可启用beam search采样；当前尚不支持与增量推理，流式推理特性同时使用；
- 模型权重分次加载：MindFormers新增支持了模型权重分次加载的逻辑，适用于低参微调场景，分别加载base权重和lora微调权重；使用方式可参考[configs/README.md](https://gitee.com/mindspore/mindformers/blob/r1.0/configs/README.md)中关于 `load_checkpoint` 参数的介绍。

## 新模型

| 模型                                    | 规格             |
| --------------------------------------- | ---------------- |
| CodeGeeX2 | codegeex2_6b     |
| CodeLLaMA | codellama_34b    |
| GLM2-PTuning   | glm2_6b_ptuning2 |
| GLM3           | glm3_6b          |
| GPT2           | gpt2_13b         |

以下为 research 模型：

| 模型                                                  | 规格                                  |
| ----------------------------------------------------- | ------------------------------------- |
| InternLM          | interlm_20b (仅推理)                  |
| Qwen                      | qwen_7b<br/>qwen_7b_lora<br/>qwen_14b |
| Skywork             | skywork_13b                           |
| VisualGLM        | visualglm_6b                          |
| WizardCoder | wizardcoder_15b                       |

## Bugfix

在当前版本发布周期内，我们进行了模型/功能/易用性/文档等诸多方面的Bugfix，在此仅列举部分修复内容：

欢迎对本项目提出意见与建议，以帮助项目持续改进。

## 贡献者

感谢以下人员做出的贡献：

欢迎以任何形式对项目提供贡献！

最后提交信息为： !2180 更新环境配置

v0.6.0

66360eb

2023-07-29 13:26

MindSpore Transformers v0.6.0

最后提交信息为： update mindspore depency

GVPMindSpore/mindformers关闭

搜索帮助

GVP MindSpore/mindformers
关闭