# RWKV-PEFT **Repository Path**: rwkv-vibe/RWKV-PEFT ## Basic Information - **Project Name**: RWKV-PEFT - **Description**: No description available - **Primary Language**: Unknown - **License**: Apache-2.0 - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-11-06 - **Last Updated**: 2025-12-24 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README

RWKV-PEFT

\[ [English](README.md) | 中文 \] RWKV-PEFT 是一个旨在为 RWKV 模型实现高效参数微调的官方实现，支持在多种硬件上实现多种先进的微调方法。 ## 最近更新：支持 v7 和一些代码调整 1. 移除了 `--fla` 并增加了 `--op cuda/fla/triton`。现在你可以在 `--op` 中自由地选择算子。默认推荐 cuda，如果你想要使用 state tuning 请设置 `--op fla` 和 `--train_type state`。 2. 把 `Bone` 名称修改为 `DiSHA`，注意 DiSHA 中的 rank 的参数量只有 LoRA 的一半，因此同等参数下 DiSHA(r)=2*LoRA(r)，例如 ` disha_config='{"mode":"bone","load":"","r":64}' ` > [!TIP] > DiSHA 微调可选择 `bone` 或者 `bat` 模式，推荐使用 `bone` 模式，训练效果好且资源占用较低 1. 模型代码更干净且容易迁移，详细查看文件 `rwkvt` 2. 移除了简易的可视化训练，后续会有专门的程序支持可视化训练 3. 新增 `lr_schedule` 参数，默认使用 `cos_decay`。可以通过 `--lr_schedule wsd` 使用余弦退火 4. 可以通过设置训练参数 `--my_testing "x070"` 微调 RWKV-7 模型 ## SFT 训练支持 SFT 训练，相关参数和用法请参考 `scripts/run_sft.sh` SFT 训练的参数解释： - `--data_file 'meta-math/MetaMathQA'`：数据路径，可直接选择 Hugging Face 路径，也可选择自己的 json 文件路径 - `--data_type sft`：选择数据类型 - `--sft_field query response`：根据 json 中的问答格式进行检索 - `--sft_split "train"`：设置加载的训练数据量，"train" 全部加载，"train[:1000]"只加载 1000 条数据 SFT 训练参数参考： ``` --data_type sft --sft_field query response --sft_split "train" ``` ### SFT 训练具体设置 SFT 训练的代码在 `RWKV-PEFT/src/rwkv_datasets/SFTdataset.py` 中，具体设置如下： ``` tokenizer_path = 'RWKV/rwkv-5-world-3b' #选择分词器（请选择官方分词器） IGNORE_INDEX = -100 #填充（请勿修改） EOT_TOKEN = "\x17" #设置你需要的停止符 # 根据需求修改对应的prompt PROMPT = ( "Below is an instruction that describes a task. " "Write a response that appropriately completes the request.\n\n" "### Instruction:\n{instruction}\n\n### Response:" ) ``` > [!TIP] > 中国网络下载 Hugging Face 数据会超时，国内用户需要添加 Hugging Face 镜像：`HF_ENDPOINT="https://hf-mirror.com" sh scripts/run_sft.sh` ## DiSHA: Dimension-Sharding Adaptation of Large Language Models with Fast Convergence and Fast Computation [📖 Paper](https://arxiv.org/pdf/2409.15371) 论文更新，现在 DiSHA（bone）是一个简单高效基础 PEFT 方法，比 LoRA 更快更省显存，比 PiSSA 收敛更快表现更好。 - DiSHA(Bone)：`disha_config='{"mode":"bone","load":"","r":64}'` - DiSHA(Bat)：`disha_config='{"mode":"bat","load":"","r":64}'` ## Web Run > [!TIP] > Coming Soon! ## 目录 - [主要特性](#主要特性) - [硬件需求](#硬件需求) - [安装训练环境](#安装训练环境) - [快速开始](#快速开始) - [详细配置说明](#详细配置说明) - [GPU支持情况](#gpu支持情况) - [引用](#引用) ## 主要特性 - **多种微调方法**：支持 LoRA、PISSA、DiSHA、State Tuning、SFT 等 - **量化训练**：支持 INT8/NF4 量化，显著降低显存占用 - **灵活的数据加载**：支持多种数据采样策略 - **显存优化**：多种 DeepSpeed 策略可选 - **损失Mask**：支持 QA 对话和填充部分的损失 Mask - **无限长度训练**：支持 infctx 训练模式, 此模式利用了 RWKV 恒定显存占用的优势，在有限的资源下训练"无限"上下文 - **支持多种硬件**：目前，RWKV-PEFT 官方支持 NVIDIA、AMD、摩尔线程、沐曦、天数智芯等多种硬件平台, 昇腾 NPU 的实现会在后期实现。注意：目前我们只支持 NVIDIA 的 issue 请求。 - **使用 rwkv-fla 高效训练**: rwkv-fla 是基于 triton 的线性注意力算子，可以在不支持 cuda 的硬件上高效率运行。 ## 硬件需求 ### RWKV-7 模型以下是使用 RTX 4090 (24GB 显存) + 64GB 内存测试的 RWKV-7 模型微调显存占用数据，基于以下参数配置： - 训练精度：BF16 - `--strategy deepspeed_stage_1` - `--ctx_len 1024` - `--micro_bsz 1` - `--lora_r 64` 或者 `disha_config='{"mode":"bone","r":32}'` | 模型参数 | State Tuning | LoRA | DiSHA | PiSSA | |--------------|--------------|------|-------|-------| | RWKV7-0.1B | 2.6 GB | 2.7 GB | 2.7 GB | 2.6 GB | | RWKV7-0.4B | 3.1 GB | 3.4 GB | 3.1 GB | 3.4 GB | | RWKV7-1.5B | 5.3 GB | 5.6 GB | 5.6 GB | 5.6 GB | | RWKV7-3B | 8.2 GB | 8.8 GB | 8.8 GB | 8.8 GB |

🔍 点击查看 RWKV-7 模型量化训练的显存需求

### INT8 显存需求 | 模型参数 | State Tuning | LoRA | DiSHA | PiSSA | |--------------|--------------|------|-------|-------| | RWKV7-0.1B | 2.4 GB | 2.5 GB | 2.5 GB | 2.5 GB | | RWKV7-0.4B | 2.9 GB | 2.9 GB | 2.9 GB | 3.0 GB | | RWKV7-1.5B | 4.1 GB | 4.6 GB | 4.5 GB | 4.6 GB | | RWKV7-3B | 5.7 GB | 6.7 GB | 6.7 GB | 6.7 GB | ### NF4 显存需求 | 模型参数 | State Tuning | LoRA | DiSHA | PiSSA | |--------------|--------------|------|-------|-------| | RWKV7-0.1B | 2.5 GB | 2.4 GB | 2.4 GB | 2.4 GB | | RWKV7-0.4B | 2.8 GB | 2.7 GB | 2.7 GB | 2.7 GB | | RWKV7-1.5B | 3.7 GB | 3.9 GB | 3.9 GB | 3.9 GB | | RWKV7-3B | 4.7 GB | 5.7 GB | 5.7 GB | 5.7 GB |

🔍 点击查看 RWKV-6 模型的微调显存需求

以下是使用 RTX 4090 (24GB 显存) + 64GB 内存测试的 RWKV-6 模型微调显存占用数据，基于以下参数配置： - `--strategy deepspeed_stage_1` - `--ctx_len 1024` - `--micro_bsz 1` - `--lora_r 64` | 模型规模 | 全量微调 | LoRA/PISSA | QLoRA/QPISSA | State Tuning | |-------------|----------|------------|--------------|--------------| | RWKV6-1.6B | 显存溢出 | 7.4 GB | 5.6 GB | 6.4 GB | | RWKV6-3B | 显存溢出 | 12.1 GB | 8.2 GB | 9.4 GB | | RWKV6-7B | 显存溢出 | 23.7 GB$^a$ | 14.9 GB$^b$ | 18.1 GB | > [!TIP] > $^a$ 批次大小为 8 时会显存溢出 > > $^b$ 批次大小为 8 时需要 19.5GB 显存

## 安装训练环境 > [!IMPORTANT] > 不可跳过 ```bash git clone https://github.com/JL-er/RWKV-PEFT.git cd RWKV-PEFT pip install -r requirements.txt ``` ## 快速开始 1. 安装依赖： ```bash pip install -r requirements.txt ``` 2. 运行示例脚本： ```bash sh scripts/run_lora.sh ``` > [!TIP] > 具体数据准备方法请参考 [RWKV 官方教程](https://rwkv.cn/tutorials/advanced/Fine-Tune/FT-Dataset) ## 详细配置说明 ### 1. PEFT 方法选择 ```bash --peft disha --disha_config $disha_config ``` ### 2. 训练部分选择 ```bash --train_parts ["time", "ln"] ``` - 可选部分：emb、head、time、ln - 默认训练：time、ln（参数量占比小） ### 3. 量化训练 ```bash --quant int8/nf4 ``` ### 4. 无限长度训练（infctx） ```bash --train_type infctx --chunk_ctx 512 --ctx_len 2048 ``` - ctx_len：目标训练长度 - chunk_ctx：切片长度，需小于ctx_len ### 5. 数据加载策略 ```bash --dataload pad ``` - get：默认随机采样（RWKV-LM方式） - pad：固定长度填充采样 - only：单条数据采样（仅支持bsz=1） ### 6. DeepSpeed 策略 ```bash --strategy deepspeed_stage_1 ``` 可选策略： - deepspeed_stage_1：优先使用 - deepspeed_stage_2/3：大模型或全量微调时使用 - deepspeed_stage_2_offload - deepspeed_stage_3_offload ### 7. FLA 算子默认情况下， RWKV-PEFT 会使用自定义的 cuda 内核来实现 wkv 计算。但您也可以使用`--op fla`来开启 Triton 内核。 rwkv-fla 是基于 triton 的线性注意力算子，可以在不支持 cuda 的硬件上高效率运行。 ``` --op fla ``` ## GPU 支持情况 - NVIDIA: CUDA - Intel、摩尔线程、沐曦、天数智芯: FLA , 这意味着你需要手动设置 `--op fla` - 昇腾: CANN(soon) ## 引用如果您觉得本项目对您有帮助，请引用我们的工作： ```bib @misc{kang2025dishadimensionshardingadaptationlarge, title={DiSHA: Dimension-Sharding Adaptation of Large Language Models with Fast Convergence and Fast Computation}, author={Jiale Kang}, year={2025}, eprint={2409.15371}, archivePrefix={arXiv}, primaryClass={cs.CL}, url={https://arxiv.org/abs/2409.15371}, }