197 Star 1.3K Fork 1.2K

GVPAscend/MindSpeed-LLM

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
文件
克隆/下载
evaluation_guide.md 2.13 KB
一键复制 编辑 原始数据 按行查看 历史
jzh 提交于 3个月前 . !2714update evaluate_guide

MindSpeed-LLM 支持大模型在公开基准数据集上进行准确率评估,当前支持的 Benchmark 如下: 详细统计信息见evaluation.md

以上模型脚本环境变量声明:

脚本中的环境变量配置见环境变量说明

大模型分布式评估使用介绍

1. 基准评估

MindSpeed-LLM 基准评估脚本命名风格及启动方法为:

# 命名及启动:examples/mcore/model_name/evaluate_xxx.sh
bash examples/mcore/llama2/evaluate_llama2_7b_mmlu_ptd.sh
# 修改模型参数路径和词表路径
TOKENIZER_PATH="./model_from_hf/llama-2-hf/"  #词表路径
CHECKPOINT="./model_weights/llama-2-7b-mcore"  #权重路径
# 配置任务和数据集路径
DATA_PATH="./mmlu/data/test/"
TASK="mmlu"  # 支持 mmlu、ceval、agieval、bbh、boolq、human_eval

# 启动评估脚本
bash examples/mcore/llama2/evaluate_llama2_7b_mmlu_ptd.sh

【--max-new-tokens】

表示模型输出的生成长度,多项选择问题的输出长度会比编码任务的输出长度小,该参数很大程度上影响了模型的评估性能

【--evaluation-batch-size】

可以设置多batch推理,提升模型评估性能

【--broadcast】

在开启Expert Parallel时,需启用该参数进行评估

2. 指令微调评估

使用指令微调后权重的评估脚本命名风格及启动方法为:

bash examples/mcore/llama2/evaluate_llama2_7b_full_mmlu_ptd.sh

【--prompt-type】

模型对话模板,选择模型对应的对话模板进行评估

【--hf-chat-template】

如果模型的tokenizer已经具备chat_template属性,则可以选择通过添加--hf-chat-template来使用模型内置的对话模板进行评估

【--eval-language】

根据评估数据集语言来确定,默认为en,如果评估数据集为中文数据集,则应设置为zh

3. LoRA权重评估

使用lora权重的评估脚本命名风格及启动方法为:

# 需要加载lora权重启动评估脚本,命名风格及启动方法为:
bash examples/mcore/codellama/evaluate_codellama_34b_lora_ptd.sh
Loading...
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
Python
1
https://gitee.com/ascend/MindSpeed-LLM.git
git@gitee.com:ascend/MindSpeed-LLM.git
ascend
MindSpeed-LLM
MindSpeed-LLM
2.1.0

搜索帮助