代码拉取完成,页面将自动刷新
MindSpeed-LLM 支持大模型在公开基准数据集上进行准确率评估,当前支持的 Benchmark 如下: 详细统计信息见evaluation.md
脚本中的环境变量配置见环境变量说明
MindSpeed-LLM 基准评估脚本命名风格及启动方法为:
# 命名及启动:examples/mcore/model_name/evaluate_xxx.sh
bash examples/mcore/llama2/evaluate_llama2_7b_mmlu_ptd.sh
# 修改模型参数路径和词表路径
TOKENIZER_PATH="./model_from_hf/llama-2-hf/" #词表路径
CHECKPOINT="./model_weights/llama-2-7b-mcore" #权重路径
# 配置任务和数据集路径
DATA_PATH="./mmlu/data/test/"
TASK="mmlu" # 支持 mmlu、ceval、agieval、bbh、boolq、human_eval
# 启动评估脚本
bash examples/mcore/llama2/evaluate_llama2_7b_mmlu_ptd.sh
【--max-new-tokens】
表示模型输出的生成长度,多项选择问题的输出长度会比编码任务的输出长度小,该参数很大程度上影响了模型的评估性能
【--evaluation-batch-size】
可以设置多batch推理,提升模型评估性能
【--broadcast】
在开启Expert Parallel时,需启用该参数进行评估
使用指令微调后权重的评估脚本命名风格及启动方法为:
bash examples/mcore/llama2/evaluate_llama2_7b_full_mmlu_ptd.sh
【--prompt-type】
模型对话模板,选择模型对应的对话模板进行评估
【--hf-chat-template】
如果模型的tokenizer已经具备chat_template
属性,则可以选择通过添加--hf-chat-template
来使用模型内置的对话模板进行评估
【--eval-language】
根据评估数据集语言来确定,默认为en
,如果评估数据集为中文数据集,则应设置为zh
使用lora权重的评估脚本命名风格及启动方法为:
# 需要加载lora权重启动评估脚本,命名风格及启动方法为:
bash examples/mcore/codellama/evaluate_codellama_34b_lora_ptd.sh
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。