configs统一在run_xxx.yaml中,排序按照修改频率的顺序和一般的模型训练流程顺序(数据集->模型->训练、评估、推理),具体顺序如下
load_checkpoint=path/to/dir/
,其中dir路径下包含{BASE_MODEL}.ckpt
、{LORA_MODEL}.ckpt
。mindformers.modules.transformer.TransformerOpParallelConfig
,并行配置涉及算子级并行,可参考文档。
需要满足实际运行的卡数 device_num = data_parallel × model_parallel × context_parallel × pipeline_stage。自动并行下无此约束,但要保证stage内的卡数
stage_device_num
是2的幂
type: 模型参数配置类
checkpoint_name_or_path: 评估时不指定权重,模型默认加载的权重名
# 以下配置针对大规模语言模型推理
top_k: 从概率最大的top_k个tokens中采样
top_p: 从概率最大且概率累计不超过top_p的tokens中采样
do_sample: 使能top_k或top_p采样,为False时top_k和top_p均重置为1
use_past: 使能增量推理,为True时为增量推理,否则为自回归推理,当前开启后会使用Paged Attention进行计算,使用时请参考模型支持列表
max_decode_length: 文本生成最大长度(输入长度统计在内)
max_length: 文本生成最大长度(输入长度统计在内),效果等同于max_decode_length,同时存在时以max_length为准
max_new_tokens: 文本新生成的最大长度(输入长度不统计在内),与max_length同时设置时,以max_new_tokens为准
min_length: 文本生成最小长度(输入长度统计在内)
min_new_tokens: 文本新生成最小长度(输入长度不统计在内),与min_length同时设置时,以min_new_tokens为准
repetition_penalty: 重复文本惩罚系数,该值不小于1,等于1时不惩罚
block_size: 使用Paged Attention推理时需设置,每块block的大小
num_blocks: 使用Paged Attention推理时需设置,blocks的总数。当前配置需要保证batch_sizeseq_length<=block_sizenum_blocks,否则运行过程中会提示PA的内存池不足
return_dict_in_generate: 以字典形式返回generate输出结果,默认为False
output_scores: 字典返回输出时,是否包含每次前向生成时的进入softmax前的分数结果,默认为False
output_logits: 字典返回输出时,是否包含每次前向生成时模型输出的logits,默认为False
fused_rms_norm: 模型微调时,是否使用融合算子,默认为True
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。