master

分支 (37)

标签 (20)

管理

管理

master

r1.7.0-beta1

br_feature_infer

r1.6.0

br_infer_boom

revert-3cfdd0a

dev

br_infer_deepseek_os

r1.5.0

br_feature_checkpoint

br_feature_infer_300iduo

br_feature_mcore

r1.6.0-beta1

br_infer_deepseek_ep

br_feature_rl_dpo

r1.3.0

r1.3.1

r1.4.0-beta2

r1.4.0-beta1

r1.5.0-beta1

v1.6.0

v1.6.0-beta1

v1.5.0

v1.5.0-beta2

v1.5.0-beta1

v1.4.0-beta2

v1.3.2

v1.3.1-beta1

v1.4.0-beta1

v1.3.0

v1.2.0

v1.1.0

v1.0.2

v1.0.1

v1.0.0

v0.6.0

v0.3

v0.2_rc

v0.1.1

v0.1.0

mindformers
/
configs
/
qwen3
/
predict_qwen3.yaml

seed: 0
output_dir: './output' # path to save checkpoint/strategy
load_checkpoint: ''
use_parallel: False
run_mode: 'predict'
use_legacy: False
load_ckpt_format: 'safetensors'

trainer:
  type: CausalLanguageModelingTrainer
  model_name: 'qwen3'

# default parallel of device num = 8 for Atlas 800T A2
parallel_config:
  data_parallel: 1
  model_parallel: 1
# HuggingFace file directory
pretrained_model_dir: '/path/hf_dir'
model:
  model_config:
    compute_dtype: "bfloat16"
    layernorm_compute_dtype: "float32"
    softmax_compute_dtype: "float32"
    rotary_dtype: "bfloat16"
    params_dtype: "bfloat16"

# mindspore context init config
context:
  mode: 0 #0--Graph Mode; 1--Pynative Mode
  enable_graph_kernel: False
  ascend_config:
    precision_mode: "must_keep_origin_dtype"
  max_device_memory: "59GB"
  save_graphs: False
  save_graphs_path: "./graph"

# parallel context config
parallel:
  parallel_mode: "MANUAL_PARALLEL"
  enable_alltoall: False