代码拉取完成,页面将自动刷新
认证【Pass】
表示经过昇腾官方版本测试的模型。【Test】
表示模型处于内部测试阶段,未完成充分的性能测试和验收,在实际使用中可能存在未被发现的问题,待后续充分验证后会发布正式版本。相关使用问题可反馈至MindSpeed-LLM/issues。
模型 | 下载链接 | 脚本位置 | 序列 | 实现 | 集群 | 支持版本 | 贡献方 | 认证 |
---|---|---|---|---|---|---|---|---|
Aquila | 7B | aquila | 2K | Legacy | 1x8 | 2.0.0 | 【GTS】 | 【Pass】 |
Aquila2 | 7B | aquila2 | 2K | Legacy | 1x8 | 2.0.0 | 【GTS】 | 【Pass】 |
34B | 4K | Legacy | 2x8 | 2.0.0 | 【GTS】 | 【Pass】 | ||
Baichuan | 7B | baichuan | 4K | Legacy | 1x8 | 2.0.0 | 【GTS】 | 【Pass】 |
13B | 4K | Legacy | 1x8 | 2.0.0 | 【GTS】 | 【Pass】 | ||
Baichuan2 | 7B | baichuan2 | 4K | Legacy | 1x8 | 2.0.0 | 【Ascend】 | 【Pass】 |
13B | 4K | Mcore | 1x8 | 【Ascend】 | 【Pass】 | |||
Bloom | 7B1 | bloom | 2K | Legacy | 1x8 | 2.0.0 | 【Ascend】 | 【Pass】 |
176B | 2K | Legacy | 12x8 | 2.0.0 | 【Ascend】 | 【Pass】 | ||
ChatGLM3 | 6B | chatglm3 | 8K | Mcore | 1x8 | 【Ascend】 | 【Pass】 | |
32K | Mcore | 1x8 | 【Ascend】 | 【Pass】 | ||||
64K | Mcore | 2x8 | 【Ascend】 | 【Pass】 | ||||
GLM4 | 9B | glm4 | 8K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |
32K | Mcore | 2x8 | 【GTS】 | 【Pass】 | ||||
CodeLlama | 34B | codellama | 4K | Mcore | 2x8 | 【GTS】 | 【Pass】 | |
InternLM | 7B | intern | 2K | Legacy | 1x8 | 2.0.0 | 【Ascend】 | 【Pass】 |
65B | 2K | Legacy | 4x8 | 2.0.0 | 【Ascend】 | 【Pass】 | ||
InternLM2 | 20B | internlm2 | 4K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |
32K | Mcore | 1x8 | 【GTS】 | 【Pass】 | ||||
InternLM2.5 | 1.8B | internlm25 | 32K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |
7B | 32K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |||
20B | 32K | Mcore | 2x8 | 【GTS】 | 【Test】 | |||
LLaMA | 7B | llama | 2K | Legacy | 1x8 | 2.0.0 | 【Ascend】 | 【Pass】 |
13B | 2K | Legacy | 1x8 | 2.0.0 | 【Ascend】 | 【Pass】 | ||
33B | 2K | Legacy | 4x8 | 2.0.0 | 【Ascend】 | 【Pass】 | ||
65B | 2K | Legacy | 4x8 | 2.0.0 | 【Ascend】 | 【Pass】 | ||
LLaMA2 | 7B | llama2 | 4K | Mcore | 1x8 | 【NAIE】 | 【Pass】 | |
13B | 4K | Mcore | 1x8 | 【NAIE】 | 【Pass】 | |||
34B | 4K | Mcore | 2x8 | 【GTS】 | 【Pass】 | |||
70B | 4K | Mcore | 4x8 | 【GTS】 | 【Pass】 | |||
LLaMA3 | 8B | llama3 | 8K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |
70B | 8K | Mcore | 4x8 | 【GTS】 | 【Pass】 | |||
LLaMA3.1 | 8B | llama31 | 8K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |
128K | Mcore | 4x8 | 【GTS】 | 【Pass】 | ||||
70B | 8K | Mcore | 4x8 | 【GTS】 | 【Pass】 | |||
LLaMA3.2 | 1B | llama32 | 8K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |
3B | 8K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |||
LLaMA3.3 | 70B-Instruct | llama33 | 8K | Mcore | 4x8 | 【GTS】 | 【Pass】 | |
Qwen | 7B | qwen | 8K | Legacy | 1x8 | 2.0.0 | 【GTS】 | 【Pass】 |
14B | 2K | Legacy | 1x8 | 2.0.0 | 【GTS】 | 【Pass】 | ||
72B | 8K | Legacy | 16x8 | 2.0.0 | 【GTS】 | 【Pass】 | ||
Qwen1.5 | 0.5B | qwen15 | 8K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |
1.8B | 8K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |||
4B | 8K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |||
7B | 8K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |||
14B | 8K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |||
32B | 8K | Mcore | 4x8 | 【GTS】 | 【Pass】 | |||
72B | 8K | Mcore | 8x8 | 【GTS】 | 【Pass】 | |||
110B | 8K | Mcore | 8x8 | 【GTS】 | 【Pass】 | |||
CodeQwen1.5 | 7B | 8K | Mcore | 1x8 | 【GTS】 | 【Pass】 | ||
Qwen2 | 0.5B | qwen2 | 4K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |
32K | Mcore | 1x8 | 【GTS】 | 【Pass】 | ||||
1.5B | 4K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |||
32K | Mcore | 1x8 | 【GTS】 | 【Pass】 | ||||
7B | 4K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |||
32K | Mcore | 1x8 | 【GTS】 | 【Pass】 | ||||
72B | 4K | Mcore | 4x8 | 【GTS】 | 【Pass】 | |||
Qwen2.5 | 0.5B | qwen25 | 32K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |
1.5B | 32K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |||
3B | 32K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |||
7B | 32K | Mcore | 1x8 | 【Ascend】 | 【Pass】 | |||
14B | 32K | Mcore | 2x8 | 【GTS】 | 【Pass】 | |||
32B | 32K | Mcore | 4x8 | 【GTS】 | 【Pass】 | |||
72B | 32K | Mcore | 16x8 | 【GTS】 | 【Pass】 | |||
Qwen3 | 0.6B | Qwen3-0.6B | 4K | Mcore | 1x8 | 【Ascend】 | 【Pass】 | |
1.7B | Qwen3-1.7B | 4K | Mcore | 1x8 | 【Ascend】 | 【Pass】 | ||
4B | Qwen3-4B | 4K | Mcore | 1x8 | 【Ascend】 | 【Pass】 | ||
8B | Qwen3-8B | 4K | Mcore | 1x8 | 【Ascend】 | 【Pass】 | ||
14B | Qwen3-14B | 4K | Mcore | 1x8 | 【Ascend】 | 【Pass】 | ||
32B | Qwen3-32B | 4K | Mcore | 2x8 | 【Ascend】 | 【Pass】 | ||
QwQ | 32B | qwq | 4K | Mcore | 1x8 | 【GTS】 | 【Test】 | |
Qwen2.5-Math | 1.5B | qwen25_math | 4K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |
7B | 4K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |||
72B | 4K | Mcore | 4x8 | 【GTS】 | 【Test】 | |||
CodeQwen2.5 | 7B | qwen25_coder | 8K | Mcore | 1x8 | 【China Mobile Cloud】 | 【Test】 | |
Yi | 9B | yi | 4K | Legacy | 1x4 | 2.0.0 | 【OpenMind】 | 【Test】 |
34B | 4K | Mcore | 2x8 | 【GTS】 | 【Pass】 | |||
Yi1.5 | 6B | yi15 | 4K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |
9B | 4K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |||
34B | 4K | Mcore | 2x8 | 【GTS】 | 【Test】 | |||
Mistral | 7B | mistral | 32K | Mcore | 1x8 | 【NAIE】 | 【Pass】 | |
Gemma | 2B | gemma | 8K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |
7B | 8K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |||
Gemma2 | 9B | gemma2 | 8K | Mcore | 1x8 | 【GTS】 | 【Pass】 | |
27B | 8K | Mcore | 2x8 | 【GTS】 | 【Pass】 | |||
grok-1 | 40B | grok-1 | 8K | Mcore | 4x8 | 2.0.0 | 【GTS】 | 【Pass】 |
GPT3 | 175B | gpt3 | 2K | Legacy | 16x8 | 2.0.0 | 【Ascend】 | 【Pass】 |
MiniCPM | 2B | minicpm | 4K | Mcore | 1x8 | 【NAIE】 | 【Pass】 | |
MiniCPM3 | 4B | minicpm3 | 32K | Mcore | 1x8 | 【GTS】 | 【Test】 | |
Phi3.5 | mini-instruct | phi35 | 4K | Mcore | 1x8 | 【GTS】 | 【Test】 | |
DeepSeek-Math | 7B | deepseek_math | 4K | Mcore | 1x8 | 【Ascend】 | 【Test】 | |
DeepSeek-R1-Distill-Qwen | 1.5B | deepseek_r1_distill_qwen | 4K | Mcore | 1x8 | 【Ascend】 | 【Pass】 | |
7B | 4K | Mcore | 1x8 | 【Ascend】 | 【Pass】 | |||
14B | 4K | Mcore | 1x8 | 【Ascend】 | 【Pass】 | |||
32B | 8K | Mcore | 2x8 | 【Ascend】 | 【Pass】 | |||
DeepSeek-R1-Distill-LLaMA | 8B | deepseek_r1_distill_llama | 8K | Mcore | 1x8 | 【Ascend】 | 【Pass】 | |
70B | 8K | Mcore | 4x8 | 【Ascend】 | 【Pass】 |
Baichuan-13B: 在任务执行过程中如果出现报错:AttributeError: 'BaichuanTokenizer’ object has no attribute 'sp_model',请执行下面命令解决这个问题:
pip install transformers==4.32.0 --force
GPT: GPT词表文件与常规模型不同:
mkdir vocab_file
cd vocab_file
wget https://s3.amazonaws.com/models.huggingface.co/bert/gpt2-vocab.json
wget https://s3.amazonaws.com/models.huggingface.co/bert/gpt2-merges.txt
cd ..
# 处理成训练数据
python ./preprocess_data.py \
--input ./dataset/ \
--output-prefix ./dataset/gpt_text_sentence \
--tokenizer-type GPT2BPETokenizer \
--vocab-file ./vocab_file/gpt2-vocab.json \
--merge-file ./vocab_file/gpt2-merges.txt \
--append-eod \
--workers 4 \
--log-interval 1000
# 请根据真实存放路径配置预训练脚本以下参数
VOCAB_FILE="./vocab_file/gpt2-vocab.json" # 词表
MERGE_FILE="./vocab_file/gpt2-merges.txt" # BPE 合并表
DATA_PATH="./dataset/gpt_text_sentence" # 数据路径
Bloom-176B: config.json中同字段对应的key值与其他模型不一致,将文件中的n_embed改为hidden_size, 将num_attention_heads修改为n_head
QWen: 不包含QWen1.5等,需要修改权重文件
# 修改modelling_qwen.py文件第39行,将:
# SUPPORT_FP16 = SUPPORT_CUDA and torch.cuda.get_device_capability(0)[0] >= 7
# 修改为:
# SUPPORT_FP16 = True
此处可能存在不合适展示的内容,页面不予展示。您可通过相关编辑功能自查并修改。
如您确认内容无涉及 不当用语 / 纯广告导流 / 暴力 / 低俗色情 / 侵权 / 盗版 / 虚假 / 无价值内容或违法国家有关法律法规的内容,可点击提交进行申诉,我们将尽快为您处理。