29 Star 148 Fork 52

太初/紫东太初多模态大模型

加入 Gitee
与超过 1200万 开发者一起发现、参与优秀开源项目,私有仓库也完全免费 :)
免费加入
文件
克隆/下载
贡献代码
同步代码
取消
提示: 由于 Git 不支持空文件夾,创建文件夹后会生成空的 .keep 文件
Loading...
README

中文预训练语言模型

模型介绍

中文预训练语言模型(Chinese-GPT)由40层transformer组成,隐藏层维度为2560,包含32个注意力头,共32亿参数。模型结构如下所示:

0

数据集

主要采用CLUE与WMT中收集的中文数据,同时我们加入了额外收集的对话数据以及翻译平行语料中的中文部分,总共约250G的中文语料,领域覆盖广泛。

模型下载

模型 链接 提取码
中文GPT模型-32亿 [百度网盘] https://pan.baidu.com/s/1JsOm3QX0TW7Ior6dMC_H6g 580k

环境下载

基本环境如下:

安装使用

  • 贪心解码(用于问答等任务)
bash examples/generate_interactive_greedy.sh
  • 采样解码(用于文本生成等任务)
bash examples/generate_interactive_sample.sh

应用示例

1、文本续写

0

2、自动问答

0

文献引用

@inproceedings{Radford2019LanguageMA,   
  title={Language Models are Unsupervised Multitask Learners},  
  author={Alec Radford and Jeff Wu and R. Child and David Luan and Dario Amodei and Ilya Sutskever},    
  year={2019}  
}
@article{Shoeybi2019MegatronLMTM,    
  title={Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism},    
  author={M. Shoeybi and M. Patwary and Raul Puri and P. LeGresley and J. Casper and Bryan Catanzaro},   
  journal={ArXiv},   
  year={2019},   
  volume={abs/1909.08053}  
}
马建仓 AI 助手
尝试更多
代码解读
代码找茬
代码优化
Python
1
https://gitee.com/zidongtaichu/multi-modal-models.git
git@gitee.com:zidongtaichu/multi-modal-models.git
zidongtaichu
multi-modal-models
紫东太初多模态大模型
master

搜索帮助