太初/紫东太初多模态大模型

中文预训练语言模型

模型介绍

中文预训练语言模型(Chinese-GPT)由40层transformer组成，隐藏层维度为2560，包含32个注意力头，共32亿参数。模型结构如下所示：

数据集

主要采用CLUE与WMT中收集的中文数据，同时我们加入了额外收集的对话数据以及翻译平行语料中的中文部分，总共约250G的中文语料，领域覆盖广泛。

模型下载

模型	链接	提取码
中文GPT模型-32亿	[百度网盘] https://pan.baidu.com/s/1JsOm3QX0TW7Ior6dMC_H6g	580k

环境下载

基本环境如下：

Python 3.8
Pytorch 1.8.1
NCCL 2.8.3
CUDA 11.1 or CUDA 10.2 经测试均可使用
apex
Jieba
Sentencepiece

安装使用

贪心解码（用于问答等任务）

bash examples/generate_interactive_greedy.sh

采样解码（用于文本生成等任务）

bash examples/generate_interactive_sample.sh

应用示例

1、文本续写

2、自动问答

文献引用

@inproceedings{Radford2019LanguageMA,   
  title={Language Models are Unsupervised Multitask Learners},  
  author={Alec Radford and Jeff Wu and R. Child and David Luan and Dario Amodei and Ilya Sutskever},    
  year={2019}  
}

@article{Shoeybi2019MegatronLMTM,    
  title={Megatron-LM: Training Multi-Billion Parameter Language Models Using Model Parallelism},    
  author={M. Shoeybi and M. Patwary and Raul Puri and P. LeGresley and J. Casper and Bryan Catanzaro},   
  journal={ArXiv},   
  year={2019},   
  volume={abs/1909.08053}  
}

太初/紫东太初多模态大模型

中文预训练语言模型

模型介绍

数据集

模型下载

环境下载

安装使用

应用示例

文献引用

简介

发行版

贡献者

近期动态

太初/紫东太初多模态大模型 .gitee-modal { width: 500px !important; }

中文预训练语言模型

模型介绍

数据集

模型下载

环境下载

安装使用

应用示例

文献引用

简介

发行版

贡献者

近期动态

搜索帮助

太初/紫东太初多模态大模型