# Llama-3-8B **Repository Path**: Pauntech/llama-3-8b ## Basic Information - **Project Name**: Llama-3-8B - **Description**: 快速完成LLama模型INT4量化和推理程序开发 - **Primary Language**: Unknown - **License**: BSD-3-Clause - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2024-04-23 - **Last Updated**: 2024-04-23 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ## Meta-Llama-3-8B ### Llama3是什么? #### Llama 3是一款由Meta推出的新一代开源人工智能大语言模型,Lama-3包含8B(80亿参数)、70B(700亿参数)两个版本,分为基础预训练和指令微调两种模型,还有一个超4000亿参数正在训练中。与Lama-2相比,Lama-3使用了15T tokens的训练数据,在推理、数学、代码生成、指令跟踪等能力获得大幅度提升此外,Lama-3还使用了分组查询注意力、掩码等创新技术,帮助开发者以最低的能耗获取绝佳的性能。 ### Llama 3的亮点特性 #### 1. 模型架构:Llama 3采用了高效的Transformer架构,具有128Ktoken的分词器,以及分组查询注意力(Grouped Query Attention)技术,提升了模型在处理长序列时的效率。 #### 2. 文本大规模预训练:Lama 3基于超过15万亿tokens进行预训练,数据集规模是前代Lama 2的七倍,代码数据量增加了四倍。 #### 3. 多语言支持:预训练数据中超过5%是非英语的高质量数据,覆盖超过30种语言,尽管主要性能仍以英语为主 #### 4. 错误减少:Llama 3设计上减少了错误拒绝的情况,即模型能够更准确地判断无害的提示并给出回应。 #### 5. 指令微调:Lama 3在后训练阶段采用了多种技术,包括监督式微调、拒绝抽样、近端策略优化和直接策略优化以提升模型在特定任务上的表现。