# Llama-3-8B

**Repository Path**: Pauntech/llama-3-8b

## Basic Information

- **Project Name**: Llama-3-8B
- **Description**: 快速完成LLama模型INT4量化和推理程序开发
- **Primary Language**: Unknown
- **License**: BSD-3-Clause
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2024-04-23
- **Last Updated**: 2024-04-23

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

## Meta-Llama-3-8B

### Llama3是什么?
#### Llama 3是一款由Meta推出的新一代开源人工智能大语言模型，Lama-3包含8B(80亿参数)、70B(700亿参数)两个版本，分为基础预训练和指令微调两种模型，还有一个超4000亿参数正在训练中。与Lama-2相比，Lama-3使用了15T tokens的训练数据，在推理、数学、代码生成、指令跟踪等能力获得大幅度提升此外，Lama-3还使用了分组查询注意力、掩码等创新技术，帮助开发者以最低的能耗获取绝佳的性能。

### Llama 3的亮点特性
#### 1. 模型架构:Llama 3采用了高效的Transformer架构，具有128Ktoken的分词器，以及分组查询注意力(Grouped Query Attention)技术，提升了模型在处理长序列时的效率。
#### 2. 文本大规模预训练:Lama 3基于超过15万亿tokens进行预训练，数据集规模是前代Lama 2的七倍，代码数据量增加了四倍。
#### 3. 多语言支持:预训练数据中超过5%是非英语的高质量数据，覆盖超过30种语言，尽管主要性能仍以英语为主
#### 4. 错误减少:Llama 3设计上减少了错误拒绝的情况，即模型能够更准确地判断无害的提示并给出回应。
#### 5. 指令微调:Lama 3在后训练阶段采用了多种技术，包括监督式微调、拒绝抽样、近端策略优化和直接策略优化以提升模型在特定任务上的表现。