# DockerAI

**Repository Path**: dolayout/docker-ai-slm

## Basic Information

- **Project Name**: DockerAI
- **Description**: 使用 Docker 部署本地 “小模型”，项目示例使用 Qwen 3.5 0.8b 量化小模型。
- **Primary Language**: Python
- **License**: MIT
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2026-03-22
- **Last Updated**: 2026-03-23

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# Docker AI SLM - Qwen3.5 ARM64

基于 Docker 和 Ollama 的小语言模型（SLM）部署方案，专为 ARM64 架构优化。

## 项目简介

本项目提供了一个完整的解决方案，用于在 ARM64 设备上快速部署和运行 Qwen3.5-0.8B 模型。通过 Docker 容器化技术和 Ollama 推理引擎，用户可以在本地环境中轻松构建强大的 AI 能力。

### 核心特性

- **ARM64 优化**: 针对 Snapdragon X Elite 等 ARM64 平台深度优化
- **开箱即用**: 三步即可完成部署和运行
- **轻量高效**: Qwen3.5-0.8B 模型仅约 500MB，内存占用低
- **API 友好**: 提供标准的 RESTful API 接口
- **灵活配置**: 支持多种量化模型和参数调优

### 技术栈

- **推理引擎**: Ollama
- **模型**: Qwen3.5-0.8B (GGUF 量化格式)
- **容器平台**: Docker & Docker Compose
- **模型分发**: ModelScope

## 快速开始

详细的安装和配置指南请参考 [QUICK_START.md](QUICK_START.md)

### 前置要求

- Docker Desktop (支持 WSL2)
- Python 3.8+
- 至少 4GB 可用内存
- ARM64 架构设备

### 三步启动

```bash
# 1. 下载模型
python download_model.py

# 2. 启动容器
docker-compose -f docker-compose-arm64.yaml up -d

# 3. 创建并运行模型
docker cp ollama/models/qwen35-08b-gguf.modelfile ollama-server-arm64:/root/.ollama/models/
docker exec ollama-server-arm64 ollama create qwen35 -f /root/.ollama/models/qwen35-08b-gguf.modelfile
docker exec -it ollama-server-arm64 ollama run qwen35 "你好"
```

## 项目结构

```
docker-ai-slm/
├── docker-compose-arm64.yaml    # Docker Compose 配置文件
├── download_model.py             # 模型下载脚本
├── QUICK_START.md                # 详细使用指南
├── README.md                     # 项目说明文档
├── LICENSE                       # MIT 开源协议
├── gguf-models/                  # GGUF 模型文件目录
└── ollama/
    ├── models/                   # Modelfile 配置目录
    │   └── qwen35-08b-gguf.modelfile
    └── data/                     # Ollama 数据持久化目录
```

## API 使用示例

### 文本生成

```bash
curl http://localhost:11434/api/generate -d '{
  "model": "qwen35",
  "prompt": "你好，请介绍一下你自己？",
  "stream": false
}'
```

### 对话模式

```bash
curl http://localhost:11434/api/chat -d '{
  "model": "qwen35",
  "messages": [
    {"role": "user", "content": "你好"}
  ],
  "stream": false
}'
```

## 配置说明

### Docker 配置

`docker-compose-arm64.yaml` 针对 ARM64 环境优化：

- **平台**: linux/arm64
- **共享内存**: 2GB
- **并行处理**: 2 个请求
- **最大队列**: 4 个请求

### 模型参数

- **temperature**: 0.7 (创造性)
- **top_p**: 0.9 (核采样)
- **num_ctx**: 4096 (上下文长度)
- **num_thread**: 10 (线程数)

## 支持的模型

| 模型文件 | 大小 | 特点 |
|---------|------|------|
| Qwen3.5-0.8B-Q4_K_M.gguf | 507MB | 最佳质量/速度平衡 |
| Qwen3.5-0.8B-Q4_K_S.gguf | 484MB | 更高速度 |
| Qwen3.5-0.8B-IQ4_NL.gguf | 483MB | 最新量化技术 |

## 适用场景

- **本地开发**: 快速构建 AI 原型
- **边缘计算**: 在资源受限的设备上运行 AI 模型
- **离线应用**: 无需网络连接即可提供 AI 能力
- **数据隐私**: 数据不离开本地环境
- **学习和研究**: 了解和实验大语言模型

## 常见问题

详细的故障排查指南请参考 [QUICK_START.md](QUICK_START.md#故障排查)

## 性能优化

- 根据设备配置调整 `num_thread` 参数（建议 CPU 核心数 - 2）
- 使用更小的量化模型（如 IQ4_NL）提升响应速度
- 调整 `OLLAMA_NUM_PARALLEL` 和 `OLLAMA_MAX_QUEUE` 优化并发性能

## 贡献指南

欢迎提交 Issue 和 Pull Request！

## 许可证

本项目采用 MIT 开源许可证 - 详见 [LICENSE](LICENSE)

## 致谢

- [Qwen](https://github.com/QwenLM/Qwen) - 通义千问开源项目
- [Ollama](https://ollama.com) - 大语言模型推理引擎
- [ModelScope](https://modelscope.cn) - 模型即服务开源社区

## 联系方式

- 项目地址: [Gitee Repository](https://gitee.com/your-repo/docker-ai-slm)
- 问题反馈: 请提交 Issue

---

**注意**: 本项目主要用于学习和研究目的。在生产环境中使用前，请进行充分的测试和评估。