# DockerAI **Repository Path**: dolayout/docker-ai-slm ## Basic Information - **Project Name**: DockerAI - **Description**: 使用 Docker 部署本地 “小模型”,项目示例使用 Qwen 3.5 0.8b 量化小模型。 - **Primary Language**: Python - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-03-22 - **Last Updated**: 2026-03-23 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Docker AI SLM - Qwen3.5 ARM64 基于 Docker 和 Ollama 的小语言模型(SLM)部署方案,专为 ARM64 架构优化。 ## 项目简介 本项目提供了一个完整的解决方案,用于在 ARM64 设备上快速部署和运行 Qwen3.5-0.8B 模型。通过 Docker 容器化技术和 Ollama 推理引擎,用户可以在本地环境中轻松构建强大的 AI 能力。 ### 核心特性 - **ARM64 优化**: 针对 Snapdragon X Elite 等 ARM64 平台深度优化 - **开箱即用**: 三步即可完成部署和运行 - **轻量高效**: Qwen3.5-0.8B 模型仅约 500MB,内存占用低 - **API 友好**: 提供标准的 RESTful API 接口 - **灵活配置**: 支持多种量化模型和参数调优 ### 技术栈 - **推理引擎**: Ollama - **模型**: Qwen3.5-0.8B (GGUF 量化格式) - **容器平台**: Docker & Docker Compose - **模型分发**: ModelScope ## 快速开始 详细的安装和配置指南请参考 [QUICK_START.md](QUICK_START.md) ### 前置要求 - Docker Desktop (支持 WSL2) - Python 3.8+ - 至少 4GB 可用内存 - ARM64 架构设备 ### 三步启动 ```bash # 1. 下载模型 python download_model.py # 2. 启动容器 docker-compose -f docker-compose-arm64.yaml up -d # 3. 创建并运行模型 docker cp ollama/models/qwen35-08b-gguf.modelfile ollama-server-arm64:/root/.ollama/models/ docker exec ollama-server-arm64 ollama create qwen35 -f /root/.ollama/models/qwen35-08b-gguf.modelfile docker exec -it ollama-server-arm64 ollama run qwen35 "你好" ``` ## 项目结构 ``` docker-ai-slm/ ├── docker-compose-arm64.yaml # Docker Compose 配置文件 ├── download_model.py # 模型下载脚本 ├── QUICK_START.md # 详细使用指南 ├── README.md # 项目说明文档 ├── LICENSE # MIT 开源协议 ├── gguf-models/ # GGUF 模型文件目录 └── ollama/ ├── models/ # Modelfile 配置目录 │ └── qwen35-08b-gguf.modelfile └── data/ # Ollama 数据持久化目录 ``` ## API 使用示例 ### 文本生成 ```bash curl http://localhost:11434/api/generate -d '{ "model": "qwen35", "prompt": "你好,请介绍一下你自己?", "stream": false }' ``` ### 对话模式 ```bash curl http://localhost:11434/api/chat -d '{ "model": "qwen35", "messages": [ {"role": "user", "content": "你好"} ], "stream": false }' ``` ## 配置说明 ### Docker 配置 `docker-compose-arm64.yaml` 针对 ARM64 环境优化: - **平台**: linux/arm64 - **共享内存**: 2GB - **并行处理**: 2 个请求 - **最大队列**: 4 个请求 ### 模型参数 - **temperature**: 0.7 (创造性) - **top_p**: 0.9 (核采样) - **num_ctx**: 4096 (上下文长度) - **num_thread**: 10 (线程数) ## 支持的模型 | 模型文件 | 大小 | 特点 | |---------|------|------| | Qwen3.5-0.8B-Q4_K_M.gguf | 507MB | 最佳质量/速度平衡 | | Qwen3.5-0.8B-Q4_K_S.gguf | 484MB | 更高速度 | | Qwen3.5-0.8B-IQ4_NL.gguf | 483MB | 最新量化技术 | ## 适用场景 - **本地开发**: 快速构建 AI 原型 - **边缘计算**: 在资源受限的设备上运行 AI 模型 - **离线应用**: 无需网络连接即可提供 AI 能力 - **数据隐私**: 数据不离开本地环境 - **学习和研究**: 了解和实验大语言模型 ## 常见问题 详细的故障排查指南请参考 [QUICK_START.md](QUICK_START.md#故障排查) ## 性能优化 - 根据设备配置调整 `num_thread` 参数(建议 CPU 核心数 - 2) - 使用更小的量化模型(如 IQ4_NL)提升响应速度 - 调整 `OLLAMA_NUM_PARALLEL` 和 `OLLAMA_MAX_QUEUE` 优化并发性能 ## 贡献指南 欢迎提交 Issue 和 Pull Request! ## 许可证 本项目采用 MIT 开源许可证 - 详见 [LICENSE](LICENSE) ## 致谢 - [Qwen](https://github.com/QwenLM/Qwen) - 通义千问开源项目 - [Ollama](https://ollama.com) - 大语言模型推理引擎 - [ModelScope](https://modelscope.cn) - 模型即服务开源社区 ## 联系方式 - 项目地址: [Gitee Repository](https://gitee.com/your-repo/docker-ai-slm) - 问题反馈: 请提交 Issue --- **注意**: 本项目主要用于学习和研究目的。在生产环境中使用前,请进行充分的测试和评估。