# 企业级模型部署方案
**Repository Path**: xbhog/private-design-ai
## Basic Information
- **Project Name**: 企业级模型部署方案
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Apache-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No
## Statistics
- **Stars**: 0
- **Forks**: 0
- **Created**: 2026-03-16
- **Last Updated**: 2026-03-23
## Categories & Tags
**Categories**: Uncategorized
**Tags**: None
## README
# 模型本地部署调研
## 1. 系列版本介绍
目前国内顶尖模型开源的版本分为以下几个系列:
1. 千问系列
2. deepseek系列
3. minmax系列
4. GLM系列
5. Kimi系列
每个系列的旗下版本涉及到:
### 🚀 千问系列 (Qwen) 开源版本一览
千问系列是开源版本最丰富的系列之一,覆盖了从端侧到超大MoE的多种架构。
| 开源版本 | 发布时间 | 核心参数/架构 | 特点与场景 |
| :------------------------ | :------------ | :----------------------------------------------------------- | :----------------------------------------------------------- |
| **Qwen3 系列 (早期)** | 2025年 | Qwen3-8B/14B/32B (Dense)
Qwen3-30B-A3B, Qwen3-235B-A22B (MoE) | 早期版本,已支持"思考模式"与"非思考模式"切换,为后续版本奠定基础。 |
| **Qwen3-Coder 系列** | 2025-2026年 | Qwen3-Coder-30B-A3B, Qwen3-Coder-480B-A35B | 专注于代码生成的模型,具有强大的Coding Agent能力。 |
| **Qwen3-VL 系列** | 2025-2026年 | Qwen3-VL-8B, Qwen3-VL-32B, Qwen3-VL-235B-A22B | 原生多模态视觉理解模型,支持长视频、长文档理解与视觉定位。 |
| **QWQ-32B** | 2026年1月 | 32B Dense | 专注于复杂推理的模型,在数学、代码和逻辑推理等评测中达到业界顶尖水平。 |
| **Qwen3.5 家族 (中大型)** | 2026年1月-3月 | Qwen3.5-27B (Dense)
Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-397B-A17B (MoE) | 采用原生多模态训练,从超大MoE到中型Dense,覆盖多种性能需求。 |
| **Qwen3.5 家族 (小尺寸)** | 2026年3月 | Qwen3.5-0.8B, Qwen3.5-2B, Qwen3.5-4B, Qwen3.5-9B (Dense) | **最新发布**。继承Qwen3.5基因,专为端侧、移动设备和轻量级服务器设计。9B版本性能媲美gpt-oss-120B。 |
### 🔍 DeepSeek 系列 开源版本一览
DeepSeek 以其高性价比和创新的推理能力著称,2026年已多次更新。
| 开源版本 | 发布时间 | 核心参数/架构 | 特点与场景 |
| :------------------------------------- | :--------- | :------------------------------------------------ | :----------------------------------------------------------- |
| **DeepSeek-R1** | 2025年1月 | 训练成本不到GPT-4o的十分之一,性能对齐OpenAI o1。 | |
| **DeepSeek-V3-0324** | 2025年3月 | 671B总参数 (MoE), 131K上下文 | 融合R1强化学习技术,推理、数学和编程能力提升,多项基准超越GPT-4.5。 |
| **DeepSeek-R1-0528** | 2025年5月 | 推理能力重大升级,前端能力超过Gemini 2.5 Pro。 | |
| **DeepSeek-V3.1** | 2025年 | 支持"思考模式"与"非思考模式"自由切换。 | |
| **DeepSeek V3.2** | 2025年12月 | 685B总参数 (MoE, 37B激活), 128K上下文, MIT许可证 | 首个将推理直接集成到工具调用中的模型,SWE-bench Verified得分70%,推理成本大幅降低。 |
| **DeepSeek Janus Pro / OCR / Math-V2** | 2025年 | - | Janus Pro提升多模态理解;Math-V2成为首个达到国际奥数金牌水平并开源的模型。 |
### 🤖 MiniMax 系列 开源版本一览
MiniMax近期加入开源行列,主打高性价比的Agent和编程能力。
| 开源版本 | 发布时间 | 核心参数/架构 | 特点与场景 |
| :----------------- | :------------ | :--------------------------------------------- | :----------------------------------------------------------- |
| **MiniMax-M1-80k** | 2025年 | 456B参数 | 混合注意力推理模型。 |
| **MiniMax-M2** | 2025年10月 | 230B总/10B激活 (MoE) | 专为高效编码与Agent工作流打造。 |
| **MiniMax-M2.1** | 2025年12月 | 旗舰级开源大模型,聚焦真实世界复杂任务。 | |
| **MiniMax-M2.5** | 2026年2月12日 | 230B总/10B激活 (MoE), 200K上下文, Modified MIT | **最新发布**。定位"原生Agent生产级模型",SWE-bench Verified得分80.2%(系列最高),速度提升37%,成本极低。 |
### ⚙️ GLM 系列 (智谱) 开源版本一览
智谱AI的开源模型采用MIT宽松许可证,在复杂系统工程和长程Agent任务上表现突出。
| 开源版本 | 发布时间 | 核心参数/架构 | 特点与场景 |
| :------------------------ | :------------ | :----------------------------------------------------- | :----------------------------------------------------------- |
| **GLM-4.5 / GLM-4.5-Air** | 2026年3月 | 355B总/32B激活 (GLM-4.5), 106B总/12B激活 (GLM-4.5-Air) | 专为AI Agent设计的基础模型,统一推理、代码和Agent能力,支持"思考模式"与非思考模式,采用MIT许可证开源。 |
| **GLM-Z1 系列** | 2025-2026年 | GLM-Z1-32B/9B (推理模型) | 推理模型在AIME 2026上得分92.7%。 |
| **GLM-5** | 2026年2月11日 | 744B总/40B激活 (MoE), 200K上下文, MIT许可证 | **最新发布**。定位"Agentic Engineering",在SWE-bench Verified (77.8%)等测试中取得开源SOTA,擅长复杂系统工程与长程Agent任务。 |
### 🌐 Kimi 系列 (月之暗面) 开源版本一览
Kimi系列以其原生多模态能力和创新的多智能体协同技术(Agent Swarm)著称。
| 开源版本 | 发布时间 | 核心参数/架构 | 特点与场景 |
| :------------ | :------------ | :------------------------------------------- | :----------------------------------------------------------- |
| **Kimi K2.5** | 2026年1月27日 | 1T总/32B激活 (MoE), 256K上下文, Modified MIT | **最新发布**。原生多模态,支持图像、视频与文本输入。核心亮点是 **Agent Swarm** 技术,可动态创建最多100个子Agent并行工作。 |
## 1.1 名词解释
### 1. 总参数 vs 激活参数(MoE 架构)
- **参数**:可以理解为模型的“知识储量”或“神经元数量”。参数越多,理论上模型越聪明,但也需要更多计算资源。
- **总参数**:模型全部的知识储备,像一家公司的所有员工。
- **激活参数**:在处理某个具体问题时,实际参与工作的员工数量。在 **MoE(混合专家)架构**中,模型内部有很多“专家子模块”,每次只调用其中一部分专家,所以**总参数很大,但激活参数较小**。这样既能保持大模型的智慧,又能节省计算成本。
- **B 是 Billion(十亿)**
- **能做什么**:MoE模型让你在本地电脑或服务器上,用相对少的资源跑一个“大模型”。例如总参数 2300亿,激活仅 100亿,意味着你不需要顶级的 GPU 也能运行,但依然拥有接近千亿级模型的能力。
### 2. 上下文长度(Context Length)
- **定义**:模型一次性能“记住”和处理的文本长度,通常以 token(单词或子词)为单位。1个汉字约1-2个token。
- **能做什么**:上下文越长,模型能处理的材料就越多。
- 128K 上下文 ≈ 可一次读完《三体》三部曲中的一本。
- 256K 上下文 ≈ 可一次处理整本《三体》三部曲。
- 1M 上下文 ≈ 可以同时记住三部《三体》+《流浪地球》+大量论文。
- **实际应用**:长上下文适用于**长文档分析、整本书问答、长视频理解、多轮复杂对话**等。
### 3. Dense 架构 vs MoE 架构
- **Dense(密集模型)**:所有参数在处理每个任务时都会被激活。就像一个全能型人才,做什么事都全身心投入。优点是能力强,缺点是资源消耗大。
- **MoE(混合专家模型)**:内部有多个专家模块,每个任务只激活部分专家。像一家咨询公司,遇到法律问题只找法律专家,遇到财务问题只找财务专家。**优点:效率高,成本低;缺点:需要复杂的调度机制**。
### 4. 推理模型 vs 通用模型
- **推理模型(Reasoning Model)**:专门强化了逻辑推理、数学证明、代码生成等需要“慢思考”的任务。它们在回答问题前会“内部思考”一番,给出更准确的答案。比如 DeepSeek-R1、QWQ-32B。
- **通用模型**:擅长日常对话、创意写作、信息总结等“快思考”任务,响应速度快。
- **能做什么**:如果你需要解复杂的数学题或调试代码,选推理模型;如果你只是想聊天或写文案,通用模型就够了。
### 5. 多模态
- **定义**:模型不仅能理解文字,还能看懂**图像、视频、音频**等信息。
- **能做什么**:你可以上传一张图片问“这是什么动物”,或者给一段视频问“视频里的人在做什么”。比如 Qwen3-VL、Kimi K2.5 都支持多模态。
### 6. Agent 能力
- **定义**:模型不再只是被动回答,而是能主动**调用工具、规划步骤、执行任务**,像一个 AI 员工。
- **能做什么**:
- 调用相关的工具
- 写代码并运行:模型写完代码后自动执行并检查结果。
- 多智能体协同:多个 AI 角色分工合作,比如一个负责规划,一个负责写代码,一个负责测试。
## 1.2 多维度调研
本地部署、适用于100以内的技术团队内部使用,社区繁荣、部署方便、文档齐全
| 维度 | **Qwen3.5-27B** (Qwen系列) | **GLM-5** (智谱系列) | **Kimi K2.5** (Kimi系列) | **DeepSeek-V3.2** (DeepSeek系列) | **MiniMax-M2.5** (MiniMax系列) |
| :------------------------------------ | :------------------------------------------- | :------------------------------------------- | :----------------------------------------------------------- | :--------------------------------- | :--------------------------------- |
| **核心代码能力** (SWE-bench Verified) | **72.4%** | **77.8%** | **76.8%** | **73.1%** (V3.2) | **80.2%** (来自历史数据) |
| **复杂工程能力** (Terminal Bench 2.0) | 41.6% | **56.2%** (开源第一) | 50.8% | 46.4% | 数据缺失 |
| **多模态能力** (图像/视频理解) | **强** (MMMU 82.3%) | 无 | **极强** (MMMU-Pro 78.5%, 视频理解) | 无 | 无 |
| **总参数量 / 激活参数量** | 27.8B (Dense) | **753.9B** / 40B (MoE) | **1T** / 32B (MoE) | 685B / 37B (MoE) | 230B / 10B (MoE) |
| **本地部署硬件门槛** (估算并发) | **中高** 需8×24G卡高性能部署 | **高** 需8×80G卡 (官方示例) | **高** 需多卡高性能集群 | **中高** 需多卡部署 | **低** 单卡可运行 (10B激活) |
| **部署生态与框架支持** | **极完善** (vLLM, SGLang, KTransformers, HF) | **完善** (vLLM, SGLang, KTransformers, xLLM) | **完善** (vLLM, SGLang, KTransformers) | **完善** (支持主流框架) | **较新**,社区资料在积累 |
| **官方部署文档/示例** | **极详尽** (有完整命令行和代码示例) | **详尽** (有Docker和pip部署命令) | **详尽** (有API调用和多模态示例) | 合集页,需进子模型查看 | 合集页,信息较少 |
| **社区热度** (ModelScope下载量) | **82.2万** (单模型) | **9.4万** (单模型) | **11.0万** (单模型) | **223.2k** (V3.2单模型) | 合集页,无单模型数据 |
| **开源协议** | Apache 2.0 | MIT | **Modified MIT** | MIT | Modified MIT |
| **核心特色与定位** | **全能型多模态助手**,部署生态最好 | **复杂系统工程专家**,长程Agent任务强 | **原生多模态Agent**,支持智能体集群(Agent Swarm)并行处理复杂任务 | **高性价比推理**,工具调用集成度高 | **极高性价比的代码专家**,成本极低 |
## 2. 基础场景
1. 基于老系统的文档维护,新系统的文档说明,方案涉及以及评估,
2. 内部工具以及脚本生成
3. 代码补全,代码建议
4. 代码生成
5. 单元测试和集成测试
6. 自动化代码审查
7. 其他场景:本地知识库(开发、运维、业务)、线上日志排查
### 核心工具:Continue 插件:1.2.3
**Continue** 是目前在 IDE 中接入本地模型最主流、最灵活的方案,它同时支持 VS Code 和 JetBrains 全系列 IDE 。
- **核心价值**:它提供了一个统一的界面(侧边栏聊天和代码内联交互),可以自由配置底层的模型,而不必为每个模型安装不同的插件。
- **配置方式**:通过在项目或用户目录下的 `~/.continue/config.yaml` 文件中进行配置,可以指定不同场景下使用的模型
### 代码自动评审思路
第一种:
1. 在 GitLab CI 配置中,添加一个 `review` 任务。
2. 这个任务需要能访问你的本地模型 API 地址。
3. 使用 `curl` 或 Python 脚本,获取 MR 的变更内容(`git diff`)。
4. 构造评审提示词,发送到本地模型 API(例如 `http://your-model-server:8000/v1/chat/completions`)。
5. 将模型返回的评审意见,通过 GitLab API 以评论的形式提交到对应的 MR 上。
第二种:
插件化实现:线上自动评审或本地自动评审
### 基本的调用链路:
```mermaid
graph TD
A[开发者IDE: Continue] -->|HTTP请求| B[API网关 Nginx]
B --> C{路由规则}
C -->|补全/建议| D[补全模型服务 vLLM]
C -->|代码生成/聊天| E[通用模型服务 vLLM]
C -->|多模态/评审| F[大模型服务 vLLM/SGLang]
C -->|异步任务| G[消息队列]
G --> H[异步Worker]
H --> E
B --> I[缓存 Redis]
I -->|命中| A
D/E/F --> J[(GPU集群)]
```
## 优化模型使用:
1. **MCP (Model Context Protocol,模型上下文协议)**:可以理解为 AI 的 **“万能插座”** 或 **“USB-C接口”** 。它是一个开放标准,让不同的 AI 模型(如你部署的 Qwen、GLM)能够用统一的方式连接和使用各种外部工具和数据源 。
2. **Skill**:通常指封装好的 **“单个工具”** 或 **“能力单元”**。它们是 MCP 服务器可以提供的具体功能。
3. **Prompt(提示词)** 就是你输入给 AI 模型的问题、指令或上下文。它可以是简单的一句话(如“解释一下什么是微服务”),也可以是一段包含详细要求、示例和约束的复杂文本。
4. RAG检索增强生成:把问题先拿去检索私有知识库(如公司 Wiki),把找到的相关文档作为上下文喂给模型,让它基于这些信息回答。
5. **智能体框架**:AI Agent编排
6. 模型微调
# Qwen3流程设计
## 模型部署
当前展示的是Qwen3系列原始版本

[使用 vLLM - vLLM - vLLM 文档](https://docs.vllm.com.cn/en/latest/usage/)
除原始版本外,还有量化版本,不同的量化程度决定所需要的显存大小,并且决定了模型一次会话所能容纳的上下文长度。
**deepseek预估:**
**核心硬件:一张 80GB显存的 NVIDIA A100 或 H100 PCIe/SXM 版本。**
**显存占用:模型权重就高达 55.59GB,加上KV缓存等开销,80GB显存是刚需。一张A100 80GB可以轻松容纳。**
[千问3.5-27B · 模型库](https://www.modelscope.cn/models/Qwen/Qwen3.5-27B)
## 方案设计

### 网关层
开源的AI 网关以及核心特点
| 网关项目 | 核心特点 | | 技术栈/部署方式 | |
| :---------------------------- | :----------------------------------------------------------- | :--- | :---------------------------------------------------------- | :--- |
| **Portkey AI Gateway** | **多模型路由**:支持200+模型,提供故障转移、自动重试、负载均衡;**安全与成本管理**:具备防护栏、虚拟密钥、缓存、使用分析等功能。 | | Docker一键启动,也可私有部署。控制台提供可视化配置。 | |
| **Helicone AI Gateway** | **极高性能**:基于Rust编写,P95延迟<10ms,内存占用约64MB;**统一接口**:用OpenAI语法调用100+模型;**智能路由**:支持基于延迟、成本的负载均衡。 | | 提供npx一键启动,或通过Docker/二进制部署。 | |
| **Higress** | **云原生能力**:基于Istio+Envoy,可作为K8s入口网关;**AI能力插件**:提供大模型代理、安全防护、限流、可观测等;**MCP网关**:支持API快速转化为MCP Server,适配Agent生态。 | | 云原生,支持K8s Helm部署,也提供云上托管版本。 | |
| **Kgateway (含agentgateway)** | **K8s原生**:基于Kubernetes Gateway API;**AI代理能力**:集成agentgateway子项目,支持LLM、MCP工具、AI智能体的路由。 | | Kubernetes原生,通过Helm安装。 | |
| **Envoy AI Gateway** | **两层网关架构**:提出中央网关+模型服务集群网关的设计,分离外部访问与内部实现;**凭证注入**:解耦应用与第三方API密钥;**基于Token的限流**:直接控制成本。 | | 云原生,作为Envoy的扩展,可通过`go-control-plane`进行配置。 | |

### 能力编排层:Qwen-agent进行智能体的开发
**能力编排层**解决的核心问题是:**将底层的模型能力,封装成上层的业务服务**。
1. **解耦**:让业务应用(Web/API/插件)不用关心底层用的是27B还是Coder模型,只需调用“xxxx”这个服务。
2. **编排**:把复杂流程(如“问题→检索→推理→回答”)定义成可复用的标准链路,不用每个业务都重复造轮子。
3. **管控**:统一管理工具调用(如SQL查询、内部API)、记录审计日志、控制权限,让AI服务在企业内可信、可管。