# 企业级模型部署方案 **Repository Path**: xbhog/private-design-ai ## Basic Information - **Project Name**: 企业级模型部署方案 - **Description**: No description available - **Primary Language**: Unknown - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-03-16 - **Last Updated**: 2026-03-23 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 模型本地部署调研 ## 1. 系列版本介绍目前国内顶尖模型开源的版本分为以下几个系列： 1. 千问系列 2. deepseek系列 3. minmax系列 4. GLM系列 5. Kimi系列每个系列的旗下版本涉及到： ### 🚀 千问系列 (Qwen) 开源版本一览千问系列是开源版本最丰富的系列之一，覆盖了从端侧到超大MoE的多种架构。 | 开源版本 | 发布时间 | 核心参数/架构 | 特点与场景 | | :------------------------ | :------------ | :----------------------------------------------------------- | :----------------------------------------------------------- | | **Qwen3 系列 (早期)** | 2025年 | Qwen3-8B/14B/32B (Dense)
Qwen3-30B-A3B, Qwen3-235B-A22B (MoE) | 早期版本，已支持"思考模式"与"非思考模式"切换，为后续版本奠定基础。 | | **Qwen3-Coder 系列** | 2025-2026年 | Qwen3-Coder-30B-A3B, Qwen3-Coder-480B-A35B | 专注于代码生成的模型，具有强大的Coding Agent能力。 | | **Qwen3-VL 系列** | 2025-2026年 | Qwen3-VL-8B, Qwen3-VL-32B, Qwen3-VL-235B-A22B | 原生多模态视觉理解模型，支持长视频、长文档理解与视觉定位。 | | **QWQ-32B** | 2026年1月 | 32B Dense | 专注于复杂推理的模型，在数学、代码和逻辑推理等评测中达到业界顶尖水平。 | | **Qwen3.5 家族 (中大型)** | 2026年1月-3月 | Qwen3.5-27B (Dense)
Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-397B-A17B (MoE) | 采用原生多模态训练，从超大MoE到中型Dense，覆盖多种性能需求。 | | **Qwen3.5 家族 (小尺寸)** | 2026年3月 | Qwen3.5-0.8B, Qwen3.5-2B, Qwen3.5-4B, Qwen3.5-9B (Dense) | **最新发布**。继承Qwen3.5基因，专为端侧、移动设备和轻量级服务器设计。9B版本性能媲美gpt-oss-120B。 | ### 🔍 DeepSeek 系列开源版本一览 DeepSeek 以其高性价比和创新的推理能力著称，2026年已多次更新。 | 开源版本 | 发布时间 | 核心参数/架构 | 特点与场景 | | :------------------------------------- | :--------- | :------------------------------------------------ | :----------------------------------------------------------- | | **DeepSeek-R1** | 2025年1月 | 训练成本不到GPT-4o的十分之一，性能对齐OpenAI o1。 | | | **DeepSeek-V3-0324** | 2025年3月 | 671B总参数 (MoE), 131K上下文 | 融合R1强化学习技术，推理、数学和编程能力提升，多项基准超越GPT-4.5。 | | **DeepSeek-R1-0528** | 2025年5月 | 推理能力重大升级，前端能力超过Gemini 2.5 Pro。 | | | **DeepSeek-V3.1** | 2025年 | 支持"思考模式"与"非思考模式"自由切换。 | | | **DeepSeek V3.2** | 2025年12月 | 685B总参数 (MoE, 37B激活), 128K上下文, MIT许可证 | 首个将推理直接集成到工具调用中的模型，SWE-bench Verified得分70%，推理成本大幅降低。 | | **DeepSeek Janus Pro / OCR / Math-V2** | 2025年 | - | Janus Pro提升多模态理解；Math-V2成为首个达到国际奥数金牌水平并开源的模型。 | ### 🤖 MiniMax 系列开源版本一览 MiniMax近期加入开源行列，主打高性价比的Agent和编程能力。 | 开源版本 | 发布时间 | 核心参数/架构 | 特点与场景 | | :----------------- | :------------ | :--------------------------------------------- | :----------------------------------------------------------- | | **MiniMax-M1-80k** | 2025年 | 456B参数 | 混合注意力推理模型。 | | **MiniMax-M2** | 2025年10月 | 230B总/10B激活 (MoE) | 专为高效编码与Agent工作流打造。 | | **MiniMax-M2.1** | 2025年12月 | 旗舰级开源大模型，聚焦真实世界复杂任务。 | | | **MiniMax-M2.5** | 2026年2月12日 | 230B总/10B激活 (MoE), 200K上下文, Modified MIT | **最新发布**。定位"原生Agent生产级模型"，SWE-bench Verified得分80.2%（系列最高），速度提升37%，成本极低。 | ### ⚙️ GLM 系列 (智谱) 开源版本一览智谱AI的开源模型采用MIT宽松许可证，在复杂系统工程和长程Agent任务上表现突出。 | 开源版本 | 发布时间 | 核心参数/架构 | 特点与场景 | | :------------------------ | :------------ | :----------------------------------------------------- | :----------------------------------------------------------- | | **GLM-4.5 / GLM-4.5-Air** | 2026年3月 | 355B总/32B激活 (GLM-4.5), 106B总/12B激活 (GLM-4.5-Air) | 专为AI Agent设计的基础模型，统一推理、代码和Agent能力，支持"思考模式"与非思考模式，采用MIT许可证开源。 | | **GLM-Z1 系列** | 2025-2026年 | GLM-Z1-32B/9B (推理模型) | 推理模型在AIME 2026上得分92.7%。 | | **GLM-5** | 2026年2月11日 | 744B总/40B激活 (MoE), 200K上下文, MIT许可证 | **最新发布**。定位"Agentic Engineering"，在SWE-bench Verified (77.8%)等测试中取得开源SOTA，擅长复杂系统工程与长程Agent任务。 | ### 🌐 Kimi 系列 (月之暗面) 开源版本一览 Kimi系列以其原生多模态能力和创新的多智能体协同技术（Agent Swarm）著称。 | 开源版本 | 发布时间 | 核心参数/架构 | 特点与场景 | | :------------ | :------------ | :------------------------------------------- | :----------------------------------------------------------- | | **Kimi K2.5** | 2026年1月27日 | 1T总/32B激活 (MoE), 256K上下文, Modified MIT | **最新发布**。原生多模态，支持图像、视频与文本输入。核心亮点是 **Agent Swarm** 技术，可动态创建最多100个子Agent并行工作。 | ## 1.1 名词解释 ### 1. 总参数 vs 激活参数（MoE 架构） - **参数**：可以理解为模型的“知识储量”或“神经元数量”。参数越多，理论上模型越聪明，但也需要更多计算资源。 - **总参数**：模型全部的知识储备，像一家公司的所有员工。 - **激活参数**：在处理某个具体问题时，实际参与工作的员工数量。在 **MoE（混合专家）架构**中，模型内部有很多“专家子模块”，每次只调用其中一部分专家，所以**总参数很大，但激活参数较小**。这样既能保持大模型的智慧，又能节省计算成本。 - **B 是 Billion（十亿）** - **能做什么**：MoE模型让你在本地电脑或服务器上，用相对少的资源跑一个“大模型”。例如总参数 2300亿，激活仅 100亿，意味着你不需要顶级的 GPU 也能运行，但依然拥有接近千亿级模型的能力。 ### 2. 上下文长度（Context Length） - **定义**：模型一次性能“记住”和处理的文本长度，通常以 token（单词或子词）为单位。1个汉字约1-2个token。 - **能做什么**：上下文越长，模型能处理的材料就越多。 - 128K 上下文 ≈ 可一次读完《三体》三部曲中的一本。 - 256K 上下文 ≈ 可一次处理整本《三体》三部曲。 - 1M 上下文 ≈ 可以同时记住三部《三体》+《流浪地球》+大量论文。 - **实际应用**：长上下文适用于**长文档分析、整本书问答、长视频理解、多轮复杂对话**等。 ### 3. Dense 架构 vs MoE 架构 - **Dense（密集模型）**：所有参数在处理每个任务时都会被激活。就像一个全能型人才，做什么事都全身心投入。优点是能力强，缺点是资源消耗大。 - **MoE（混合专家模型）**：内部有多个专家模块，每个任务只激活部分专家。像一家咨询公司，遇到法律问题只找法律专家，遇到财务问题只找财务专家。**优点：效率高，成本低；缺点：需要复杂的调度机制**。 ### 4. 推理模型 vs 通用模型 - **推理模型（Reasoning Model）**：专门强化了逻辑推理、数学证明、代码生成等需要“慢思考”的任务。它们在回答问题前会“内部思考”一番，给出更准确的答案。比如 DeepSeek-R1、QWQ-32B。 - **通用模型**：擅长日常对话、创意写作、信息总结等“快思考”任务，响应速度快。 - **能做什么**：如果你需要解复杂的数学题或调试代码，选推理模型；如果你只是想聊天或写文案，通用模型就够了。 ### 5. 多模态 - **定义**：模型不仅能理解文字，还能看懂**图像、视频、音频**等信息。 - **能做什么**：你可以上传一张图片问“这是什么动物”，或者给一段视频问“视频里的人在做什么”。比如 Qwen3-VL、Kimi K2.5 都支持多模态。 ### 6. Agent 能力 - **定义**：模型不再只是被动回答，而是能主动**调用工具、规划步骤、执行任务**，像一个 AI 员工。 - **能做什么**： - 调用相关的工具 - 写代码并运行：模型写完代码后自动执行并检查结果。 - 多智能体协同：多个 AI 角色分工合作，比如一个负责规划，一个负责写代码，一个负责测试。 ## 1.2 多维度调研本地部署、适用于100以内的技术团队内部使用，社区繁荣、部署方便、文档齐全 | 维度 | **Qwen3.5-27B** (Qwen系列) | **GLM-5** (智谱系列) | **Kimi K2.5** (Kimi系列) | **DeepSeek-V3.2** (DeepSeek系列) | **MiniMax-M2.5** (MiniMax系列) | | :------------------------------------ | :------------------------------------------- | :------------------------------------------- | :----------------------------------------------------------- | :--------------------------------- | :--------------------------------- | | **核心代码能力** (SWE-bench Verified) | **72.4%** | **77.8%** | **76.8%** | **73.1%** (V3.2) | **80.2%** (来自历史数据) | | **复杂工程能力** (Terminal Bench 2.0) | 41.6% | **56.2%** (开源第一) | 50.8% | 46.4% | 数据缺失 | | **多模态能力** (图像/视频理解) | **强** (MMMU 82.3%) | 无 | **极强** (MMMU-Pro 78.5%, 视频理解) | 无 | 无 | | **总参数量 / 激活参数量** | 27.8B (Dense) | **753.9B** / 40B (MoE) | **1T** / 32B (MoE) | 685B / 37B (MoE) | 230B / 10B (MoE) | | **本地部署硬件门槛** (估算并发) | **中高** 需8×24G卡高性能部署 | **高** 需8×80G卡 (官方示例) | **高** 需多卡高性能集群 | **中高** 需多卡部署 | **低** 单卡可运行 (10B激活) | | **部署生态与框架支持** | **极完善** (vLLM, SGLang, KTransformers, HF) | **完善** (vLLM, SGLang, KTransformers, xLLM) | **完善** (vLLM, SGLang, KTransformers) | **完善** (支持主流框架) | **较新**，社区资料在积累 | | **官方部署文档/示例** | **极详尽** (有完整命令行和代码示例) | **详尽** (有Docker和pip部署命令) | **详尽** (有API调用和多模态示例) | 合集页，需进子模型查看 | 合集页，信息较少 | | **社区热度** (ModelScope下载量) | **82.2万** (单模型) | **9.4万** (单模型) | **11.0万** (单模型) | **223.2k** (V3.2单模型) | 合集页，无单模型数据 | | **开源协议** | Apache 2.0 | MIT | **Modified MIT** | MIT | Modified MIT | | **核心特色与定位** | **全能型多模态助手**，部署生态最好 | **复杂系统工程专家**，长程Agent任务强 | **原生多模态Agent**，支持智能体集群(Agent Swarm)并行处理复杂任务 | **高性价比推理**，工具调用集成度高 | **极高性价比的代码专家**，成本极低 | ## 2. 基础场景 1. 基于老系统的文档维护，新系统的文档说明，方案涉及以及评估, 2. 内部工具以及脚本生成 3. 代码补全，代码建议 4. 代码生成 5. 单元测试和集成测试 6. 自动化代码审查 7. 其他场景：本地知识库(开发、运维、业务)、线上日志排查 ### 核心工具：Continue 插件：1.2.3 **Continue** 是目前在 IDE 中接入本地模型最主流、最灵活的方案，它同时支持 VS Code 和 JetBrains 全系列 IDE 。 - **核心价值**：它提供了一个统一的界面（侧边栏聊天和代码内联交互），可以自由配置底层的模型，而不必为每个模型安装不同的插件。 - **配置方式**：通过在项目或用户目录下的 `~/.continue/config.yaml` 文件中进行配置，可以指定不同场景下使用的模型 ### 代码自动评审思路第一种： 1. 在 GitLab CI 配置中，添加一个 `review` 任务。 2. 这个任务需要能访问你的本地模型 API 地址。 3. 使用 `curl` 或 Python 脚本，获取 MR 的变更内容（`git diff`）。 4. 构造评审提示词，发送到本地模型 API（例如 `http://your-model-server:8000/v1/chat/completions`）。 5. 将模型返回的评审意见，通过 GitLab API 以评论的形式提交到对应的 MR 上。第二种：插件化实现：线上自动评审或本地自动评审 ### 基本的调用链路： ```mermaid graph TD A[开发者IDE: Continue] -->|HTTP请求| B[API网关 Nginx] B --> C{路由规则} C -->|补全/建议| D[补全模型服务 vLLM] C -->|代码生成/聊天| E[通用模型服务 vLLM] C -->|多模态/评审| F[大模型服务 vLLM/SGLang] C -->|异步任务| G[消息队列] G --> H[异步Worker] H --> E B --> I[缓存 Redis] I -->|命中| A D/E/F --> J[(GPU集群)] ``` ## 优化模型使用： 1. **MCP (Model Context Protocol，模型上下文协议)**：可以理解为 AI 的 **“万能插座”** 或 **“USB-C接口”** 。它是一个开放标准，让不同的 AI 模型（如你部署的 Qwen、GLM）能够用统一的方式连接和使用各种外部工具和数据源。 2. **Skill**：通常指封装好的 **“单个工具”** 或 **“能力单元”**。它们是 MCP 服务器可以提供的具体功能。 3. **Prompt（提示词）** 就是你输入给 AI 模型的问题、指令或上下文。它可以是简单的一句话（如“解释一下什么是微服务”），也可以是一段包含详细要求、示例和约束的复杂文本。 4. RAG检索增强生成：把问题先拿去检索私有知识库（如公司 Wiki），把找到的相关文档作为上下文喂给模型，让它基于这些信息回答。 5. **智能体框架**：AI Agent编排 6. 模型微调 # Qwen3流程设计 ## 模型部署当前展示的是Qwen3系列原始版本 ![image-20260317113246922](D:\xbhogfiles\img\image-20260317113246922.png) [使用 vLLM - vLLM - vLLM 文档](https://docs.vllm.com.cn/en/latest/usage/) 除原始版本外，还有量化版本，不同的量化程度决定所需要的显存大小，并且决定了模型一次会话所能容纳的上下文长度。 **deepseek预估：** **核心硬件：一张 80GB显存的 NVIDIA A100 或 H100 PCIe/SXM 版本。** **显存占用：模型权重就高达 55.59GB，加上KV缓存等开销，80GB显存是刚需。一张A100 80GB可以轻松容纳。** [千问3.5-27B · 模型库](https://www.modelscope.cn/models/Qwen/Qwen3.5-27B) ## 方案设计 ![输入图片说明](%E4%BC%81%E4%B8%9A%E7%BA%A7%E6%A8%A1%E5%9E%8B%E6%9E%B6%E6%9E%84%E8%AE%BE%E8%AE%A1.drawio.png) ### 网关层开源的AI 网关以及核心特点 | 网关项目 | 核心特点 | | 技术栈/部署方式 | | | :---------------------------- | :----------------------------------------------------------- | :--- | :---------------------------------------------------------- | :--- | | **Portkey AI Gateway** | **多模型路由**：支持200+模型，提供故障转移、自动重试、负载均衡；**安全与成本管理**：具备防护栏、虚拟密钥、缓存、使用分析等功能。 | | Docker一键启动，也可私有部署。控制台提供可视化配置。 | | | **Helicone AI Gateway** | **极高性能**：基于Rust编写，P95延迟<10ms，内存占用约64MB；**统一接口**：用OpenAI语法调用100+模型；**智能路由**：支持基于延迟、成本的负载均衡。 | | 提供npx一键启动，或通过Docker/二进制部署。 | | | **Higress** | **云原生能力**：基于Istio+Envoy，可作为K8s入口网关；**AI能力插件**：提供大模型代理、安全防护、限流、可观测等；**MCP网关**：支持API快速转化为MCP Server，适配Agent生态。 | | 云原生，支持K8s Helm部署，也提供云上托管版本。 | | | **Kgateway (含agentgateway)** | **K8s原生**：基于Kubernetes Gateway API；**AI代理能力**：集成agentgateway子项目，支持LLM、MCP工具、AI智能体的路由。 | | Kubernetes原生，通过Helm安装。 | | | **Envoy AI Gateway** | **两层网关架构**：提出中央网关+模型服务集群网关的设计，分离外部访问与内部实现；**凭证注入**：解耦应用与第三方API密钥；**基于Token的限流**：直接控制成本。 | | 云原生，作为Envoy的扩展，可通过`go-control-plane`进行配置。 | | ![ai gateway](https://assets.jimmysong.io/images/blog/ai-gateway-in-depth/a412c2fab8722098039367de718c78b5.svg) ### 能力编排层：Qwen-agent进行智能体的开发 **能力编排层**解决的核心问题是：**将底层的模型能力，封装成上层的业务服务**。 1. **解耦**：让业务应用（Web/API/插件）不用关心底层用的是27B还是Coder模型，只需调用“xxxx”这个服务。 2. **编排**：把复杂流程（如“问题→检索→推理→回答”）定义成可复用的标准链路，不用每个业务都重复造轮子。 3. **管控**：统一管理工具调用（如SQL查询、内部API）、记录审计日志、控制权限，让AI服务在企业内可信、可管。