# 企业级模型部署方案 **Repository Path**: xbhog/private-design-ai ## Basic Information - **Project Name**: 企业级模型部署方案 - **Description**: No description available - **Primary Language**: Unknown - **License**: Apache-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-03-16 - **Last Updated**: 2026-03-23 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 模型本地部署调研 ## 1. 系列版本介绍 目前国内顶尖模型开源的版本分为以下几个系列: 1. 千问系列 2. deepseek系列 3. minmax系列 4. GLM系列 5. Kimi系列 每个系列的旗下版本涉及到: ### 🚀 千问系列 (Qwen) 开源版本一览 千问系列是开源版本最丰富的系列之一,覆盖了从端侧到超大MoE的多种架构。 | 开源版本 | 发布时间 | 核心参数/架构 | 特点与场景 | | :------------------------ | :------------ | :----------------------------------------------------------- | :----------------------------------------------------------- | | **Qwen3 系列 (早期)** | 2025年 | Qwen3-8B/14B/32B (Dense)
Qwen3-30B-A3B, Qwen3-235B-A22B (MoE) | 早期版本,已支持"思考模式"与"非思考模式"切换,为后续版本奠定基础。 | | **Qwen3-Coder 系列** | 2025-2026年 | Qwen3-Coder-30B-A3B, Qwen3-Coder-480B-A35B | 专注于代码生成的模型,具有强大的Coding Agent能力。 | | **Qwen3-VL 系列** | 2025-2026年 | Qwen3-VL-8B, Qwen3-VL-32B, Qwen3-VL-235B-A22B | 原生多模态视觉理解模型,支持长视频、长文档理解与视觉定位。 | | **QWQ-32B** | 2026年1月 | 32B Dense | 专注于复杂推理的模型,在数学、代码和逻辑推理等评测中达到业界顶尖水平。 | | **Qwen3.5 家族 (中大型)** | 2026年1月-3月 | Qwen3.5-27B (Dense)
Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-397B-A17B (MoE) | 采用原生多模态训练,从超大MoE到中型Dense,覆盖多种性能需求。 | | **Qwen3.5 家族 (小尺寸)** | 2026年3月 | Qwen3.5-0.8B, Qwen3.5-2B, Qwen3.5-4B, Qwen3.5-9B (Dense) | **最新发布**。继承Qwen3.5基因,专为端侧、移动设备和轻量级服务器设计。9B版本性能媲美gpt-oss-120B。 | ### 🔍 DeepSeek 系列 开源版本一览 DeepSeek 以其高性价比和创新的推理能力著称,2026年已多次更新。 | 开源版本 | 发布时间 | 核心参数/架构 | 特点与场景 | | :------------------------------------- | :--------- | :------------------------------------------------ | :----------------------------------------------------------- | | **DeepSeek-R1** | 2025年1月 | 训练成本不到GPT-4o的十分之一,性能对齐OpenAI o1。 | | | **DeepSeek-V3-0324** | 2025年3月 | 671B总参数 (MoE), 131K上下文 | 融合R1强化学习技术,推理、数学和编程能力提升,多项基准超越GPT-4.5。 | | **DeepSeek-R1-0528** | 2025年5月 | 推理能力重大升级,前端能力超过Gemini 2.5 Pro。 | | | **DeepSeek-V3.1** | 2025年 | 支持"思考模式"与"非思考模式"自由切换。 | | | **DeepSeek V3.2** | 2025年12月 | 685B总参数 (MoE, 37B激活), 128K上下文, MIT许可证 | 首个将推理直接集成到工具调用中的模型,SWE-bench Verified得分70%,推理成本大幅降低。 | | **DeepSeek Janus Pro / OCR / Math-V2** | 2025年 | - | Janus Pro提升多模态理解;Math-V2成为首个达到国际奥数金牌水平并开源的模型。 | ### 🤖 MiniMax 系列 开源版本一览 MiniMax近期加入开源行列,主打高性价比的Agent和编程能力。 | 开源版本 | 发布时间 | 核心参数/架构 | 特点与场景 | | :----------------- | :------------ | :--------------------------------------------- | :----------------------------------------------------------- | | **MiniMax-M1-80k** | 2025年 | 456B参数 | 混合注意力推理模型。 | | **MiniMax-M2** | 2025年10月 | 230B总/10B激活 (MoE) | 专为高效编码与Agent工作流打造。 | | **MiniMax-M2.1** | 2025年12月 | 旗舰级开源大模型,聚焦真实世界复杂任务。 | | | **MiniMax-M2.5** | 2026年2月12日 | 230B总/10B激活 (MoE), 200K上下文, Modified MIT | **最新发布**。定位"原生Agent生产级模型",SWE-bench Verified得分80.2%(系列最高),速度提升37%,成本极低。 | ### ⚙️ GLM 系列 (智谱) 开源版本一览 智谱AI的开源模型采用MIT宽松许可证,在复杂系统工程和长程Agent任务上表现突出。 | 开源版本 | 发布时间 | 核心参数/架构 | 特点与场景 | | :------------------------ | :------------ | :----------------------------------------------------- | :----------------------------------------------------------- | | **GLM-4.5 / GLM-4.5-Air** | 2026年3月 | 355B总/32B激活 (GLM-4.5), 106B总/12B激活 (GLM-4.5-Air) | 专为AI Agent设计的基础模型,统一推理、代码和Agent能力,支持"思考模式"与非思考模式,采用MIT许可证开源。 | | **GLM-Z1 系列** | 2025-2026年 | GLM-Z1-32B/9B (推理模型) | 推理模型在AIME 2026上得分92.7%。 | | **GLM-5** | 2026年2月11日 | 744B总/40B激活 (MoE), 200K上下文, MIT许可证 | **最新发布**。定位"Agentic Engineering",在SWE-bench Verified (77.8%)等测试中取得开源SOTA,擅长复杂系统工程与长程Agent任务。 | ### 🌐 Kimi 系列 (月之暗面) 开源版本一览 Kimi系列以其原生多模态能力和创新的多智能体协同技术(Agent Swarm)著称。 | 开源版本 | 发布时间 | 核心参数/架构 | 特点与场景 | | :------------ | :------------ | :------------------------------------------- | :----------------------------------------------------------- | | **Kimi K2.5** | 2026年1月27日 | 1T总/32B激活 (MoE), 256K上下文, Modified MIT | **最新发布**。原生多模态,支持图像、视频与文本输入。核心亮点是 **Agent Swarm** 技术,可动态创建最多100个子Agent并行工作。 | ## 1.1 名词解释 ### 1. 总参数 vs 激活参数(MoE 架构) - **参数**:可以理解为模型的“知识储量”或“神经元数量”。参数越多,理论上模型越聪明,但也需要更多计算资源。 - **总参数**:模型全部的知识储备,像一家公司的所有员工。 - **激活参数**:在处理某个具体问题时,实际参与工作的员工数量。在 **MoE(混合专家)架构**中,模型内部有很多“专家子模块”,每次只调用其中一部分专家,所以**总参数很大,但激活参数较小**。这样既能保持大模型的智慧,又能节省计算成本。 - **B 是 Billion(十亿)** - **能做什么**:MoE模型让你在本地电脑或服务器上,用相对少的资源跑一个“大模型”。例如总参数 2300亿,激活仅 100亿,意味着你不需要顶级的 GPU 也能运行,但依然拥有接近千亿级模型的能力。 ### 2. 上下文长度(Context Length) - **定义**:模型一次性能“记住”和处理的文本长度,通常以 token(单词或子词)为单位。1个汉字约1-2个token。 - **能做什么**:上下文越长,模型能处理的材料就越多。 - 128K 上下文 ≈ 可一次读完《三体》三部曲中的一本。 - 256K 上下文 ≈ 可一次处理整本《三体》三部曲。 - 1M 上下文 ≈ 可以同时记住三部《三体》+《流浪地球》+大量论文。 - **实际应用**:长上下文适用于**长文档分析、整本书问答、长视频理解、多轮复杂对话**等。 ### 3. Dense 架构 vs MoE 架构 - **Dense(密集模型)**:所有参数在处理每个任务时都会被激活。就像一个全能型人才,做什么事都全身心投入。优点是能力强,缺点是资源消耗大。 - **MoE(混合专家模型)**:内部有多个专家模块,每个任务只激活部分专家。像一家咨询公司,遇到法律问题只找法律专家,遇到财务问题只找财务专家。**优点:效率高,成本低;缺点:需要复杂的调度机制**。 ### 4. 推理模型 vs 通用模型 - **推理模型(Reasoning Model)**:专门强化了逻辑推理、数学证明、代码生成等需要“慢思考”的任务。它们在回答问题前会“内部思考”一番,给出更准确的答案。比如 DeepSeek-R1、QWQ-32B。 - **通用模型**:擅长日常对话、创意写作、信息总结等“快思考”任务,响应速度快。 - **能做什么**:如果你需要解复杂的数学题或调试代码,选推理模型;如果你只是想聊天或写文案,通用模型就够了。 ### 5. 多模态 - **定义**:模型不仅能理解文字,还能看懂**图像、视频、音频**等信息。 - **能做什么**:你可以上传一张图片问“这是什么动物”,或者给一段视频问“视频里的人在做什么”。比如 Qwen3-VL、Kimi K2.5 都支持多模态。 ### 6. Agent 能力 - **定义**:模型不再只是被动回答,而是能主动**调用工具、规划步骤、执行任务**,像一个 AI 员工。 - **能做什么**: - 调用相关的工具 - 写代码并运行:模型写完代码后自动执行并检查结果。 - 多智能体协同:多个 AI 角色分工合作,比如一个负责规划,一个负责写代码,一个负责测试。 ## 1.2 多维度调研 本地部署、适用于100以内的技术团队内部使用,社区繁荣、部署方便、文档齐全 | 维度 | **Qwen3.5-27B** (Qwen系列) | **GLM-5** (智谱系列) | **Kimi K2.5** (Kimi系列) | **DeepSeek-V3.2** (DeepSeek系列) | **MiniMax-M2.5** (MiniMax系列) | | :------------------------------------ | :------------------------------------------- | :------------------------------------------- | :----------------------------------------------------------- | :--------------------------------- | :--------------------------------- | | **核心代码能力** (SWE-bench Verified) | **72.4%** | **77.8%** | **76.8%** | **73.1%** (V3.2) | **80.2%** (来自历史数据) | | **复杂工程能力** (Terminal Bench 2.0) | 41.6% | **56.2%** (开源第一) | 50.8% | 46.4% | 数据缺失 | | **多模态能力** (图像/视频理解) | **强** (MMMU 82.3%) | 无 | **极强** (MMMU-Pro 78.5%, 视频理解) | 无 | 无 | | **总参数量 / 激活参数量** | 27.8B (Dense) | **753.9B** / 40B (MoE) | **1T** / 32B (MoE) | 685B / 37B (MoE) | 230B / 10B (MoE) | | **本地部署硬件门槛** (估算并发) | **中高** 需8×24G卡高性能部署 | **高** 需8×80G卡 (官方示例) | **高** 需多卡高性能集群 | **中高** 需多卡部署 | **低** 单卡可运行 (10B激活) | | **部署生态与框架支持** | **极完善** (vLLM, SGLang, KTransformers, HF) | **完善** (vLLM, SGLang, KTransformers, xLLM) | **完善** (vLLM, SGLang, KTransformers) | **完善** (支持主流框架) | **较新**,社区资料在积累 | | **官方部署文档/示例** | **极详尽** (有完整命令行和代码示例) | **详尽** (有Docker和pip部署命令) | **详尽** (有API调用和多模态示例) | 合集页,需进子模型查看 | 合集页,信息较少 | | **社区热度** (ModelScope下载量) | **82.2万** (单模型) | **9.4万** (单模型) | **11.0万** (单模型) | **223.2k** (V3.2单模型) | 合集页,无单模型数据 | | **开源协议** | Apache 2.0 | MIT | **Modified MIT** | MIT | Modified MIT | | **核心特色与定位** | **全能型多模态助手**,部署生态最好 | **复杂系统工程专家**,长程Agent任务强 | **原生多模态Agent**,支持智能体集群(Agent Swarm)并行处理复杂任务 | **高性价比推理**,工具调用集成度高 | **极高性价比的代码专家**,成本极低 | ## 2. 基础场景 1. 基于老系统的文档维护,新系统的文档说明,方案涉及以及评估, 2. 内部工具以及脚本生成 3. 代码补全,代码建议 4. 代码生成 5. 单元测试和集成测试 6. 自动化代码审查 7. 其他场景:本地知识库(开发、运维、业务)、线上日志排查 ### 核心工具:Continue 插件:1.2.3 **Continue** 是目前在 IDE 中接入本地模型最主流、最灵活的方案,它同时支持 VS Code 和 JetBrains 全系列 IDE 。 - **核心价值**:它提供了一个统一的界面(侧边栏聊天和代码内联交互),可以自由配置底层的模型,而不必为每个模型安装不同的插件。 - **配置方式**:通过在项目或用户目录下的 `~/.continue/config.yaml` 文件中进行配置,可以指定不同场景下使用的模型 ### 代码自动评审思路 第一种: 1. 在 GitLab CI 配置中,添加一个 `review` 任务。 2. 这个任务需要能访问你的本地模型 API 地址。 3. 使用 `curl` 或 Python 脚本,获取 MR 的变更内容(`git diff`)。 4. 构造评审提示词,发送到本地模型 API(例如 `http://your-model-server:8000/v1/chat/completions`)。 5. 将模型返回的评审意见,通过 GitLab API 以评论的形式提交到对应的 MR 上。 第二种: 插件化实现:线上自动评审或本地自动评审 ### 基本的调用链路: ```mermaid graph TD A[开发者IDE: Continue] -->|HTTP请求| B[API网关 Nginx] B --> C{路由规则} C -->|补全/建议| D[补全模型服务 vLLM] C -->|代码生成/聊天| E[通用模型服务 vLLM] C -->|多模态/评审| F[大模型服务 vLLM/SGLang] C -->|异步任务| G[消息队列] G --> H[异步Worker] H --> E B --> I[缓存 Redis] I -->|命中| A D/E/F --> J[(GPU集群)] ``` ## 优化模型使用: 1. **MCP (Model Context Protocol,模型上下文协议)**:可以理解为 AI 的 **“万能插座”** 或 **“USB-C接口”** 。它是一个开放标准,让不同的 AI 模型(如你部署的 Qwen、GLM)能够用统一的方式连接和使用各种外部工具和数据源 。 2. **Skill**:通常指封装好的 **“单个工具”** 或 **“能力单元”**。它们是 MCP 服务器可以提供的具体功能。 3. **Prompt(提示词)** 就是你输入给 AI 模型的问题、指令或上下文。它可以是简单的一句话(如“解释一下什么是微服务”),也可以是一段包含详细要求、示例和约束的复杂文本。 4. RAG检索增强生成:把问题先拿去检索私有知识库(如公司 Wiki),把找到的相关文档作为上下文喂给模型,让它基于这些信息回答。 5. **智能体框架**:AI Agent编排 6. 模型微调 # Qwen3流程设计 ## 模型部署 当前展示的是Qwen3系列原始版本 ![image-20260317113246922](D:\xbhogfiles\img\image-20260317113246922.png) [使用 vLLM - vLLM - vLLM 文档](https://docs.vllm.com.cn/en/latest/usage/) 除原始版本外,还有量化版本,不同的量化程度决定所需要的显存大小,并且决定了模型一次会话所能容纳的上下文长度。 **deepseek预估:** **核心硬件:一张 80GB显存的 NVIDIA A100 或 H100 PCIe/SXM 版本。** **显存占用:模型权重就高达 55.59GB,加上KV缓存等开销,80GB显存是刚需。一张A100 80GB可以轻松容纳。** [千问3.5-27B · 模型库](https://www.modelscope.cn/models/Qwen/Qwen3.5-27B) ## 方案设计 ![输入图片说明](%E4%BC%81%E4%B8%9A%E7%BA%A7%E6%A8%A1%E5%9E%8B%E6%9E%B6%E6%9E%84%E8%AE%BE%E8%AE%A1.drawio.png) ### 网关层 开源的AI 网关以及核心特点 | 网关项目 | 核心特点 | | 技术栈/部署方式 | | | :---------------------------- | :----------------------------------------------------------- | :--- | :---------------------------------------------------------- | :--- | | **Portkey AI Gateway** | **多模型路由**:支持200+模型,提供故障转移、自动重试、负载均衡;**安全与成本管理**:具备防护栏、虚拟密钥、缓存、使用分析等功能。 | | Docker一键启动,也可私有部署。控制台提供可视化配置。 | | | **Helicone AI Gateway** | **极高性能**:基于Rust编写,P95延迟<10ms,内存占用约64MB;**统一接口**:用OpenAI语法调用100+模型;**智能路由**:支持基于延迟、成本的负载均衡。 | | 提供npx一键启动,或通过Docker/二进制部署。 | | | **Higress** | **云原生能力**:基于Istio+Envoy,可作为K8s入口网关;**AI能力插件**:提供大模型代理、安全防护、限流、可观测等;**MCP网关**:支持API快速转化为MCP Server,适配Agent生态。 | | 云原生,支持K8s Helm部署,也提供云上托管版本。 | | | **Kgateway (含agentgateway)** | **K8s原生**:基于Kubernetes Gateway API;**AI代理能力**:集成agentgateway子项目,支持LLM、MCP工具、AI智能体的路由。 | | Kubernetes原生,通过Helm安装。 | | | **Envoy AI Gateway** | **两层网关架构**:提出中央网关+模型服务集群网关的设计,分离外部访问与内部实现;**凭证注入**:解耦应用与第三方API密钥;**基于Token的限流**:直接控制成本。 | | 云原生,作为Envoy的扩展,可通过`go-control-plane`进行配置。 | | ![ai gateway](https://assets.jimmysong.io/images/blog/ai-gateway-in-depth/a412c2fab8722098039367de718c78b5.svg) ### 能力编排层:Qwen-agent进行智能体的开发 **能力编排层**解决的核心问题是:**将底层的模型能力,封装成上层的业务服务**。 1. **解耦**:让业务应用(Web/API/插件)不用关心底层用的是27B还是Coder模型,只需调用“xxxx”这个服务。 2. **编排**:把复杂流程(如“问题→检索→推理→回答”)定义成可复用的标准链路,不用每个业务都重复造轮子。 3. **管控**:统一管理工具调用(如SQL查询、内部API)、记录审计日志、控制权限,让AI服务在企业内可信、可管。