# 3DGenerator

**Repository Path**: QiniuComp/3dgenerator

## Basic Information

- **Project Name**: 3DGenerator
- **Description**: 本文或图像生成 3D 模型
- **Primary Language**: Unknown
- **License**: GPL-2.0
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-09-21
- **Last Updated**: 2025-12-12

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 灵绘-3D

灵绘-3D是一款基于AI技术的3D模型生成平台, 旨在打破专业建模门槛, 让用户通过文本描述或图片输入, 快速生成高质量的3D模型. 本系统集成了先进的AI模型, 提供直观的用户界面和强大的模型编辑功能, 适用于设计师、师生和3D建模爱好者等各类用户群体. 本项目选取腾讯云作为服务提供方.

**项目亮点**: 
   - **腾讯云服务**: 本项目采用腾讯云作为服务提供方, 提供稳定、高效、安全的云服务支持.
   - **相似检测**: 对于存在相似的文本或图片, 直接返回已有结果加速生成.
   - **乐观进度条**: 3D模型生成耗时较长, 且无法准确计算. 本项目通过统计分析最近若干个任务的生成时间, 预估当前任务所需时间, 在此基础上增加一部分余量时间, 以达到"提前完成"的效果, 从而提升用户的主观感受.

## 产品介绍

### 一、产品介绍

####  (一) 产品背景

1.**AI生成3D模型的行业动态**

- **设计行业应用场景**: AI生成3D技术已经走向产业端, 设计行业成为技术落地的核心领域. 无论是游戏方面还是建筑设计等方面. 覆盖了概念设计、量产填充、原型设计等环节. 该技术显著降低了内容制作成本与周期, 提高了生产效率, 是现阶段新型生产工具. 

- **游戏行业走在前列**: 在全球手游市场中, 3D游戏收入占比逐年上升, 头部手游全面进入3D建模时代. UGC生态成为新增长点, 用户通过AI工具参与游戏内容创作, 推动游戏内UGC社区活跃度提升. 这种模式不仅降低了创作门槛, 还催生了新的游戏类型和商业模式. 

- **建筑行业和新媒体领域**: 图片生成AI的设计平台, 已覆盖建筑设计、室内设计、园林规划等领域, 用户通过上传参考图片或输入文本来快速生成视觉效果图, 显著提升设计效率并激发创意潜能, 推动行业像数字化、智能化转型. 新媒体领域可以借助AI生成3D模型工具实现场景和道具的快速建模, 新媒体UGC生态的崛起可以使一部分用户轻松创作3D内容用于短视频、虚拟直播等场景. 满足新媒体内容对动态、沉浸式体验的需求, 丰富内容表现形式. 

2.**竞品分析**

   -  **VoxCraftAI**: 通过与高校合作研发框架, 提升技术实力, 强调与现有 3D 建模工具的集成, 拓展在专业领域的应用. 主要面向游戏开发、影视制作、教育培训、产品设计等领域的专业人士. 
   -  **Tripo AI**: 采用免费策略吸引用户, 通过提供丰富的功能和良好的用户体验, 占领新手和爱好者市场, 同时与企业合作, 提供专业服务. 免费策略吸引了大量新手和爱好者, 同时也有腾讯游戏、网易游戏等专业游戏公司作为付费客户, 覆盖了 UGC 群体和有专业能力的用户. 
   -  **腾讯混元 3D**: 一方面推出功能全面的官方平台, 通过混元 3D Studio 平台提供全流程服务, 提升模型质量和专业功能, 面向专业的游戏和动画公司; 另一方面通过开源社区, 促进开发者参与, 拥有较广泛的用户群体, 构建生态系统. 
   -  **即梦 AI**: 特色是中文语义理解优化, 针对中文用户设计的提示词解析系统, 能精准捕捉复杂描述, 降低了用户的输入难度. 其操作界面简洁, 功能布局合理, 新用户可以通过官网的引导和提示, 快速了解和掌握各项功能的使用方法, 学习成本相对较低. 
   -  **可灵 AI**: 界面设计较为直观, 但由于其功能较为丰富和复杂, 例如运动笔刷、创意想象力和创意相关性调整等功能, 对于一些新手用户来说, 可能需要花费一定的时间来学习和掌握这些功能的使用技巧, 以达到理想的生成效果, 因此学习成本相对较高. 

尽管本项目采用腾讯混元 3D 作为服务提供商, 但仍与对方处于竞争关系, 本项目可通过相似任务合并, 或接入更多服务提供方来控制成本, 还可以通过更多个性化服务, 例如提示词定制, 社区管理, 用户喜好分析等盈利. 此外, 由于批量采购生成次数的单价比单次生成更低, 还可以通过套利的方式, 以略低于单次生成的价格向个人开发者提供服务, 以赚取差价.

####  (二) 产品目标

1. 开发一款根据文本或图片生成3D模型的AI生成网页, 打破专业建模门槛, 满足不同层次用户的3D建模需求. 
2. 通过建立完善的效果评估系统, 优化模型生成质量. 
3. 合理优化模型调用频次, 降低成本的同时保障应用的流畅运行. 

####  (三) 功能要点

1. **3D模型生成**: 支持基于文本描述和图像输入生成3D模型, 降低创作门槛, 覆盖多种应用场景. 
2. **模型编辑**: 提供丰富的编辑工具, 允许用户对生成的3D模型进行移动、旋转、缩放、纹理调整等操作, 以满足个性化需求. 
3. **效果评估**: 构建科学的效果评估体系, 从多个维度对模型生成效果进行量化评估, 为模型优化提供数据支持. 
4. **模型调用频次优化**: 采用多种策略减少对第三方3D模型生成API的调用次数, 降低成本并提升系统稳定性. 

### 二、需求分析

####  (一) 用户角色

1. **普通设计师**: 日常工作涉及游戏设计、室内设计等领域, 需要快速生成高质量的3D模型作为设计概念的可视化呈现, 对模型的精度、细节和创意要求较高. 
2. **师生**: 教师可以利用3D模型将课本上平面的图形变得生动立体, 展示课本上一些抽象的概念. 学生也可以通过有限的设备、简单操作完成学校布置的各类设计、建模课程作业. 
3. **业余爱好者**: 出于个人兴趣进行3D建模创作, 注重软件的易用性和趣味性, 渴望通过该平台分享自己的作品并获得反馈. 

####  (二) 用户痛点

1. **设计构思阶段**: 游戏设计师经常在3D模型设计和制作上花费了大量时间, 例如在一个人物建模上, 一个复杂的头饰建模就可能耗费大量的时间. 如果能用这个网页上输入自己的创意就可以快速生成3D素材, 那么可以节省大量的开发时间. 
2. **方案展示难题**: 室内设计师在客户提出想看到家具摆放成品的效果时, 没有办法直观地向客户进行展示, 就可以在灵绘-3D网页输入设计构思或者草图来快速生成方案设计的3D模型, 落实方案确定. 
3. **教学实践**: 教师无法通过课本上的平面图形和理论知识来给学生示范细胞结构或者数学空间立体图形, 如果能通过理论或者2D图片来快速生成3D效果, 可以加深学生对于知识的理解. 学生在课堂上理解建模作业不够深入, 可以在课后, 利用网页通过登录输入作业要求和构思完成建模作业, 并分享给老师进行点评. 
4. **个人创作分享**: 业余爱好者只需要头脑风暴发挥想象力就可以在闲暇时间使用灵绘-3D创作3D作品, 分享到社交平台, 与其他爱好者交流心得, 降低了3D建模入门门槛, 让业余爱好者也可以自由发挥. 
5. **成本难易承担**: 对于个人开发者或小型项目, 所需的生成次数较少, 而单次生成的单价远高于大批量采购生成次数的单价, 需要第三方服务商通过大批量采购生成次数, 以略低于单次生成的价格向个人开发者提供服务, 以达到双赢目的.
6. **时间难以预测**: 3D模型生成耗时较长, 在没有预期耗时的情况下, 许多用户特别是轻度体验用户往往不愿意花费大量时间等候一个没有进度条, 也没有准确完成时间的屏幕前, 需要对任务耗时进行预估, 以满足用户心里期待.

####  (三) 业务流程分析

1. 用户打开网页后, 可选择通过文本输入或上传图片的方式发起3D模型生成请求. 
2. 系统调用第三方API进行模型生成, 生成后展示给用户查看. 
3. 系统定期收集用户对模型的反馈, 并依据效果评估系统的规则对模型生成效果进行打分, 为后续的算法优化提供依据. 
4. 在整个过程中, 系统自动执行模型调用频次优化策略, 减少不必要的API调用. 

![功能流程图](resource/UI/functions.png)

### 三、功能设计

####  (一) 灵绘-3D网页功能列表

| 功能模块          | 小功能              | 功能描述                                      | 优先级 |
|---------------|-----------------|-------------------------------------------|-----|
| 1. 多模态输入       | 文生3D            | 输入创意文本, 快速生成对应3D模型                         | 高   |
|               | 图生3D            | 上传2D照片生成3D模型, 将2D草图转3D模型          | 高   |
| 2. 模型视觉与精度控制  | 纹理风格与PBR控制      | 可选写实/抽象等纹理风格, PBR模拟真实光照、质感                 | 中   |
|               | 多边形面数调节         | 支持40000-500000面数设置, 平衡模型细节 (高面数细/低面数简) 与设备性能 | 中   |
| 3. 生成模型类型      | 多类型模型生成         | 纹理+结构; 智能减面; 白模; 线稿转模型                       | 中   |
| 4. 模型评估        | 自动化图文匹配评估       | BLIP2生成2D预览图描述; 转特征向量; 余弦相似度判匹配              | 高   |
| 5. 性能优化        | 模型调用频次优化        | 优化调用管理, 减少重复请求、配置资源, 提高响应速度, 避免卡顿/失败         | 高   |
####  (二) 3D模型生成核心功能

1. **多模态输入支持**: 
   - **文生3D**: 用户输入描述性文本 (如物体的类别、颜色、形状等特征), 网页即可快速生成对应的3D模型. 例如输入“一个红色的苹果形状的装饰品”, 就能生成相关3D模型. 
   - **图生3D**: 支持用户上传2D平面图片来生成3D模型, 通过上传人物或物品照片来生成3D模型, 也可以通过文字描述草图主体的类别、颜色等信息, 能将二维草图快速转换为高质量的3D模型. 

2. **风格与纹理选择**: 

   允许用户选择不同纹理风格, 丰富模型的纹理色彩, 例如可选择写实、抽象、卡通等不同风格来生成模型. 支持用户是否开启PBR材质生成, 默认关闭时生成速度快, 文件体积小, 满足基础展示需求. 也可以通过PBR模拟真实物理世界的光照规律, 从而让模型在不同光照环境下呈现更真实的效果. 例如让游戏人物的头饰在开启PBR时生成金属特有的高光反射随视角变化的真实感. 

3. **控制3D模型的多边形面数**: 

   面数决定模型的“细节精度”和“性能成本”. 面数越高, 模型细节越精细, 例如人物皮肤褶皱等细节, 但容易造成文件体积过大、渲染/加载速度较慢, 对设备性能要求较高. 灵绘-3D网页支持范围在40000-500000的面数之间, 用户需要根据需求平衡设备性能的限制和模型细节. 

4. **生成模型类型**: 

   灵绘-3D网页可以生成纹理+结构一体模型, 支持PBR材质; 智能减面的低多边形模型; 无纹理的几何白模; 生成线稿图生成模型 (可搭配prompt优化生成效果). 

5. **模型编辑** : 

   提供多种生成参数供用户选择, 包括模型细节程度、纹理风格、模式、类型、PBR材质、质量、复杂度、面数等调整, 用户可根据需求进行调整. 实现对模型的平移、旋转和缩放操作, 方便用户调整模型的位置、角度和大小. 

####  (三) 效果评估系统

该系统是一个独立于前后端部署的AI质量评估服务, 核心目标是可以自动、客观地衡量3D模型生成的结果和用户输入需求的匹配度, 使用BLIP2自动生成3D模型预览图的文字描述, 再与用户原始文字需求计算相似度, 以此作为评价指标. 

1. **图像描述自动生成**
   
   BLIP2会根据预览图的视觉信息 (比如颜色、形状、风格), 自动生成贴近真实视觉信息的描述. 用BLIP2模型可快速分析大量预览图, 降低人工审核成本, 减少主观偏差. 

2. **语义数值化转化**
   
   将文字转化向量, 利用数字精准量化语义差异. 将用户在灵绘-3D网页上的文字需求或BLIP2生成的图描述, 通过文本编码器转成向量. 

3. **相似度判定结果**
   
   利用余弦相似度计算两个向量的相似程度. 数值越接近1, 说明图描述和真实需求越一致, 3D模型符合预期. 

### 四、界面功能详细说明

####  (一) 主页

功能: 欢迎界面展示、登录按钮跳转

![主页面](resource/UI/home_page.png)


####  (二) 登录页

**功能**: 用户名密码登录、跳转注册页面、返回首页功能、登录成功后跳转到主界面

**用户场景**: 用户进入系统登录界面后, 需要输入账号密码才能进入网站, 没有账号点击去注册跳转注册页面. 

![登录页面](resource/UI/login_page.png)

#### (三)注册页

**功能**:  账号密码注册、返回主页功能、跳转登录界面、注册成功后跳转到主界面

**用户场景**:  用户进入注册界面后, 需要输入账号密码注册进入网站. 已有账号可以跳转登录页面登录. 

![注册页面](resource/UI/register_page.png)

#### (四)主界面 (文生/图生3D)

**功能**: AI创作功能标签、退出按钮、文生/图生3D切换、查看/隐藏历史、生成参数调节 (风格、模式、类型、PBR材质、质量、复杂度、面数) 、生成按钮3D预览窗口 、状态栏显示引擎状态和模型信息.

**用户场景**: 用户进入主界面默认文生3D界面, 可以切换文生/图生3D来选择模块生成3D模型, 可以通过查看历史按钮查看历史生成记录, 重新生成可以隐藏历史后重新输入需求. 并通过选择风格和参数调整来优化模型. 在3D预览窗口可以看到网页根据输入的文字或者图片来自动生成的3D模型, 同时可以调整视图, 放大缩小等.

1. **文生3D** 

![文生3D](resource/UI/text23d.png)

2. **图生3D** 

![图生3D](resource/UI/img23d.png)

3. **生成中** 

![生成中](resource/UI/generating.png)

4. **风格、模式、类型切换** 

![参数界面](resource/UI/params.png)

![参数-生成风格](resource/UI/params_1.png)
![参数-任务模式](resource/UI/params_2.png)
![参数-生成类型](resource/UI/params_3.png)

5. **历史记录** 

![历史记录](resource/UI/history.png)

### 五、模型调用频次优化功能

1. **本地缓存策略**
   
   当用户生成一个模型后, 系统将模型数据及相关输入信息缓存到本地. 下次用户输入相同或相似的内容时, 先在本地缓存中查找, 若存在匹配的模型, 则直接调用本地缓存数据, 避免重复调用第三方API. 为了提高缓存查找效率, 采用高效的缓存索引算法, 根据输入内容的特征值进行快速检索. 

2. **查询队列**

   系统自动维护任务队列, 统一向API发送请求, 并更新状态. 此方法避免了用户直接与API交互, 减少了用户操作的复杂性和出错的风险, 同时也避免了客户端发送多次请求.

### 六、非功能需求

1. **安全性需求**
   - **用户数据保护**: 采用加密技术对用户在网页内的输入数据、生成的模型数据以及个人设置等进行加密存储, 防止用户数据泄露. 
   - **网络通信安全**: 在与第三方API进行数据交互时, 使用安全的通信协议 (如HTTPS), 确保数据传输过程中的安全性. 同时, 对API调用的响应结果进行安全校验, 防止恶意数据的注入. 

2. **易用性需求**
   - **界面设计**: 设计简洁直观的用户界面, 采用清晰的布局和易于理解的图标, 引导用户快速上手操作. 对于复杂的功能, 提供详细的操作提示和帮助文档. 
   - **操作流程**: 优化用户操作流程, 尽量减少用户的操作步骤和认知负担. 例如, 在模型生成和编辑过程中, 采用逐步引导的方式, 让用户顺利完成任务. 

## API选型分析 - 腾讯混元3D API

在制作Taoyuan-3D网页中选择API的阶段, 我们围绕技术能力适配业务需求、服务稳定性保障生产、生态完整性降低开发成本三大核心目标, 重点调研了腾讯混元3D API、阿里云3D生成API、NVIDIA AI Blueprint (集成Microsoft TRELLIS NIM) 三款主流产品, 通过多维度对比, 最终选择更贴合长期业务发展的腾讯混元3D API, 具体调研分析如下: 
### 一、三款API核心能力与局限性对比

####  (一) 阿里云3D生成API: “高画质专精, 适配特定场景”

1. **核心优势**: 

   阿里云3D生成API的核心优势集中在“生成效率”与“视觉精度”两大维度: 其依托阿里云高效的算力集群, 单模型生成速度比行业平均水平快20%-30%, 尤其在4K超高清纹理渲染上表现突出——生成的模型表面细节 (如金属反光、织物纹理) 还原度极高, 在产品高清展示、如静态场景搭建等对画质有强需求的场景中, 能直接输出成果, 减少前期渲染成本. 

2. **局限性**: 

   但该API难以支撑多场景规模化应用. 模型通用性不足, 生成的模型虽画质高, 但结构与格式对特定场景依赖度高, 需针对不同业务场景像游戏或者建筑可视化方面做二次调整, 后期格式转换、参数优化的工作量较大, 增加了落地成本; 生态与支持薄弱: 配套工具仅覆盖“生成-下载”基础环节, 缺乏模型编辑、格式适配、多端同步等延伸工具; 社区支持以文档为主, 无开发者交流社群或官方技术答疑通道. 

3. **收费规则**:

   适用场景是通过虚拟数字人平台生成3D数字人视频. 按视频处理时长计费: 具体价格需参考视觉智能开放平台的通用视频生成规则(可能为0.8元/分钟). 若属于独立计费项, 需进一步确认产品文档. 可能支持预付费资源包抵扣. 

####  (二) NVIDIA AI Blueprint (集成Microsoft TRELLIS NIM) : “工作流高效适配, 聚焦专业场景提速”

1. **核心优势**:

   拥有自动化工作流和专业级的生成效率, 依托Microsoft TRELLIS模型与NIM微服务优化, 在游戏场景原型搭建、建筑可视化快速出图等专业领域表现亮眼: 
   - 工作流自动化: 提供创意提示生成→预览图合成→3D模型生成→导出优化全链路, 可自动为新手生成高质量提示词, 如果输入单个物品, 会补充风格、纹理等细节描述; 通过NVIDIA SANA文本转图像框架生成高分辨率预览图, 确认效果后再调用Microsoft TRELLIS NIM生成3D模型, 避免反复试错; 
   - 生成效率与兼容性突出: 得益于PyTorch推理优化, 模型生成速度较快且生成的3D资产可直接导出至主流的3D工具, 无需格式转换, 特别适合需要批量生产资产的自由职业者或中小型设计团队. 

2. **局限性**: 

   但该方案的硬件依赖与场景局限使其难以适配全业务需求. 仅支持配备16GB及以上显存的NVIDIA GeForce RTX40/50系列GPU (台式机或笔记本), 若用户使用没有配备NVIDIA显卡或显存不足的设备, 需要额外采购硬件. 擅长独立物体或静态场景生成, 但对动态交互场景支持较弱. 

####  (三) 腾讯混元3D API: “全场景能力覆盖, 生态化降本提效”

腾讯混元3DAPI凭借“技术领先性、功能全面性、生态完整性”三大核心优势, 成为最适配业务长期发展的选择, 具体表现为: 

1. **技术实力: 全场景高质量生成, 复杂需求精准落地**

   腾讯混元3DAPI的底层模型是业界首个支持沉浸式漫游、交互、仿真的开源世界生成模型, 通过多模态输入融合和算法动态细节生成技术两大创新, 实现了全场景高质量覆盖: 
   无论是简单的单人偶模型生成, 还是复杂的多物体交互场景 (如带家具的客厅、带植被的户外地形), 生成的模型均具备“细节丰富、结构精准”的特点——小到物体表面的纹理凹凸 (如皮肤纹理、金属的划痕), 大到场景内物体的空间逻辑 (如家具摆放的贴合程度、灯光的光影投射方向), 均能精准还原真实物理规律; 
   关键技术指标领先全球同类开源模型: 模型生成速度, 细节还原度 (纹理精度达4K, 支持PBR物理渲染) 、交互兼容性 (生成模型可直接支持碰撞检测、动画绑定) 三大核心指标上, 均通过第三方测试机构验证, 超越同类模型. 同时腾讯已在游戏行业深耕多年, 具有较多建模经验. 

2. **功能丰富度: 低成本适配多场景, 减少后期投入**

   腾讯混元3D API不仅覆盖文本生成3D和图像生成3D两大基础能力, 还提供高灵活度的定制功能, 直接降低产品落地成本: 
   - 风格快速切换: 支持“写实、卡通、赛博朋克、低多边形”等10+主流风格一键切换, 且风格过渡自然, 无需人工重新生成; 
   - 全链路PBR支持: 生成的模型自带PBR材质属性 (金属度、粗糙度、法线贴图), 可直接导入Blender、Maya、Unity等专业工具使用, 无需后期补充材质参数. 

3. **多格式兼容**

   默认支持OBJ、GLB、STL、FBX等7种主流3D格式输出, 适配“游戏开发 (Unity/Unreal) 、3D打印、建筑BIM”等不同业务场景, 无需额外开发格式转换工具. 

4. **开发友好**
   
   腾讯混元3D提供了详细的官方文档, 其中官方工具API Explorer更是能够方便快捷地在网页端进行APi调用, 并生成相应的代码, 大大降低了上手难度, 开发者能够使用官方提供的代码快速进行验证, 极大地增加了开发效率. 

5. **收费规则** 

   腾讯混元生3D 结算顺序为: 赠送的免费资源包 > 购买的预付费资源包 > 后付费. 按用量(生成个数)计费, 包括直接调用 API 和在控制台 API Explorer 使用腾讯混元生3D, 调用失败不计费. 

### 二、选型结论: 腾讯混元3DAPI为最优选择

综合三款API的能力与业务需求匹配度, 腾讯混元3D API的优势显著: 

1. **技术适配成熟度**: 其全场景高质量生成能力, 能覆盖“创意设计、游戏开发、产品展示”等多业务场景, 无需集成多API; 并且腾讯在游戏行业地位较高, 拥有更丰富的建模经验
2. **成本控制**: 尽管腾讯云生成成本较高, 但其实力也处于领先水准, 在项目初期, 可投入更多成本生成更好的模型来吸引用户, 后期接入其他厂商API, 提供更具性价比方案. 
3. **长期发展**: 开源属性与完整生态, 能支撑业务灵活迭代, 避免技术锁定风险. 
4. **行业成熟度**: 精美的建模更是游戏成功的关键因素之一, 腾讯在游戏行业地位较高, 拥有更丰富的建模经验. 

选择腾讯混元3D API, 不仅能满足当前业务对“高质量、高效率”的核心需求, 更能为未来拓展复杂场景 (如沉浸式3D交互、开源世界搭建) 奠定技术基础, 是兼顾“短期落地”与“长期价值”的最优解. 

## 部署与运行

### 系统组件

各系统组件说明文档, 部署与运行方式已在 [项目文档](docs) 中详细描述.

- 后端服务: [Java Spring Boot应用](docs/server/运行说明.md)
- 前端界面: [React应用](docs/front/项目介绍与运行说明.md)
- 评估系统: [Python服务](docs/evaluation/评估系统架构设计与运行说明.md)

### 快速启动

1. **后端服务**
   ```bash
   cd server
   mvn spring-boot:run
   ```

2. **前端应用**
   ```bash
   cd front
   npm install
   npm run dev
   ```

3. **评估系统**
   ```bash
   cd evaluation
   python generate_eva_file.py
   python start_evaluation.py
   ```

### 详细文档

- [API接口指南](docs/server/API接口指南.md)
- [前端架构设计](docs/front/前端架构设计.md)
- [后端架构设计](docs/server/后端架构设计.md)
- [效果评估原理](docs/evaluation/评估系统架构设计与运行说明.md)

### 演示视频

请前往 [resource/video](resource/video) 观看演示视频.

由于专业模式下生成模型时间较长, 已裁剪掉生成过程. 评估时间受限于模型加载速度和GPU算力, 可直接拖动进度条观看最后结果.