# 本地知识库加大模型 **Repository Path**: wjb711/Knowledge-Base ## Basic Information - **Project Name**: 本地知识库加大模型 - **Description**: 111 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-02-26 - **Last Updated**: 2025-03-05 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 本地知识库加大模型 ## 介绍 我们希望大模型能处理企业内部的资料, 可是因为数据敏感性问题,我们的文件不能外传, 我们需要大模型挖掘企业内部的资料和文档, 以不连互联网的方式, 基于企业私有的文档知识库,来回答问题,成文企业内部的AI助手 ## 软件架构 软件架构说明 原理: 大模型本身的微调很难,无论是想把资料加入大模型, 还是微调参数,都非常耗资源,耗显卡,耗时间。中小企业基本上没有算力实现大模型的微调 那怎么办,我们绕一条路走。 我们建立本地的一个知识文档库,当查询时,我们在本地知识库中,找到最佳匹配的段落, 然后把整段文字,约300-500字整体发送到大模型给出分析和解答 那么我们需要做的就是搭建本地知识库,和匹配数据 再拆分的细致一点,我们需要做以下事项 ### 1.搭建本地的模型, 推荐用winodws+ ollama+ deepseek-v2:16b 也不是完全必要,也可以使用第三方的在线服务,例如硅基流动 ### 2.搭建网站, 快速的搭建两个页面,一个是查询界面,一个是文件上传界面,推荐使用gradio ### 3.本地文件转纯文本,并分割,大约300-500个字算一段 ### 4.每一段文字用嵌入式模型向量化,并把向量化后的索引文件保存,同时保存同名的txt文件保存对应的文本内容,方便后续查找 ### 5.查询最匹配的向量化文件:具体步骤:1 把查询语句本身向量化,2 在所有向量化索引中查询最佳匹配,并返回对应的文字 ### 6.把上一步中找到的最佳匹配的段落发送给大模型 ### 7.接收大模型返回的流文件 效果图 ![输入图片说明](4a6ac46fc5b19d86bc68d720f1041f1.png) ![输入图片说明](image.png) #### 安装教程 1. xxxx 2. xxxx 3. xxxx #### 使用说明 1. xxxx 2. xxxx 3. xxxx #### 参与贡献 1. Fork 本仓库 2. 新建 Feat_xxx 分支 3. 提交代码 4. 新建 Pull Request #### 特技 1. 使用 Readme\_XXX.md 来支持不同的语言,例如 Readme\_en.md, Readme\_zh.md 2. Gitee 官方博客 [blog.gitee.com](https://blog.gitee.com) 3. 你可以 [https://gitee.com/explore](https://gitee.com/explore) 这个地址来了解 Gitee 上的优秀开源项目 4. [GVP](https://gitee.com/gvp) 全称是 Gitee 最有价值开源项目,是综合评定出的优秀开源项目 5. Gitee 官方提供的使用手册 [https://gitee.com/help](https://gitee.com/help) 6. Gitee 封面人物是一档用来展示 Gitee 会员风采的栏目 [https://gitee.com/gitee-stars/](https://gitee.com/gitee-stars/)