# 本地知识库加大模型

**Repository Path**: wjb711/Knowledge-Base

## Basic Information

- **Project Name**: 本地知识库加大模型
- **Description**: 111
- **Primary Language**: Python
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-02-26
- **Last Updated**: 2025-03-05

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 本地知识库加大模型

## 介绍
我们希望大模型能处理企业内部的资料， 可是因为数据敏感性问题，我们的文件不能外传， 我们需要大模型挖掘企业内部的资料和文档， 以不连互联网的方式， 基于企业私有的文档知识库，来回答问题，成文企业内部的AI助手

## 软件架构
软件架构说明
原理： 大模型本身的微调很难，无论是想把资料加入大模型， 还是微调参数，都非常耗资源，耗显卡，耗时间。中小企业基本上没有算力实现大模型的微调
那怎么办，我们绕一条路走。 我们建立本地的一个知识文档库，当查询时，我们在本地知识库中,找到最佳匹配的段落， 然后把整段文字，约300-500字整体发送到大模型给出分析和解答

那么我们需要做的就是搭建本地知识库，和匹配数据

再拆分的细致一点，我们需要做以下事项
### 1.搭建本地的模型， 推荐用winodws+ ollama+ deepseek-v2:16b
也不是完全必要，也可以使用第三方的在线服务，例如硅基流动

### 2.搭建网站， 快速的搭建两个页面，一个是查询界面，一个是文件上传界面，推荐使用gradio

### 3.本地文件转纯文本，并分割，大约300-500个字算一段

### 4.每一段文字用嵌入式模型向量化，并把向量化后的索引文件保存，同时保存同名的txt文件保存对应的文本内容，方便后续查找

### 5.查询最匹配的向量化文件：具体步骤：1 把查询语句本身向量化，2 在所有向量化索引中查询最佳匹配，并返回对应的文字

### 6.把上一步中找到的最佳匹配的段落发送给大模型

### 7.接收大模型返回的流文件

效果图
![输入图片说明](4a6ac46fc5b19d86bc68d720f1041f1.png)
![输入图片说明](image.png)


#### 安装教程

1.  xxxx
2.  xxxx
3.  xxxx

#### 使用说明

1.  xxxx
2.  xxxx
3.  xxxx

#### 参与贡献

1.  Fork 本仓库
2.  新建 Feat_xxx 分支
3.  提交代码
4.  新建 Pull Request


#### 特技

1.  使用 Readme\_XXX.md 来支持不同的语言，例如 Readme\_en.md, Readme\_zh.md
2.  Gitee 官方博客 [blog.gitee.com](https://blog.gitee.com)
3.  你可以 [https://gitee.com/explore](https://gitee.com/explore) 这个地址来了解 Gitee 上的优秀开源项目
4.  [GVP](https://gitee.com/gvp) 全称是 Gitee 最有价值开源项目，是综合评定出的优秀开源项目
5.  Gitee 官方提供的使用手册 [https://gitee.com/help](https://gitee.com/help)
6.  Gitee 封面人物是一档用来展示 Gitee 会员风采的栏目 [https://gitee.com/gitee-stars/](https://gitee.com/gitee-stars/)