# Yuxi-Know **Repository Path**: zyhappyhh/Yuxi-Know ## Basic Information - **Project Name**: Yuxi-Know - **Description**: 语析是一个强大的问答平台，结合了大模型 RAG 知识库与知识图谱技术，基于 Llamaindex + VueJS + FastAPI + Neo4j 构建 - **Primary Language**: Python - **License**: MIT - **Default Branch**: main - **Homepage**: https://www.oschina.net/p/yuxi-know - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 11 - **Created**: 2025-09-25 - **Last Updated**: 2025-09-25 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README

语析 - 基于大模型的知识库与知识图谱问答系统

[![Version](https://img.shields.io/badge/version-v0.2.1-blue.svg)](https://github.com/xerrors/Yuxi-Know/issues) [![](https://img.shields.io/badge/Docker-2496ED?style=flat&logo=docker&logoColor=ffffff)](https://github.com/xerrors/Yuxi-Know/blob/main/docker-compose.yml) [![](https://img.shields.io/github/issues/xerrors/Yuxi-Know?color=F48D73)](https://github.com/xerrors/Yuxi-Know/issues) [![License](https://img.shields.io/github/license/bitcookies/winrar-keygen.svg?logo=github)](https://github.com/xerrors/Yuxi-Know/blob/main/LICENSE) [![DeepWiki](https://img.shields.io/badge/DeepWiki-blue.svg)](https://deepwiki.com/xerrors/Yuxi-Know) [![demo](https://img.shields.io/badge/demo-00A1D6.svg?style=flat&logo=bilibili&logoColor=white)](https://www.bilibili.com/video/BV1ETedzREgY/?share_source=copy_web&vd_source=37b0bdbf95b72ea38b2dc959cfadc4d8) ![](https://img.shields.io/github/stars/xerrors/Yuxi-Know)

## 📖 简介语析是一个功能强大的智能问答平台，融合了 RAG 知识库与知识图谱技术，基于 LangGraph + Vue.js + FastAPI + LightRAG 架构构建。 ### ✨ 核心特性 - 🤖 **多模型支持** - 适配主流大模型平台及离线方案（vLLM、Ollama），支持自定义智能体开发，兼容 LangGraph 部署 - 📚 **灵活知识库** - 支持 LightRAG、Milvus、Chroma 等存储形式，配置 MinerU、PP-Structure-V3 文档解析引擎 - 🕸️ **知识图谱** - 支持 LightRAG 自动图谱构建，以及自定义图谱问答，可接入现有知识图谱 - 👥 **权限安全** - 支持超级管理员、管理员、普通用户三级权限体系，并配置守卫模型

📽️ 点击查看视频演示

## 🚀 快速开始 ### 系统要求项目本身不需要显卡支持，可以运行在任何设备上。对于模型推理或者文档解析服务都可以和项目本身解耦，通过环境变量配置对应的服务即可。同时项目也提供了本地部署基于 vllm 的脚本。 ### 一键启动 1. **克隆项目** ```bash git clone -b 0.2.1 https://github.com/xerrors/Yuxi-Know.git cd Yuxi-Know ``` 如果想要使用之前的稳定版（与现版本不兼容），可以使用 `stable` 分支，`main` 分支是最新的开发版本。 2. **配置 API 密钥** 复制环境变量模板并编辑： ```bash cp src/.env.template src/.env ``` **必需配置**（推荐使用硅基流动免费服务）： ```env SILICONFLOW_API_KEY=sk-270ea********8bfa97.e3XOMd****Q1Sk ``` > 💡 [免费获取 SiliconFlow API Key](https://cloud.siliconflow.cn/i/Eo5yTHGJ)（注册即送 14 元额度） 3. **启动服务** ```bash docker compose up --build ``` 添加 `-d` 参数可后台运行。启动完成后访问：[http://localhost:5173](http://localhost:5173) 4. **停止服务** ```bash docker compose down ``` ### 故障排除如果 docker 已经正常启动，则使用 `docker logs api-dev -f` 查看后端日志。

Docker 镜像拉取失败

如果拉取镜像失败，可以尝试手动拉取： ```bash bash docker/pull_image.sh python:3.11-slim # 替换后面的 repo_name 即可 ``` **如果**依然存在镜像拉取问题，可以先在另一个可访问 Docker 的设备上拉取镜像后，使用下面的脚本保存为 tar 文件，再拷贝到开发设备使用。 ```bash # 保存镜像，会生成 docker_images_xxx.tar bash docker/save_docker_images.sh # Linux 或 macOS powershell -ExecutionPolicy Bypass -File docker/save_docker_images.ps1 # Windows PowerShell # 拷贝 docker_images_xxx.tar 文件到开发设备 scp docker_images_xxx.tar @: # 在开发设备上执行 docker load -i docker_images_xxx.tar ```

镜像拉取完成，但是构建失败

如果拉取镜像完成，但是构建失败，基本都是因为依赖的镜像问题，可以在环境变量中配置如下。如果是已经配置了代理，但是构建失败，也可以尝试移除代理后重试。 ```bash export HTTP_PROXY=http://IP:PORT export HTTPS_PROXY=http://IP:PORT ```

Milvus 启动失败，执行 `docker compose up milvus -d && docker restart api-dev`

## 🤖 模型配置 ### 对话模型支持多种 API 服务商，配置对应的 `API_KEY` 即可使用： | 服务商 | 环境变量 | 备注 | |--------|----------|------| | 硅基流动 | `SILICONFLOW_API_KEY` | 🆓 免费，默认 | | OpenAI | `OPENAI_API_KEY` | | | DeepSeek | `DEEPSEEK_API_KEY` | | | OpenRouter | `OPENROUTER_API_KEY` | | | 智谱清言 | `ZHIPUAI_API_KEY` | | | 阿里云百炼 | `DASHSCOPE_API_KEY` | |

自定义模型供应商

在 [src/static/models.yaml](src/static/models.yaml) 中添加新的模型配置，然后在 `.env` 文件中添加对应的环境变量，最后重新部署项目即可。 **示例**： ```yaml custom-provider-name-here: name: custom-provider-name-here default: custom-model-name-here base_url: "https://api.your-provider.com/v1" env: - CUSTOM_API_KEY_ENV_NAME # e.g. OPENAI_API_KEY models: - supported-model-name-here ```

### 自定义嵌入模型和重排序模型需要注意的是，从 v0.2 版本开始，项目将模型部署和项目本身做了完全解耦，因此无论是 Embedding 还是 Reranker，如果需要使用本地模型，都需要使用 vllm /ollama 转换为 api 服务后，在 src/static/models.yaml 或者 src/static/models.private.yaml （优先）中添加类似下面的信息： ```yaml EMBED_MODEL_INFO: # 其余的 vllm/Qwen/Qwen3-Embedding-0.6B: name: Qwen/Qwen3-Embedding-0.6B dimension: 1024 base_url: http://localhost:8000/v1/embeddings api_key: no_api_key RERANKER_LIST: vllm/BAAI/bge-reranker-v2-m3: name: BAAI/bge-reranker-v2-m3 base_url: http://localhost:8000/v1/rerank api_key: no_api_key ```

启动脚本示例

```bash # 启动 Qwen Embedding 模型 vllm serve Qwen/Qwen3-Embedding-0.6B \ --task embed \ --dtype auto \ --port 8000 # 启动 BAAI reranker 模型 vllm serve BAAI/bge-reranker-v2-m3 \ --task score \ --dtype fp16 \ --port 8000 ```

### OpenAI 兼容模型项目理论上兼容任何 OpenAI 兼容的模型，包括但不限于 vLLM、Ollama 或者其他 API 中转或者代理服务。在 Web 界面的"设置"中添加本地模型地址。 ## 📚 功能详解 ### 知识库管理现在支持的知识库类型包括 `Chroma`、`Milvus`、`LightRAG`。[LightRAG](https://github.com/HKUDS/LightRAG) 是轻量级 GraphRAG 方法。

### 知识图谱在 v0.2 版本中，项目支持了基于 [LightRAG](https://github.com/HKUDS/LightRAG) 的知识图谱构建方法。需要在知识库中创建一个基于 LightRAG 的知识库，然后上传文档。构建的知识图谱会自动导入到 Neo4j 中，并使用不同的 label 做区分。需要说明的是，基于 LightRAG 的知识库可以在知识库详情中可视化，但是不能在侧边栏的图谱中检索，知识图谱检索工具也不支持基于 LightRAG 的知识库进行检索。基于 LightRAG 方法构建的图谱查询，需要使用对应的知识库作为查询工具。默认使用的图谱构建模型是 `siliconflow` 的 `Qwen/Qwen3-30B-A3B-Instruct-2507`，可以使用 `LIGHTRAG_LLM_PROVIDER` 和 `LIGHTRAG_LLM_NAME` 覆盖。

知识图谱可视化	知识库可视化	Neo4J管理端

除此之外，也支持将已有的知识图谱按照下面的格式导入 Neo4j 中，上传后，节点会自动添加 `Upload`、`Entity` 标签，关系会自动添加 `Relation` 标签。可以通过 `name` 属性访问实体的名称，使用 `type` 属性访问边的名称。默认账户密码是 `neo4j` / `0123456789`。 **数据格式**：支持 JSONL 格式导入，可以先尝试 [test/data/A_Dream_of_Red_Mansions_tiny.jsonl](test/data/A_Dream_of_Red_Mansions_tiny.jsonl) 文件。 ```jsonl {"h": "北京", "t": "中国", "r": "首都"} {"h": "上海", "t": "中国", "r": "直辖市"} ``` 此外，也可以通过修改 `docker-compose.yml` 中的 `NEO4J_URI` 配置来接入已有的 Neo4j 实例，**但是**最好确保每个节点都有 `Entity` 标签，每个关系都有 `RELATION` 类型，否则会影响到图的检索与构建。注：在“图谱”页面，只能看到上传的节点和边，基于 LightRAG 构建的图谱不会展示在里面，完整的图谱可以去 Neo4j 管理页面查看。 ## 🔧 高级配置 ### OCR 服务（可选）对于**基础的 OCR 服务**（RapidOCR ONNX 版本），可以使用 SWHL/RapidOCR 的 ONNX 版本，但是需要提前将模型下载到 `$MODEL_DIR` 目录下（默认 `src/.env.template` 中为 `models`）。在容器内实际路径为 `/models`（由 `MODEL_DIR_IN_DOCKER` 指向）。 ```bash huggingface-cli download SWHL/RapidOCR --local-dir ${MODEL_DIR:-./models}/SWHL/RapidOCR ``` - 模型完整性要求：需要存在 `PP-OCRv4/ch_PP-OCRv4_det_infer.onnx` 和 `PP-OCRv4/ch_PP-OCRv4_rec_infer.onnx` - 如果提示 `[Errno 13] Permission denied` 则需要使用 sudo 修改权限之后再执行提升 PDF 解析准确性，可以选择使用 MinerU 或 PP-Structure-V3 服务（需要 NVIDIA GPU）。启用**MinerU**服务： ```bash # MinerU（需要 CUDA 12.6+ 的 sglang 镜像） docker compose up mineru --build ``` 启用**PP-Structure-V3**服务，配置文件可在 [docker/PP-StructureV3.yaml](docker/PP-StructureV3.yaml) 中修改。 ```bash # PP-Structure-V3（需要 CUDA 11.8+） docker compose up paddlex --build ``` ### 自定义智能体应用开发目前该项目默认集成了三个 Demo 智能体，包含基础智能体、ReAct、DeepResearch 三个案例 Demo，均使用 [LangGraph](https://github.com/langchain-ai/langgraph) 开发。代码位于 [src/agents](src/agents) 目录。在 [src/agents/react/graph.py](src/agents/react/graph.py) 中定义了 `ReActAgent` 示例。如果需要自定义智能体应用，需要实现一个继承于 `BaseAgent` 的类，并实现 `get_graph` 方法返回一个 graph 实例。智能体的 `context_schema` 定义了配置参数。注册智能体的方式请参考已有实现：[src/agents/__init__.py](src/agents/__init__.py)。例如： ```python from .chatbot import ChatbotAgent agent_manager = AgentManager() agent_manager.register_agent(ChatbotAgent) agent_manager.init_all_agents() ``` ### MySQL 数据库查询集成（Beta）项目目前已经支持智能体查询 MySQL 数据库，如果想要接入数据库，则可以在环境变量中配置如下信息： ```sh # 基础配置示例 MYSQL_HOST=192.168.1.100 MYSQL_USER=username MYSQL_PASSWORD=your_secure_password MYSQL_DATABASE=database_name MYSQL_PORT=3306 MYSQL_CHARSET=utf8mb4 ``` 然后在智能体配置的工具中，勾选上 `mysql` 开头的几个工具即可。 - **mysql_list_tables**: 获取数据库中的所有表名 - **mysql_describe_table**: 获取指定表的详细结构信息 - **mysql_query**: 执行只读的 SQL 查询语句 **安全特性** - ✅ 只允许 SELECT、SHOW、DESCRIBE、EXPLAIN 操作 - ✅ 表名参数验证，严格的 SQL 注入防护 - ✅ 查询超时控制（默认10秒，最大60秒） - ✅ 结果大小、行数限制（默认10000字符，100行，最大1000行） **注意事项** 1. 确保数据库用户只有只读权限 2. 大表查询建议使用 LIMIT 子句 3. 复杂查询可能需要调整超时时间 4. 查询结果过大会被自动截断并提示 ### 图表可视化绘制 - MCP（Beta）这是基于 @antvis 团队开发的 [可视化图表-MCP-Server](https://www.modelscope.cn/mcp/servers/@antvis/mcp-server-chart)，可以在魔搭社区中配置 Host 资源后，在 src/agents/common/mcp.py 的 `MCP_SERVERS` 中添加 mcp-server，需要注意的是记得将 `type` 字段修改为 `transport`。 ```python # MCP Server configurations MCP_SERVERS = { "sequentialthinking": { "url": "https://remote.mcpservers.org/sequentialthinking/mcp", "transport": "streamable_http", }, "mcp-server-chart": { "url": "https://mcp.api-inference.modelscope.net/9993ae42524c4c/mcp", "transport": "streamable_http", } } ``` ### 服务安全为了保障服务内容的合规性，系统内置了一套内容审查机制。对用户的输入和模型生成的输出进行关键词过滤，防止不当内容的传播。管理员可以在 `设置` -> `基本设置` 页面一键启用或禁用内容审查功能。**敏感词词库**位于 `src/static/bad_keywords.txt` 文件，可以根据需要自行修改，每行一个关键词。 ### 服务端口说明 | 端口 | 服务 | 说明 | |------|------|------| | 5173 | Web 前端 | 用户界面（容器名：web-dev） | | 5050 | API 后端 | 核心服务（容器名：api-dev） | | 7474/7687 | Neo4j | 图数据库（容器名：graph） | | 9000/9001 | MinIO | 对象存储（容器名：milvus-minio） | | 19530/9091 | Milvus | 向量数据库（容器名：milvus） | | 30000 | MinerU | PDF 解析（容器名：mineru，可选）| | 8080 | PaddleX | OCR 服务（容器名：paddlex-ocr，可选）| | 8081 | vLLM | 本地推理（可选，scripts/vllm/run.sh 默认端口）| ### 品牌信息配置在主页和登录页面的很多信息，比如 Logo、组织名称、版权信息等，都可以复制 [src/static/info.template.yaml](src/static/info.template.yaml)，并新建一个 `src/static/info.local.yaml`（或者在 .env 文件中配置 `YUXI_BRAND_FILE_PATH` 指向这个文件），在这个文件中配置。在项目启动时，会加载这个文件，然后根据文件中的配置渲染到前端页面中。如果 `src/static/info.local.yaml` 不存在，会默认使用 [src/static/info.template.yaml](src/static/info.template.yaml) 中的配置。系统的配色方面，主要保存在 [web/src/assets/css/base.css](web/src/assets/css/base.css) 中。只要替换其中的 `--main-*` 相关变量，就可以改变系统的配色。 ### 预设脚本 **文件上传脚本**，使用 `scripts/batch_upload.py` 脚本上传文件到知识库中，调用示例如下，会将 `path/to/your/data` 目录下所有 `*.docx` 文件上传到 `your_kb_id` 知识库中。 ```bash # 上传知识库文件 uv run scripts/batch_upload.py upload \ --db-id your_kb_id \ --directory path/to/your/data \ --pattern "*.docx" \ --base-url http://127.0.0.1:5050/api \ --username your_username \ --password your_password \ --concurrency 4 \ --recursive \ --record-file scripts/tmp/batch_processed_files.txt ``` **文件解析脚本**，还可以使用 `scripts/batch_upload.py trans` 脚本将文件解析成 markdown 文件，调用示例如下，会将 `path/to/your/data` 目录下所有 `*.docx` 文件解析成 markdown 文件，输出到 `path/to/output_markdown` 目录中。 ```bash # 文件解析成 markdown uv run scripts/batch_upload.py trans \ --db-id your_kb_id \ --directory path/to/your/data \ --output-dir path/to/output_markdown \ --pattern "*.docx" \ --base-url http://127.0.0.1:5050/api \ --username your_username \ --password your_password \ --concurrency 4 \ --recursive ``` ## ❓ 常见问题 - 如何查看后端日志？运行 `docker logs api-dev -f` - RapidOCR 模型未找到怎么办？确认 `MODEL_DIR` 指向的目录存在 `SWHL/RapidOCR`，且包含 `PP-OCRv4` 下的 det/rec onnx 文件。 - MinerU/PaddleX 健康检查失败？分别检查 `http://localhost:30000/health` 与 `http://localhost:8080/` 是否 200，确认 GPU/驱动与 CUDA 版本匹配。 ## 🤝 参与贡献感谢所有贡献者的支持！

### 如何贡献 1. Fork 本项目 2. 创建特性分支 (`git checkout -b feature/amazing-feature`) 3. 提交更改 (`git commit -m 'Add some amazing feature'`) 4. 推送到分支 (`git push origin feature/amazing-feature`) 5. 创建 Pull Request ## 📊 Star History [![Star History Chart](https://api.star-history.com/svg?repos=xerrors/Yuxi-Know)](https://star-history.com/#xerrors/Yuxi-Know) ## 📄 许可证本项目采用 MIT 许可证 - 查看 [LICENSE](LICENSE) 文件了解详情。 ---

**如果这个项目对您有帮助，请不要忘记给我们一个 ⭐️** [报告问题](https://github.com/xerrors/Yuxi-Know/issues) | [功能请求](https://github.com/xerrors/Yuxi-Know/issues) | [讨论](https://github.com/xerrors/Yuxi-Know/discussions)