# Doc2QG **Repository Path**: xujingbao/doc2-qg ## Basic Information - **Project Name**: Doc2QG - **Description**: Doc2QG: Document to Q&A Knowledge Graph Generation - **Primary Language**: Python - **License**: MIT - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2025-05-22 - **Last Updated**: 2025-05-22 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # Doc2QG: Document to QA & Knowledge Graph Generation Doc2QG 是一个强大的文档智能处理系统,专注于将各类文档转换为 LLM Ready 的结构化数据格式,为知识管理与应用提供支持。 ## 功能特点 - 📚 **多格式解析**:支持 PDF、Word、Markdown 等多种文档格式,解析准确率达 99%。 - ✏️ **Markdown 二次编辑**:提供直观的 Markdown 编辑器,支持实时预览和编辑。 - 📊 **OCR 识别**:支持图片和表格的智能识别,确保内容完整性。 - 📤 **智能 QA 提取**:自动从文档中提取问答对,支持自定义提取规则。 - 🕸️ **知识图谱构建**:自动构建文档知识图谱,支持知识关联分析。 - 🌐 **多平台支持**:支持将知识进行自动化导入到Dify、Ragflow、Coze 等主流知识库平台。 ## 系统要求 - Python 3.8+ - Node.js 14+ - 现代浏览器(Chrome、Firefox、Safari、Edge 等) ## 快速开始 1. 克隆仓库 ```bash git clone https://github.com/yourusername/Doc2QG.git cd Doc2QG ``` 2. 安装依赖 ```bash pip install -r requirements.txt ``` 3. 调整配置 将 `config_demo.properties` 文件重命名为 `config.properties`,并根据实际环境填写相关参数。 如需保留原始模板,可先备份或复制一份。 3. 启动服务 ```bash ./start.sh ``` 4. 访问系统 打开浏览器访问 `http://localhost:5000` ## 使用指南 ### 文档转换 1. 点击"选择文件"按钮上传文档 2. 选择输出格式(Markdown/HTML/JSON) 3. 点击"转换文档"开始处理 4. 等待转换完成,查看转换结果 ### QA 提取 1. 在文件列表中选择已转换的文档 2. 点击"处理 QA"按钮 3. 设置提取规则 4. 点击"开始提取" 5. 预览提取结果 6. 可选择发送到知识库 ### 知识库集成 1. 在系统设置中配置知识库参数 2. 选择目标知识库平台 3. 设置 API 密钥和其他必要参数 4. 保存设置 5. 使用"发送到知识库"功能 ## 配置说明 ### 系统设置 - **转换设置**:配置输出格式、图片质量、OCR 语言等 - **知识库设置**:配置 API 地址、密钥、数据集 ID 等 - **OpenAI 设置**:配置 API 密钥、模型参数等 - **界面设置**:自定义主题、字体大小、语言等 - **系统配置**:设置自动保存、日志级别等 ## 开发说明 ### 项目结构 ``` Doc2QG/ ├── app.py # 主应用入口 ├── requirements.txt # Python 依赖 ├── static/ # 静态资源 ├── templates/ # HTML 模板 └── utils/ # 工具函数 ``` ### 技术栈 - 后端:Python Flask - 前端:HTML5, CSS3, JavaScript - 编辑器:CodeMirror - Markdown 解析:marked.js - UI 框架:自定义 CSS ### 依赖项目 本项目使用了以下优秀的开源项目: - [marker](https://github.com/VikParuchuri/marker) - Marker converts documents to markdown, JSON, and HTML quickly and accurately. 一个高性能的 PDF 转 Markdown 工具,提供高达 99% 的转换准确率。本项目使用 marker 作为核心的文档转换引擎 ## 功能截图 ### Markfown解析后预览编辑 ![功能演示1](./f1.png) ### Q&A 提取预览 ![功能演示2](./f5.png) ## 许可证 本项目采用 MIT 许可证 - 详见 [LICENSE](LICENSE) 文件 ## 联系方式 - 作者:Evan - GitHub:[https://github.com/xujingbao](https://github.com/xujingbao) ## TODO - 增加批量文件处理功能 - 支持更多知识库平台对接 - Q&A存储和下载 - Markfown图片存储