# mineru-rag **Repository Path**: liusssyang/mineru-rag ## Basic Information - **Project Name**: mineru-rag - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-07-30 - **Last Updated**: 2025-07-30 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README **Conda 环境路径** ``` /data/ly2/conda_envs/data_paser ``` 1. **提取与转换扫描件** 在该环境下,首先运行: ``` python pdf2md.py ``` 该脚本会使用 MinerU 处理扫描件,并在[output](output)目录下生成两个关键文件: - `《高效使用DeepSeek》_middle.json`:用于后续位置信息提取 - `《高效使用DeepSeek》.md`:PDF 转换而来的 Markdown 文档 2. **手动校对 Markdown** 请打开 `《高效使用DeepSeek》.md`,根据实际内容对格式与排版进行必要的人工修改,放入”manu_output“。 3. **构建 Milvus 向量库** 校对完成后,执行: ``` python make_milvus.py ``` 脚本会将 Markdown 文档拆分成若干块,并结合 `_middle.json` 中的位置信息,一并插入 Milvus 向量数据库。 4. **启动检索服务** 最后运行: ``` python retrieval.py ``` 该脚本演示了如何启动一个简单的检索服务接口。 ⚠️ 请根据实际的业务场景与部署需求,调整检索服务的参数与入口。