# 工具：知识库伴侣（基于Markitdown+PyMuPDF+Tesseract+多个PyTorch模型）

**Repository Path**: low-code-dev-lab/markitdown-api

## Basic Information

- **Project Name**: 工具：知识库伴侣（基于Markitdown+PyMuPDF+Tesseract+多个PyTorch模型）
- **Description**: 提供知识库建设所需的基本功能，全CPU实现。

功能特性：
- 文件转文本：PDF、Word、Excel、PowerPoint、图片、HTML 等格式（图片识别模式： OCR、VL）
- 文本切块：BERT Chunker Chinese 2
- 文本嵌入：multilingual-e5-small
- 文本排序：gte-multilingual-reranker-base
- **Primary Language**: Unknown
- **License**: MIT
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 9
- **Forks**: 5
- **Created**: 2025-11-21
- **Last Updated**: 2026-06-05

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 知识库伴侣

基于 MarkItDown 和 AI 模型的文档处理 API 服务，支持文档转换、智能切块、向量化和语义重排序。

## 功能特性

- 📄 **文档转换**：PDF、Word、Excel、PowerPoint、图片等格式转 Markdown
- 🔍 **图片识别**：OCR 文字识别 / Vision API 智能理解 / VL-Page 页面识别 / 可选忽略
- ✂️ **智能切块**：基于 BERT 的语义切分，支持自定义切块大小
- 🧠 **文本向量化**：使用 multilingual-e5-small 模型生成 384 维语义向量
- 🎯 **语义重排序**：使用 GTE-reranker 对文档进行相关性排序
- 🐳 **Docker 部署**：预装模型，开箱即用

## 快速开始

### 一、使用预编译镜像部署

**1. 拉取镜像：**
```bash
docker pull crpi-4auaoyyj6r36p6lb.cn-hangzhou.personal.cr.aliyuncs.com/huozige_lab/markitdown-api-lite:[版本号]
```

> **提示**：
> - 上述 Docker 镜像为 x64 架构。若在 arm64 或其他架构上运行，需要获取代码，使用对应架构另行编译，必要时更换适配该架构的模型。
> - [版本号]请参见本项目的[“发行版”](https://gitee.com/low-code-dev-lab/markitdown-api/releases)。
> - 暂不支持latest，拉取镜像时需要明确所需的版本号

**2. 启动服务：**

```bash
docker run -d --name markitdown-api-lite --restart unless-stopped --network=host -p 8300:8300 -v ./data:/app/data -e VL_BASE_URL="https://dashscope.aliyuncs.com/compatible-mode/v1" -e VL_API_KEY="sk-xxx" -e VL_MODEL="qwen-vl-plus" -e DATA_DIR=/app/data crpi-4auaoyyj6r36p6lb.cn-hangzhou.personal.cr.aliyuncs.com/huozige_lab/markitdown-api-lite:[版本号]
```

**注意**：
- 如需在局域网内使用，需要增加--network=host，以便于使用宿主机的DNS地址，用来访问到宿主机或其他服务器上的文件。如果您的宿主机是Windows Docker Desktop，您需要前往Docker Desktop的【设置】界面，在【Resource】下找到【Network】选项卡，勾选【Enable host networking】来启用对该功能的支持。启动成功后，Docker会提示“……忽略端口设置……”的文字消息，这是正常的，不影响使用。
- 如需在广域网使用，需确保指定的端口已经允许公开访问。

**3. 确保服务成功启动**：

服务采用**延迟加载**机制，启动后模型不会立即加载，而是在首次调用相关接口时按需加载。这样可以实现快速启动。

**启动方式选择**：

- **快速启动**（推荐）：服务启动后立即可用，模型在首次使用时自动加载
  ```bash
  # 服务启动约 30 秒至 1 分钟后即可访问
  curl http://localhost:8300/health
  ```

- **预热启动**：启动后主动预加载所有模型，确保首次调用时无延迟
  ```bash
  # 等待服务启动
  sleep 60

  # 预热所有模型（约需 30-60 秒）
  curl http://localhost:8300/warmup
  ```

### 二、通过Web地址访问

- API 服务：http://localhost:8300
- API 文档：http://localhost:8300/docs

## API 接口

### POST /convert-url - 从 URL 转换文档

**请求示例**：
```bash
curl -X POST "http://localhost:8300/convert-url" \
  -H "Content-Type: application/json" \
  -d '{
    "url": "http://example.com/document.pdf",
    "name": "document.pdf",
    "image_process_model": "ocr",
    "max_chunk_size": 500
  }'
```

**参数**：
- `url`（必需）：文档 URL 地址
- `name`（可选）：文件名，用于类型推断
- `image_process_model`（可选）：`ocr`（默认）/ `vl` / `none` / `vl-page`（仅支持PDF）
- `max_chunk_size`（可选）：切块大小，0 表示不切块

**响应**：
```json
{
  "success": true,
  "url": "http://example.com/document.pdf",
  "name": "document.pdf",
  "markdown": "# 文档内容...",
  "chunks": ["块1...", "块2..."],
  "logs": "处理日志..."
}
```

### POST /convert-file - 从文件内容转换文档

**请求示例**：
```bash
curl -X POST "http://localhost:8300/convert-file" \
  -H "Content-Type: application/json" \
  -d '{
    "data": "data:application/pdf;base64,JVBERi0xLjQKJeLjz9MK...",
    "image_process_model": "ocr",
    "max_chunk_size": 500
  }'
```

**参数**：
- `data`（必需）：Data URI 格式的文件内容（包含 MIME 类型和 Base64 编码数据）
- `image_process_model`（可选）：`ocr`（默认）/ `vl` / `none` / `vl-page`（仅支持PDF）
- `max_chunk_size`（可选）：切块大小，0 表示不切块

**响应**：
```json
{
  "success": true,
  "url": "",
  "name": "",
  "markdown": "# 文档内容...",
  "chunks": ["块1...", "块2..."],
  "logs": "处理日志..."
}
```

**Data URI 格式说明**：
- 格式：`data:[<mediatype>][;base64],<data>`
- 示例：`data:application/pdf;base64,JVBERi0xLjQK...`
- 示例：`data:text/plain;base64,SGVsbG8gV29ybGQh`
- 优势：无需文件服务器，直接传输文件内容

**注意**：
- 旧版本中的 `/convert2` 接口已弃用，将在后续版本中移除，请使用 `/convert-url` 替代

### POST /chunk - 文本切块

**请求示例**：
```bash
curl -X POST "http://localhost:8300/chunk" \
  -H "Content-Type: application/json" \
  -d '{
    "content": "长文本内容...",
    "max_chunk_size": 500
  }'
```

**参数**：
- `content`（必需）：待切块的文本
- `max_chunk_size`（可选）：切块大小

**响应**：
```json
{
  "success": true,
  "chunks": ["块1...", "块2..."],
  "logs": "切块日志..."
}
```

### POST /embedding - 文本嵌入向量

**请求示例**：
```bash
curl -X POST "http://localhost:8300/embedding" \
  -H "Content-Type: application/json" \
  -d '{
    "text": "这是一段文本",
    "type": "passage"
  }'
```

**参数**：
- `text`（必需）：待向量化的文本
- `type`（可选）：`passage`（默认，用于文档）/ `query`（用于查询）

**响应**：
```json
{
  "embedding": [0.123, -0.456, ...],
  "dimension": 384,
  "duration": 0.032
}
```

**返回字段说明**：
- `embedding`: L2 归一化后的嵌入向量（384 维浮点数组）
- `dimension`: 向量维度（固定 384）
- `duration`: 处理耗时（秒）

**特点**：
- 使用 multilingual-e5-small 模型
- 固定 384 维向量输出
- 支持中英文及 100+ 种语言
- 自动 L2 归一化

### POST /rerank - 文档重排序

**请求示例**：
```bash
curl -X POST "http://localhost:8300/rerank" \
  -H "Content-Type: application/json" \
  -d '{
    "query": "员工请假需要提前多久申请？",
    "inputs": [
      "年假申请需提前3天...",
      "病假申请流程...",
      "请假扣款规定..."
    ],
    "topN": 2
  }'
```

**参数**：
- `query`（必需）：查询文本
- `inputs`（必需）：候选文档列表
- `topN`（必需）：返回的文档数量

**响应**：
```json
{
  "results": [
    {
      "index": 0,
      "relevance_score": 0.8542,
      "document": {
        "text": "年假申请需提前3天..."
      }
    },
    {
      "index": 1,
      "relevance_score": 0.7231,
      "document": {
        "text": "病假申请流程..."
      }
    }
  ],
  "duration": 0.125
}
```

**返回字段说明**：
- `index`: 文档在原始输入列表中的索引
- `relevance_score`: 相关性分数（越高越相关）
- `document.text`: 文档文本内容
- `duration`: 处理耗时（秒）

**特点**：
- 使用 Alibaba GTE-multilingual-reranker-base 模型
- CPU 优化，推理速度快（~50ms/10 文档）
- 支持 75 种语言
- 显著提升检索准确率（+20-30%）

**典型应用场景**：
```
用户查询 → 向量检索（召回 Top 50-100）→ Rerank（精选 Top 5-10）→ 返回用户
```

### GET /version - API版本号

返回当前API服务的版本号。

**请求示例**：
```bash
curl http://localhost:8300/version
```

**响应**：
```json
{
  "version": "2.5.0"
}
```

### GET /health - 健康检查

```bash
curl http://localhost:8300/health
```

**响应**：
```json
{
  "status": "healthy"
}
```

### GET /warmup - 模型预热

预加载所有 AI 模型（chunk、embedding、rerank），返回加载日志。

**请求示例**：
```bash
curl http://localhost:8300/warmup
```

**响应**（纯文本）：
```
============================================================
[1/3] 开始加载 Chunk 模型...
============================================================
Initializing BERT Chunker Chinese 2 model, device: cpu
Loading tokenizer...
[OK] Tokenizer loaded
Loading model...
[OK] Model loaded
[OK] Chunk 模型加载成功

============================================================
[2/3] 开始加载 Embedding 模型...
============================================================
正在加载 intfloat/multilingual-e5-small 模型...
模型加载完成
[OK] Embedding 模型加载成功

============================================================
[3/3] 开始加载 Rerank 模型...
============================================================
正在加载 Alibaba-NLP/gte-multilingual-reranker-base 模型...
模型加载完成
[OK] Rerank 模型加载成功

============================================================
所有模型加载完成！
============================================================
```

**使用场景**：
- **容器启动后预热**：确保首次调用无延迟
- **Kubernetes 就绪探针**：作为 readinessProbe 确保 Pod 完全就绪
- **性能测试前准备**：避免首次调用耗时影响测试结果
- **监控模型加载状态**：通过日志排查模型加载问题

**注意**：
- 首次调用约需 30-60 秒（取决于硬件性能）
- 重复调用会立即返回（模型已加载）
- 不影响服务正常运行，可随时调用

## 支持格式

| 格式         | 扩展名                     | 图片识别                        |
|------------|-------------------------|-----------------------------|
| PDF        | `.pdf`                  | ✅ OCR / VL / VL-Page / None |
| Word       | `.docx`                 | ✅ OCR / VL / None           |
| PowerPoint | `.pptx`                 | ✅ OCR / VL / None           |
| Excel      | `.xlsx`                 | ✅ OCR / VL / None           |
| 图片         | `.jpg`, `.png`, `.gif`  | ✅ OCR / VL / None           |
| 文本         | `.txt`, `.json`, `.xml` | -                           |

## 图片识别模式

### OCR 模式（默认）
- 使用 Tesseract，开箱即用
- 支持中英文混合识别
- 输出格式：` ```ocr ... ` `

### VL 模式，Vision API
- 使用 OpenAI 兼容接口（如阿里云百炼）
- 智能理解图片内容，自动提取上下文
- 输出格式：` ```vl ... ` `
- 获取 API Key：[阿里云百炼控制台](https://bailian.console.aliyun.com/)

### VL-Page 模式（仅支持 PDF）
- 将 PDF 文档按页面截屏，分别调用 VL API 识别
- 输出格式：` ```vl-page ... ` `（每页一个独立代码块）
- 不包含 PDF 中的原始文本，仅包含 VL 识别的结果
- 自动调整页面缩放比例，确保图片质量（可通过 `VL_PAGE_TARGET_WIDTH`、`VL_PAGE_MIN_ZOOM`、`VL_PAGE_MAX_ZOOM` 环境变量调整）
- 需要配置 VL_BASE_URL 和 VL_API_KEY 环境变量
- 适用于需要完全依赖 VL 理解 PDF 内容的场景

### None 模式
- 跳过所有图片，仅提取文本
- 大幅提升处理速度

## AI 模型说明

| 模型                         | 用途    | 参数规模 | 维度/特性         |
|----------------------------|-------|------|---------------|
| **BERT Chunker Chinese 2** | 文本切块  | 0.1B | 语义边界识别        |
| **multilingual-e5-small**  | 文本向量化 | 0.3B | 384 维，100+ 语言 |
| **GTE-reranker-base**      | 文档重排序 | 0.6B | 75 语言，CPU 优化  |

所有模型预装在 Docker 镜像中，无需额外下载。

## 环境变量配置

| 变量                 | 默认值         | 说明            |
|--------------------|-------------|---------------|
| `VL_BASE_URL`      | -           | Vision API 地址 |
| `VL_API_KEY`       | -           | Vision API 密钥 |
| `VL_MODEL`         | -           | Vision 模型名称   |
| `DOWNLOAD_TIMEOUT` | 300 秒       | 文件下载超时        |
| `VL_API_TIMEOUT`   | 120 秒       | Vision API 超时 |
| `DATA_DIR`         | `/app/data` | 数据存储目录        |

**VL-Page 模式高级配置**（可选）：
- `VL_PAGE_TARGET_WIDTH`：页面截图目标宽度（默认 2400 像素）
- `VL_PAGE_MIN_ZOOM`：最小缩放比例（默认 1.2）
- `VL_PAGE_MAX_ZOOM`：最大缩放比例（默认 5.0）

## 开发指南

查看 **[DEV_GUIDE.md](./DEV_GUIDE.md)** 了解开发模式、热重载、调试等详细说明。

**快速启动开发模式**：
```bash
# Windows
dev.bat init && dev.bat dev

# Linux/Mac
make init && make dev
```

## 项目结构

```
app/
├── main.py           # FastAPI 应用
├── routes.py         # API 路由
├── core.py           # 文档转换
├── chunk.py          # 文本切块
├── embedding.py      # 向量化
├── rerank.py         # 重排序
├── schemas.py        # 数据模型
└── processor/        # 文档处理器
```

## 技术栈

- **Web 框架**：FastAPI + Uvicorn
- **文档转换**：MarkItDown + PyMuPDF
- **图片识别**：Tesseract OCR / OpenAI Vision API / VL-Page 页面识别
- **AI 模型**：
  - BERT Chunker Chinese 2（语义切块）
  - multilingual-e5-small（文本向量化）
  - Alibaba GTE-reranker-base（文档重排序）
- **运行环境**：Python 3.12 + uv

## License

MIT