# python

**Repository Path**: zzyyhuq/python

## Basic Information

- **Project Name**: python
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2026-04-24
- **Last Updated**: 2026-04-27

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 奖状分析系统

上传奖状图片，自动通过 OCR 识别文字并提取姓名、奖项、颁发单位、日期、等级等结构化信息。

## 技术栈

- **后端**：Python 3.10+ + FastAPI
- **OCR 引擎**：RapidOCR（基于 ONNX Runtime，本地运行，中文识别效果优秀，兼容性好）
- **前端**：原生 HTML + JS，支持拖拽上传

## 快速开始

### 1. 安装依赖

```bash
pip install -r requirements.txt
```

> **注意**：RapidOCR 首次运行会自动下载模型文件，请确保网络畅通。

### 2. 启动服务

```bash
uvicorn main:app --reload --host 0.0.0.0 --port 8000
```

### 3. 使用

浏览器访问 `http://localhost:8000`，拖拽或点击上传奖状图片即可。

## API 接口

### POST /api/analyze

上传图片进行分析。

**请求**：
- Content-Type: `multipart/form-data`
- 字段：`file`（图片文件）

**响应示例**：
```json
{
  "success": true,
  "data": {
    "name": "张三",
    "award": "优秀学生奖",
    "organization": "某某大学",
    "date": "2024年6月1日",
    "grade": "一等奖"
  },
  "ocr_raw": [
    {"text": "荣誉证书", "confidence": 0.98, "box": [[...], [...], [...], [...]]},
    ...
  ]
}
```

## 项目结构

```
jzxt/
├── main.py           # FastAPI 入口
├── ocr_engine.py     # RapidOCR 封装
├── extractor.py      # 结构化信息提取
├── static/
│   └── index.html    # 前端页面
├── uploads/          # 临时上传目录
└── requirements.txt  # Python 依赖
```

## 提取规则说明

| 字段 | 提取策略 |
|------|----------|
| 姓名 | 匹配 "授予/同学/同志/姓名:" 等关键词附近的人名 |
| 奖项 | 匹配 "荣获/获得/授予" 后的内容，或书名号/引号内文字 |
| 颁发单位 | 匹配底部含 "学校/公司/组委会/协会" 等后缀的机构名 |
| 日期 | 正则匹配 `2024年1月1日`、`2024-01-01` 等格式 |
| 等级 | 关键词匹配：特等奖、一等奖、金奖、优秀奖等 |

## 注意事项

- 奖状图片清晰度会直接影响 OCR 识别准确率。
- 如果某字段未识别，页面会显示 "未识别"，可对照下方 OCR 原始文本手动校对。
- 上传的图片在处理完成后会自动删除，不会持久化存储。