# 大模型与OCR文字识别的应用

**Repository Path**: hsdong2012/OCR_Model

## Basic Information

- **Project Name**: 大模型与OCR文字识别的应用
- **Description**: 大模型与OCR文字识别的应用
- **Primary Language**: Python
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 1
- **Created**: 2025-02-20
- **Last Updated**: 2025-02-20

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

### 使用说明

#### 文件概述

`main.py` 是主程序入口文件，负责调用 OCR 文字识别功能，并将识别结果传递给模型进行处理，最后在图片上绘制识别结果的边界框。

#### 主要步骤

1. **安装必要的模块**
   
   ```python
   pip install alibabacloud_darabonba_stream
   pip install alibabacloud_ocr_api20210707
   pip install OpenAI
   pip install aliyun-python-sdk-core
   pip install alibabacloud_tea_util
   pip install alibabacloud_tea_openapi
   ```

2. **设置图片路径和 API 密钥**
   
   ```python
   image_path = "图片地址"
   api_key = "阿里云百炼API-KEY"
   key_id = '阿里云RAM控制授权角色id'
   key_secret = '阿里云RAM控制授权角色secret'
   ```
   
   - `image_path`: 替换为待处理的图片文件路径。
   - `api_key`: 替换为阿里云百炼服务的 API 密钥。
   - `key_id`: 替换为阿里云 RAM 控制授权的角色 ID。
   - `key_secret`: 替换为阿里云 RAM 控制授权的角色密钥。

3. **调用 OCR 文字识别**
   
   ```python
   message = get_point(key_id, key_secret)
   ```
   
   - `get_point` 函数会调用 OCR 文字识别服务，返回识别结果的 JSON 字符串。

4. **处理 OCR 结果**
   
   ```python
   result = Model(api_key, message)
   json_result = json.loads(result)
   ```
   
   - `Model` 类接收 API 密钥和 OCR 结果，获取图片文本信息和计算文字位置。
   - `json.loads(result)` 将处理后的结果从 JSON 字符串转换为 Python 字典。

5. **在图片上绘制边界框**
   
   ```python
   draw_boxes_on_image(image_path, json_result)
   ```
   
   - `draw_boxes_on_image` 函数根据 OCR 结果在指定图片上绘制文字区域的边界框。

#### 注意事项

- 确保 `image_path` 指向有效的图片文件。
- 替换 `api_key`, `key_id`, `key_secret` 为实际的阿里云服务凭证。
- 确保已安装所有必要的依赖库。

通过以上步骤，您可以运行 `main.py` 文件，实现图片的文字识别及结果可视化。