# 大模型与OCR文字识别的应用 **Repository Path**: hsdong2012/OCR_Model ## Basic Information - **Project Name**: 大模型与OCR文字识别的应用 - **Description**: 大模型与OCR文字识别的应用 - **Primary Language**: Python - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 1 - **Created**: 2025-02-20 - **Last Updated**: 2025-02-20 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README ### 使用说明 #### 文件概述 `main.py` 是主程序入口文件,负责调用 OCR 文字识别功能,并将识别结果传递给模型进行处理,最后在图片上绘制识别结果的边界框。 #### 主要步骤 1. **安装必要的模块** ```python pip install alibabacloud_darabonba_stream pip install alibabacloud_ocr_api20210707 pip install OpenAI pip install aliyun-python-sdk-core pip install alibabacloud_tea_util pip install alibabacloud_tea_openapi ``` 2. **设置图片路径和 API 密钥** ```python image_path = "图片地址" api_key = "阿里云百炼API-KEY" key_id = '阿里云RAM控制授权角色id' key_secret = '阿里云RAM控制授权角色secret' ``` - `image_path`: 替换为待处理的图片文件路径。 - `api_key`: 替换为阿里云百炼服务的 API 密钥。 - `key_id`: 替换为阿里云 RAM 控制授权的角色 ID。 - `key_secret`: 替换为阿里云 RAM 控制授权的角色密钥。 3. **调用 OCR 文字识别** ```python message = get_point(key_id, key_secret) ``` - `get_point` 函数会调用 OCR 文字识别服务,返回识别结果的 JSON 字符串。 4. **处理 OCR 结果** ```python result = Model(api_key, message) json_result = json.loads(result) ``` - `Model` 类接收 API 密钥和 OCR 结果,获取图片文本信息和计算文字位置。 - `json.loads(result)` 将处理后的结果从 JSON 字符串转换为 Python 字典。 5. **在图片上绘制边界框** ```python draw_boxes_on_image(image_path, json_result) ``` - `draw_boxes_on_image` 函数根据 OCR 结果在指定图片上绘制文字区域的边界框。 #### 注意事项 - 确保 `image_path` 指向有效的图片文件。 - 替换 `api_key`, `key_id`, `key_secret` 为实际的阿里云服务凭证。 - 确保已安装所有必要的依赖库。 通过以上步骤,您可以运行 `main.py` 文件,实现图片的文字识别及结果可视化。