# 训练书法字体图像获取

**Repository Path**: lc061003/11

## Basic Information

- **Project Name**: 训练书法字体图像获取
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2026-04-09
- **Last Updated**: 2026-04-11

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

项目目标

从汉字字帖图片中提取100个汉字，每个汉字单独保存为一张图片。
处理流程
步骤1：原图转灰度图

将彩色图像转换为灰度图像，便于后续处理。
步骤2：全局阈值处理 → 二值化图

使用Otsu自动阈值方法（阈值=106）将灰度图转换为二值图像，黑色背景白色文字，增强文字对比度。
步骤3：腐蚀操作 → 去除噪点

应用腐蚀操作（3x3核，3次迭代），断开拼音和汉字的连接，同时去除图像中的微小噪点。
步骤4：膨胀操作 → 突出图像特征

应用膨胀操作（3x3核，3次迭代），恢复汉字笔画，突出文字形态特征。
步骤5：中值滤波 → 去除小白点

应用中值滤波（3x3核），去除图像中残留的白色噪点，使文字形态更加规整。
步骤6：闭运算 → 填充闭合区域

应用闭运算（3x3核），填充文字内部的闭合空白区域，强化文字整体轮廓。
步骤7：Canny边缘检测

使用Canny边缘检测算法（阈值30/100），提取汉字的边缘轮廓。
步骤8：汉字识别与提取

按照10×10网格定位每个格子区域
在每个格子内通过连通组件分析找到汉字主体
提取汉字的边界框，调整到128×128像素
保存为单独的图片文件
输出结果

chars/0.png ~ chars/99.png：100个单独提取的汉字图片
hanzi_extractor_v25.py：处理代码
技术栈

Python 3
OpenCV（图像处理）
NumPy（数值计算）
注意事项

原图中拼音和汉字在部分格子里是连在一起的，提取时可能有少量拼音残留
每个汉字统一调整为128×128像素
使用绿色方框标注识别出的汉字位置
##学号：202452320208
姓名：李昶
专业：智能科学与技术
班级：2班