# 训练书法字体图像获取 **Repository Path**: lc061003/11 ## Basic Information - **Project Name**: 训练书法字体图像获取 - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2026-04-09 - **Last Updated**: 2026-04-11 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README 项目目标 从汉字字帖图片中提取100个汉字,每个汉字单独保存为一张图片。 处理流程 步骤1:原图转灰度图 将彩色图像转换为灰度图像,便于后续处理。 步骤2:全局阈值处理 → 二值化图 使用Otsu自动阈值方法(阈值=106)将灰度图转换为二值图像,黑色背景白色文字,增强文字对比度。 步骤3:腐蚀操作 → 去除噪点 应用腐蚀操作(3x3核,3次迭代),断开拼音和汉字的连接,同时去除图像中的微小噪点。 步骤4:膨胀操作 → 突出图像特征 应用膨胀操作(3x3核,3次迭代),恢复汉字笔画,突出文字形态特征。 步骤5:中值滤波 → 去除小白点 应用中值滤波(3x3核),去除图像中残留的白色噪点,使文字形态更加规整。 步骤6:闭运算 → 填充闭合区域 应用闭运算(3x3核),填充文字内部的闭合空白区域,强化文字整体轮廓。 步骤7:Canny边缘检测 使用Canny边缘检测算法(阈值30/100),提取汉字的边缘轮廓。 步骤8:汉字识别与提取 按照10×10网格定位每个格子区域 在每个格子内通过连通组件分析找到汉字主体 提取汉字的边界框,调整到128×128像素 保存为单独的图片文件 输出结果 chars/0.png ~ chars/99.png:100个单独提取的汉字图片 hanzi_extractor_v25.py:处理代码 技术栈 Python 3 OpenCV(图像处理) NumPy(数值计算) 注意事项 原图中拼音和汉字在部分格子里是连在一起的,提取时可能有少量拼音残留 每个汉字统一调整为128×128像素 使用绿色方框标注识别出的汉字位置 ##学号:202452320208 姓名:李昶 专业:智能科学与技术 班级:2班