# ll **Repository Path**: dragonflyi1/ll ## Basic Information - **Project Name**: ll - **Description**: No description available - **Primary Language**: Unknown - **License**: Not specified - **Default Branch**: main - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 0 - **Forks**: 0 - **Created**: 2025-11-01 - **Last Updated**: 2025-11-01 ## Categories & Tags **Categories**: Uncategorized **Tags**: None ## README # 多模态敏感数据检测系统 基于预训练大模型的多模态敏感数据检测与处理系统。 ## 功能特性 - ✅ 多模态输入支持(文本、图片) - ✅ 敏感信息检测(身份证、手机号、银行卡等) - ✅ OCR文字识别(基于PaddleOCR) - ✅ 自动打码脱敏 - ✅ 风险等级评估 - ✅ 实时警报通知 - ✅ 检测日志记录 ## 系统架构 ``` sensitive-data-detector/ ├── backend/ # 后端API服务 │ ├── app.py # Flask主应用 │ ├── config.py # 配置文件 │ └── services/ # 业务逻辑服务 │ ├── detection_service.py # 检测服务 │ ├── masking_service.py # 打码服务 │ ├── alert_service.py # 警报服务 │ └── log_service.py # 日志服务 ├── frontend/ # 前端界面 │ └── index.html # 主页面 ├── uploads/ # 上传文件目录 ├── logs/ # 日志目录 ├── requirements.txt # Python依赖 └── README.md # 项目说明 ``` ## 安装步骤 ### 1. 安装Python依赖 **推荐方式(使用国内镜像源,速度快):** ```bash ./install.sh ``` 或者手动安装: ```bash # 使用清华镜像源 pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple # 或使用阿里云镜像 pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/ ``` **注意:** - `paddleocr` 需要下载模型文件,首次运行时会自动下载(约100MB+) - `transformers` 和 `torch` 需要较大的磁盘空间(约2GB+),建议使用GPU加速 - 如果网络较慢或遇到超时,建议使用镜像源安装 - 如果不需要NER功能,可以不安装transformers和torch,系统会自动使用纯规则匹配模式 ### 2. 配置环境变量(可选) ```bash # 设置警报Webhook地址(钉钉/企业微信) export ALERT_WEBHOOK_URL="your_webhook_url" # 启用邮件通知 export EMAIL_ENABLED="true" ``` ## 运行系统 ### 启动后端服务 ```bash cd backend python app.py ``` ### 访问前端 打开浏览器访问:http://localhost:18081 ## 使用说明 ### 文本检测 1. 切换到"文本检测"标签 2. 在文本框中输入或粘贴需要检测的内容 3. 点击"开始检测"按钮 4. 查看检测结果和风险等级 5. 点击"打码处理"查看脱敏后的文本 ### 图片检测 1. 切换到"图片检测"标签 2. 点击"选择图片"或拖拽图片到上传区域 3. 点击"开始检测"按钮(系统会自动进行OCR识别) 4. 查看检测结果 5. 点击"打码处理"查看打码后的图片 ## 检测的敏感信息类型 - **身份证号**:15位或18位身份证号码 - **手机号**:11位手机号码 - **银行卡号**:16-19位银行卡号 - **邮箱地址**:邮箱格式 - **地址信息**:包含省市区等关键词的地址 ## 风险等级 - **HIGH(高风险)**:检测到身份证、银行卡等高敏感信息,或检测到3处以上敏感信息 - **MEDIUM(中风险)**:检测到手机号、邮箱等中等敏感信息,或检测到2处敏感信息 - **LOW(低风险)**:检测到少量低敏感信息 ## API接口 ### 检测接口 ```http POST /api/detect Content-Type: application/json { "type": "text" | "image", "content": "文本内容或base64图片" } ``` ### 打码接口 ```http POST /api/mask Content-Type: application/json { "type": "text" | "image", "content": "原始内容", "detected_items": [...] } ``` ### 获取日志 ```http GET /api/logs ``` ## 技术栈 - **后端框架**:Flask - **OCR引擎**:PaddleOCR - **NER模型**:BERT-based NER(可选) - **图像处理**:Pillow - **前端**:HTML + CSS + JavaScript ## 性能优化建议 1. **使用GPU加速**:安装CUDA版本的PyTorch和PaddleOCR 2. **模型量化**:对NER模型进行量化以减少内存占用 3. **异步处理**:对于大批量处理,可以使用Celery等任务队列 4. **缓存机制**:对OCR结果进行缓存 ## 后续扩展 - [ ] 集成YOLO等目标检测模型,用于检测身份证、银行卡等物体 - [ ] 支持视频和音频输入 - [ ] 增加更多敏感信息类型(车牌号、护照号等) - [ ] 实现完整的邮件通知功能 - [ ] 添加用户管理和权限控制 - [ ] 支持批量文件处理 - [ ] 添加API认证机制 ## 许可证 MIT License ## 作者 多模态敏感数据检测系统开发团队