# ll

**Repository Path**: dragonflyi1/ll

## Basic Information

- **Project Name**: ll
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-11-01
- **Last Updated**: 2025-11-01

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 多模态敏感数据检测系统

基于预训练大模型的多模态敏感数据检测与处理系统。

## 功能特性

- ✅ 多模态输入支持（文本、图片）
- ✅ 敏感信息检测（身份证、手机号、银行卡等）
- ✅ OCR文字识别（基于PaddleOCR）
- ✅ 自动打码脱敏
- ✅ 风险等级评估
- ✅ 实时警报通知
- ✅ 检测日志记录

## 系统架构

```
sensitive-data-detector/
├── backend/              # 后端API服务
│   ├── app.py           # Flask主应用
│   ├── config.py        # 配置文件
│   └── services/        # 业务逻辑服务
│       ├── detection_service.py    # 检测服务
│       ├── masking_service.py      # 打码服务
│       ├── alert_service.py        # 警报服务
│       └── log_service.py          # 日志服务
├── frontend/            # 前端界面
│   └── index.html       # 主页面
├── uploads/             # 上传文件目录
├── logs/                # 日志目录
├── requirements.txt     # Python依赖
└── README.md           # 项目说明
```

## 安装步骤

### 1. 安装Python依赖

**推荐方式（使用国内镜像源，速度快）：**
```bash
./install.sh
```

或者手动安装：
```bash
# 使用清华镜像源
pip install -r requirements.txt -i https://pypi.tuna.tsinghua.edu.cn/simple

# 或使用阿里云镜像
pip install -r requirements.txt -i https://mirrors.aliyun.com/pypi/simple/
```

**注意：**
- `paddleocr` 需要下载模型文件，首次运行时会自动下载（约100MB+）
- `transformers` 和 `torch` 需要较大的磁盘空间（约2GB+），建议使用GPU加速
- 如果网络较慢或遇到超时，建议使用镜像源安装
- 如果不需要NER功能，可以不安装transformers和torch，系统会自动使用纯规则匹配模式

### 2. 配置环境变量（可选）

```bash
# 设置警报Webhook地址（钉钉/企业微信）
export ALERT_WEBHOOK_URL="your_webhook_url"

# 启用邮件通知
export EMAIL_ENABLED="true"
```

## 运行系统

### 启动后端服务

```bash
cd backend
python app.py
```

### 访问前端

打开浏览器访问：http://localhost:18081

## 使用说明

### 文本检测

1. 切换到"文本检测"标签
2. 在文本框中输入或粘贴需要检测的内容
3. 点击"开始检测"按钮
4. 查看检测结果和风险等级
5. 点击"打码处理"查看脱敏后的文本

### 图片检测

1. 切换到"图片检测"标签
2. 点击"选择图片"或拖拽图片到上传区域
3. 点击"开始检测"按钮（系统会自动进行OCR识别）
4. 查看检测结果
5. 点击"打码处理"查看打码后的图片

## 检测的敏感信息类型

- **身份证号**：15位或18位身份证号码
- **手机号**：11位手机号码
- **银行卡号**：16-19位银行卡号
- **邮箱地址**：邮箱格式
- **地址信息**：包含省市区等关键词的地址

## 风险等级

- **HIGH（高风险）**：检测到身份证、银行卡等高敏感信息，或检测到3处以上敏感信息
- **MEDIUM（中风险）**：检测到手机号、邮箱等中等敏感信息，或检测到2处敏感信息
- **LOW（低风险）**：检测到少量低敏感信息

## API接口

### 检测接口

```http
POST /api/detect
Content-Type: application/json

{
  "type": "text" | "image",
  "content": "文本内容或base64图片"
}
```

### 打码接口

```http
POST /api/mask
Content-Type: application/json

{
  "type": "text" | "image",
  "content": "原始内容",
  "detected_items": [...]
}
```

### 获取日志

```http
GET /api/logs
```

## 技术栈

- **后端框架**：Flask
- **OCR引擎**：PaddleOCR
- **NER模型**：BERT-based NER（可选）
- **图像处理**：Pillow
- **前端**：HTML + CSS + JavaScript

## 性能优化建议

1. **使用GPU加速**：安装CUDA版本的PyTorch和PaddleOCR
2. **模型量化**：对NER模型进行量化以减少内存占用
3. **异步处理**：对于大批量处理，可以使用Celery等任务队列
4. **缓存机制**：对OCR结果进行缓存

## 后续扩展

- [ ] 集成YOLO等目标检测模型，用于检测身份证、银行卡等物体
- [ ] 支持视频和音频输入
- [ ] 增加更多敏感信息类型（车牌号、护照号等）
- [ ] 实现完整的邮件通知功能
- [ ] 添加用户管理和权限控制
- [ ] 支持批量文件处理
- [ ] 添加API认证机制

## 许可证

MIT License

## 作者

多模态敏感数据检测系统开发团队