# 谣言识别

**Repository Path**: hanmoum/rumor-identification

## Basic Information

- **Project Name**: 谣言识别
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: MulanPSL-2.0
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 1
- **Forks**: 0
- **Created**: 2026-03-17
- **Last Updated**: 2026-04-01

## Categories & Tags

**Categories**: Uncategorized

**Tags**: Python, PyTorch

## README

# 基于多模态深度学习的网络谣言识别系统

## 项目介绍

基于多模态深度学习的网络谣言识别系统，结合文本和图像信息进行谣言检测。该项目利用BERT模型处理文本数据，ResNet模型处理图像数据，并通过注意力机制融合两种模态的特征，实现更准确的谣言识别。

### 主要功能
- 多模态数据处理（文本+图像）
- 基于BERT的文本特征提取
- 基于ResNet的图像特征提取
- 注意力机制特征融合
- 二分类谣言识别

## 项目结构

```
rumor-identification/
├── data/               # 数据目录
│   ├── images/         # 训练图像
│   ├── test_images/    # 测试图像
│   ├── data.csv        # 训练数据
│   ├── val_data.csv    # 验证数据
│   ├── test_data.csv   # 测试数据
│   └── predictions.csv # 预测结果
├── scripts/            # 脚本目录
│   ├── train.py        # 模型训练脚本
│   └── evaluate.py     # 模型评估脚本
├── README.md           # 项目说明
└── LICENSE             # 许可证
```

## 技术架构

### 模型架构
1. **文本编码器**：基于BERT模型，提取文本特征
2. **图像编码器**：基于ResNet18模型，提取图像特征
3. **注意力机制**：动态调整文本和图像特征的权重
4. **特征融合**：融合文本和图像特征
5. **分类器**：二分类器，判断是否为谣言

### 技术栈
- **框架**：PyTorch
- **NLP模型**：BERT (bert-base-chinese)
- **CV模型**：ResNet18
- **数据处理**：Pandas
- **工具库**：Transformers, Torchvision

## 安装教程

### 环境要求
- Python 3.7+
- PyTorch 1.8+
- CUDA 10.2+ (推荐使用GPU加速)

### 安装步骤
1. 克隆项目
   ```bash
   git clone <项目地址>
   cd rumor-identification
   ```

2. 安装依赖
   ```bash
   pip install torch torchvision transformers pandas tqdm scikit-learn pillow
   ```

3. 准备数据
   - 将训练数据放入 `data/` 目录
   - 确保数据格式与代码中的期望一致

4. 下载预训练模型
   - 下载 `bert-base-chinese` 模型并放入 `models/` 目录

## 使用说明

### 训练模型

1. 修改 `scripts/train.py` 中的路径配置：
   - `csv_file`：训练数据路径
   - `img_dir`：图像数据路径
   - `pretrained`：BERT模型路径
   - `checkpoint_path`：模型保存路径

2. 运行训练脚本：
   ```bash
   python scripts/train.py
   ```

   训练过程会显示每个epoch的损失和准确率，并在验证集表现最好时保存模型。

### 评估模型

1. 修改 `scripts/evaluate.py` 中的路径配置：
   - `csv_file`：测试数据路径
   - `img_dir`：测试图像路径
   - `pretrained`：BERT模型路径
   - `checkpoint_path`：训练好的模型路径
   - `output_csv_path`：预测结果保存路径

2. 运行评估脚本：
   ```bash
   python scripts/evaluate.py
   ```

   评估完成后，预测结果会保存到指定的CSV文件中。

## 模型特点

1. **多模态融合**：同时处理文本和图像信息，提高识别准确率
2. **注意力机制**：动态调整文本和图像特征的权重，适应不同场景
3. **预训练模型**：利用BERT和ResNet的预训练权重，加速模型收敛
4. **鲁棒性**：对缺失图像的情况进行了处理，提高模型的鲁棒性

## 数据集格式

### CSV文件格式

| 字段名 | 描述 |
|-------|------|
| id | 数据唯一标识 |
| text | 文本内容 |
| images_list | 图像文件名（多个图像用制表符分隔） |
| label | 标签（0：非谣言，1：谣言） |

## 性能评估

模型在验证集上的表现：
- 准确率：待补充
- 精确率：待补充
- 召回率：待补充
- F1值：待补充

## 参与贡献

1. Fork 本仓库
2. 新建 Feat_xxx 分支
3. 提交代码
4. 新建 Pull Request

## 许可证

本项目采用 MIT 许可证，详见 [LICENSE](LICENSE) 文件。

## 联系方式

如有问题或建议，欢迎联系项目维护者。