# 谣言识别 **Repository Path**: hanmoum/rumor-identification ## Basic Information - **Project Name**: 谣言识别 - **Description**: No description available - **Primary Language**: Unknown - **License**: MulanPSL-2.0 - **Default Branch**: master - **Homepage**: None - **GVP Project**: No ## Statistics - **Stars**: 1 - **Forks**: 0 - **Created**: 2026-03-17 - **Last Updated**: 2026-04-01 ## Categories & Tags **Categories**: Uncategorized **Tags**: Python, PyTorch ## README # 基于多模态深度学习的网络谣言识别系统 ## 项目介绍 基于多模态深度学习的网络谣言识别系统,结合文本和图像信息进行谣言检测。该项目利用BERT模型处理文本数据,ResNet模型处理图像数据,并通过注意力机制融合两种模态的特征,实现更准确的谣言识别。 ### 主要功能 - 多模态数据处理(文本+图像) - 基于BERT的文本特征提取 - 基于ResNet的图像特征提取 - 注意力机制特征融合 - 二分类谣言识别 ## 项目结构 ``` rumor-identification/ ├── data/ # 数据目录 │ ├── images/ # 训练图像 │ ├── test_images/ # 测试图像 │ ├── data.csv # 训练数据 │ ├── val_data.csv # 验证数据 │ ├── test_data.csv # 测试数据 │ └── predictions.csv # 预测结果 ├── scripts/ # 脚本目录 │ ├── train.py # 模型训练脚本 │ └── evaluate.py # 模型评估脚本 ├── README.md # 项目说明 └── LICENSE # 许可证 ``` ## 技术架构 ### 模型架构 1. **文本编码器**:基于BERT模型,提取文本特征 2. **图像编码器**:基于ResNet18模型,提取图像特征 3. **注意力机制**:动态调整文本和图像特征的权重 4. **特征融合**:融合文本和图像特征 5. **分类器**:二分类器,判断是否为谣言 ### 技术栈 - **框架**:PyTorch - **NLP模型**:BERT (bert-base-chinese) - **CV模型**:ResNet18 - **数据处理**:Pandas - **工具库**:Transformers, Torchvision ## 安装教程 ### 环境要求 - Python 3.7+ - PyTorch 1.8+ - CUDA 10.2+ (推荐使用GPU加速) ### 安装步骤 1. 克隆项目 ```bash git clone <项目地址> cd rumor-identification ``` 2. 安装依赖 ```bash pip install torch torchvision transformers pandas tqdm scikit-learn pillow ``` 3. 准备数据 - 将训练数据放入 `data/` 目录 - 确保数据格式与代码中的期望一致 4. 下载预训练模型 - 下载 `bert-base-chinese` 模型并放入 `models/` 目录 ## 使用说明 ### 训练模型 1. 修改 `scripts/train.py` 中的路径配置: - `csv_file`:训练数据路径 - `img_dir`:图像数据路径 - `pretrained`:BERT模型路径 - `checkpoint_path`:模型保存路径 2. 运行训练脚本: ```bash python scripts/train.py ``` 训练过程会显示每个epoch的损失和准确率,并在验证集表现最好时保存模型。 ### 评估模型 1. 修改 `scripts/evaluate.py` 中的路径配置: - `csv_file`:测试数据路径 - `img_dir`:测试图像路径 - `pretrained`:BERT模型路径 - `checkpoint_path`:训练好的模型路径 - `output_csv_path`:预测结果保存路径 2. 运行评估脚本: ```bash python scripts/evaluate.py ``` 评估完成后,预测结果会保存到指定的CSV文件中。 ## 模型特点 1. **多模态融合**:同时处理文本和图像信息,提高识别准确率 2. **注意力机制**:动态调整文本和图像特征的权重,适应不同场景 3. **预训练模型**:利用BERT和ResNet的预训练权重,加速模型收敛 4. **鲁棒性**:对缺失图像的情况进行了处理,提高模型的鲁棒性 ## 数据集格式 ### CSV文件格式 | 字段名 | 描述 | |-------|------| | id | 数据唯一标识 | | text | 文本内容 | | images_list | 图像文件名(多个图像用制表符分隔) | | label | 标签(0:非谣言,1:谣言) | ## 性能评估 模型在验证集上的表现: - 准确率:待补充 - 精确率:待补充 - 召回率:待补充 - F1值:待补充 ## 参与贡献 1. Fork 本仓库 2. 新建 Feat_xxx 分支 3. 提交代码 4. 新建 Pull Request ## 许可证 本项目采用 MIT 许可证,详见 [LICENSE](LICENSE) 文件。 ## 联系方式 如有问题或建议,欢迎联系项目维护者。