# zero_attack

**Repository Path**: elan2017/zero_attack

## Basic Information

- **Project Name**: zero_attack
- **Description**: No description available
- **Primary Language**: Unknown
- **License**: Not specified
- **Default Branch**: master
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2024-04-10
- **Last Updated**: 2024-06-03

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# 本科毕业论文项目

## 论文题目

基于零样本学习策略的windows恶意代码检测技术研究

## 摘要

在当前数字化时代背景下，恶意代码已成为网络安全的重大威胁，特别是随着恶意代码对抗技术的快速发展，恶意软件变种层出不穷，对传统检测手段构成了严峻挑战。本文针对这一问题，深入探讨并提出了一种基于零样本学习策略的windows恶意代码检测技术。
本文首先综述了恶意代码检测领域的研究进展与现状。传统检测方法如静态分析和动态分析等在面对复杂混淆、加壳等手段产生的恶意代码变种时，其效率和准确性受到明显限制。近年来，基于恶意代码可视化的检测方法层出不穷，因其能够揭示恶意家族间图像纹理特征的相似性和差异性，展现出了对变种的有效检测能力。然而，现有方法在提升分类准确率的同时，往往忽视了检测的时效性和模型的泛化能力。此外，数据集类别不平衡问题、特征提取成本高且特征鲁棒性差也是制约现有方法性能的关键因素。
本文借鉴深度度量学习与通道注意力机制等方面最新研究成果，构建了一种轻量级、参数量小、具有良好纹理特征提取能力的深度嵌入聚类模型。对于恶意代码文件，模型可以将其转换为单通道的灰度图像进行处理。另外，模型能够捕获成对的信息，利用特定的对选择策略来解决数据不平衡问题，增强模型在少样本情况下的过采样能力。随后，通过自动编码器的编码器部分提取图像的关键特征并映射到相似度空间，在相似度空间中计算相似度向量和相似度锚点的距离，以输出对象间的相似性，实现对恶意代码变种的快速、准确分类。
为验证所提方法的性能，本文在Malimg和Malevis两个大型恶意代码数据集上进行了大量实验。实验结果表明，该方法在恶意代码变种检测与分类中的性能较好，准确率、精确率、召回率和F1-值等关键评价指标均表现优秀。特别是在实时性方面，由于采用了轻量级神经网络模型，参数量减少，检测时间也大幅缩短，实现了对未知新样本的快速检测，对恶意代码变种的高效、准确识别，为应对日益复杂的恶意代码威胁提供了有力工具。

## 模型结构

![img_3.png](img_3.png)

## 项目结构

- |----| zero_attack
- |----| config 实验设置和模型参数
- |----| data_analysis 实验输出数据分析
- |----| db 数据集临时保存
- |----| doc 模型相关数据输出位置
- |----| out 实验数据、日志输出
- |----| pre_data 恶意代码处理
- |----| src
- |--------| customize_nn.py 自定义编码器
- |--------| main.py
- |--------| pretrain_encoder.py 预训练
- |--------| torch_smell.py 模型正式定义
- |----| readme.md 说明文档

## 运行

必要的包

numpy 1.26.4     
pandas 2.2.2          
python 3.9.19        
pytorch 2.2.2           
scikit-learn 1.4.1     
torchaudio 2.2.2  
tqdm 4.66.2

运行main.py即可