# CLIPTAD

**Repository Path**: yanrui2025/CLIPTAD

## Basic Information

- **Project Name**: CLIPTAD
- **Description**: CLIPTAD代码实现
- **Primary Language**: Python
- **License**: Not specified
- **Default Branch**: main
- **Homepage**: None
- **GVP Project**: No

## Statistics

- **Stars**: 0
- **Forks**: 0
- **Created**: 2025-10-02
- **Last Updated**: 2025-10-02

## Categories & Tags

**Categories**: Uncategorized

**Tags**: None

## README

# CLIPTAD

## 概述

随着物联网技术的快速发展，使用物联网设备检测人类日常活动在许多场景中得到了应用。长期活动检测能够提供更全面的个体行为模式，为此研究者更加关注长期活动检测领域，尤其是时序活动检测任务（Temporal Activity Detection,TAD）。当前主流的时序活动检测方法是基于视觉模态。然而，基于视觉模态的方法在光线暗的环境中性能不佳，且直接收集视觉信息可能会造成隐私泄露的问题。为此，研究者开始探索基于 WiFi 信道状态信息（Channel State Information, CSI），惯性测量单元（Inertial Measurement Unit, IMU），雷达等非视觉模态的替代方案。对比视觉模态，非视觉模态数据缺乏直观的空间信息且更易受到噪声干扰，因此传统的视觉模态方法难以直接迁移应用。针对不同的非视觉模态数据的特性，需要设计定制化的检测方法。本文提出了一种基于 WiFi CSI 与 IMU 多模态数据的框架 CLIPTAD（Contrastive Language-Sig-PreTraining for Temporal Activity Detection）。在 CLIPTAD 模型中，本文通过将 WiFi-IMU 信号嵌入与文本嵌入映射到统一的嵌入空间，使信号嵌入具备更丰富的语义表征能力，从而提升模型的性能。实验结果表明，CLIPTAD 在具有更低的计算复杂度的同时依然能够保持优异的识别性能。CLIPTAD 的GFLOPs 仅有 11.93，是基线模型的 1 4，同时平均识别准确率为 75.30%，对比基线模型准确率提升约 3%。此外，为了直观展示工作成果，本文还设计并实现了一个基于 Flask 框架和HTML 的交互式可视化系统。该系统可直观呈现：（1）CLIPTAD 处理的多模态数据类型；（2）时序活动检测任务的完整处理流程；（3）模型预测结果的可视化分析。

## 任务演示


https://github.com/user-attachments/assets/d246f22c-accb-4096-8ccc-afb178d373a4


## 算法架构

![modeloverview2](README.assets/modeloverview2.png)

![twostage](README.assets/twostage.png)