团队提出一种个性化联邦学习框架 FedTSPMAR实现多模态人体行为识别。针对标签分布偏移与特征分布偏移问题,设计"联邦骨干网络训练—双头分类器学习—客户端微调"的渐进策略,实现全局知识共享与本地深度适配的平衡。针对融合过程中的模态坍缩现象,引入模态解耦损失扩大视频与 IMU 特征间距,降低了客户端精度方差并提升平均识别准确率。
无位置场景图生成方法旨在摆脱对位置标注信息的依赖, 从视觉场景中提取结构化的语义关系。 团队利用可学习的关系查询向量, 实现对所有关系的同时预测, 从而消除现有的方法中的迭代瓶颈;同时, 针对并行预测中的实例 ID 一致性挑战, 引入可学习嵌入表与自适应密度感知机制, 实现从视觉特征到抽象身份索引的端到端并行映射,显著提升多实例场景下的判别精度与推理效率。
三维目标检测作为环境感知的核心任务,其精度与鲁棒性至关重要。然而,现有模型在复杂场景下仍面临漏检与误检挑战,主要源于多模态特征对齐与融合机制设计不足所引发的特征漂移与信息冗余。团队围绕几何对齐、特征融合与计算优化三条主线展开研究,提出兼顾检测精度与推理效率的多模态三维目标检测方法框架。
知识图谱在生产安全管控任务中能够起到重要作用。 利用时序信息与采集获得的多模态信息, 可以获得多模态安全事件图谱, 进一步提升推理精度与可靠性。 团队针对图谱构建与图谱补全开展工作。 前者依据已有数据构建起图谱并进行预处理, 后者的目标是补全因采集不全、 数据丢失等原因丢失的实体间关系。