科技·商业·财经

哈工大SUMMIT模型:融合物理特性,破解SAR成像难题创SOTA佳绩

   时间:2025-12-24 12:02 作者:赵云飞

合成孔径雷达(SAR)因其独特的主动式微波成像机制,在遥感领域占据重要地位。然而,传统视觉模型多基于光学图像开发,难以直接适配SAR图像的特殊性质。哈工大团队近日提出名为SUMMIT的SAR基础模型,通过融合多辅助任务的自监督学习框架,在分类、检测和分割等任务中取得突破性进展,相关论文发表于国际学术期刊。

SAR图像的生成依赖于回波矢量叠加,导致其存在斑点噪声和几何畸变等光学图像中不存在的特性。SAR图像为单通道幅度信息,目标表征主要依赖强散射点和边缘结构,而非光学图像中的颜色与纹理。这些差异使得直接迁移光学模型至SAR领域效果不佳,且现有SAR预训练数据集规模有限、质量参差不齐,进一步限制了模型性能。

针对上述挑战,研究团队以视觉Transformer(ViT)的掩码自编码器(MAE)架构为基础,创新性地引入辅助任务协调模块(ATCM)。该模块将三个物理驱动的自监督任务——自监督去噪、边缘特征增强和散射点特征提取——无缝集成至预训练流程。例如,在去噪任务中,模型通过对数变换和模拟高斯噪声注入,学习从含噪数据中恢复纯净信号;在散射点提取任务中,利用Harris角点检测定位强后向散射中心,强化模型对目标关键结构的感知能力。

实验结果表明,SUMMIT在多个主流数据集上显著优于传统方法。在目标检测任务中,模型在SARDet-100K数据集上的平均精度(mAP)较直接微调的ViTDet提升至少5%,尤其在港口和停机坪等密集场景下,能有效区分重叠目标,减少漏检与误检。目标分类任务中,模型在MSTAR数据集上展现卓越的小样本学习能力:仅使用30%训练数据时准确率达98.39%,全量数据下准确率高达99.89%,超越ResNet和Swin-Transformer等主流模型。

通过注意力热力图分析可进一步验证模型对SAR物理机制的理解。对比普通ViT模型,SUMMIT的注意力高度集中在目标的强散射中心(如舰船甲板、飞机机身),而非受斑点噪声干扰的背景区域。这一特性表明,辅助任务的设计成功引导模型聚焦于信号本质,而非噪声干扰。

该研究证明,在垂直领域AI开发中,领域知识的深度融合至关重要。单纯依赖数据规模难以解决SAR等复杂物理背景下的视觉问题,唯有将散射机制、噪声分布等物理特性嵌入模型设计,才能实现真正意义上的性能突破。目前,团队已开源相关代码,为SAR遥感领域的智能化发展提供新工具。

 
 
更多>同类内容
全站最新
热门内容