论文速递|视觉 AI 新范式!OverLoCK 实现人类级注意力机制

2025-04-05ASPCMS社区 - fjmyhfvclm

️一、前沿速递:仿生视觉新范式

人类视觉系统的核心奥秘——“先概览全局,后聚焦细节”,被香港大学团队成功复刻到深度学习模型中!他们提出的OverLoCK(Overview-first-Look-Closely-next ConvNet),首次将这一生物机制融入纯卷积神经网络,在图像分类、目标检测、语义分割等任务中刷新性能天花板。

️二、仿生设计:从生物学到AI的跨越

传统卷积神经网络(ConvNets)依赖金字塔结构逐层下采样,虽能扩大感受野,却忽略了人类视觉的双向反馈机制。OverLoCK创新性地采用三分支架构:

1. Base-Net:提取中低层特征

2. Overview-Net:通过轻量级全局建模生成动态顶层注意力(“概览”)

3. Focus-Net:在顶层指导下进行精细化感知(“细看”)

这种设计让模型能像人类一样,先快速定位关键区域,再深入分析细节,显著提升特征定位能力。

️三、动态卷积:全局与局部的完美平衡

为解决传统卷积固定核大小的局限,团队提出ContMix(上下文混合动态卷积):

- 通过区域中心亲和力计算,动态生成包含全局信息的卷积核

- 结合大小核混合设计,同时捕捉长距离依赖与局部细节

- 在高分辨率输入下仍保持线性复杂度

实验表明,ContMix在ImageNet上的有效感受野(ERF)超过基于Transformer和Mamba的模型,同时保留卷积的局部归纳偏置。

️四、性能碾压:刷新SOTA的成绩单

- 图像分类:OverLoCK-T以1/3计算量超越ConvNeXt-B,在384×384分辨率下Top-1达86.2%

- 目标检测:OverLoCK-S在COCO数据集上APb超越MogaNet-B 1.5%

- 语义分割:OverLoCK-T在ADE20K上mIoU提升UniRepLKNet-T 1.7%

️五、核心创新点

1. 深度阶段分解策略(DDS):

- 解耦概览与细节处理分支

- 通过上下文流动态更新顶层指导信号

2. 动态上下文混合机制:

- 全局信息注入卷积核权重

- 自适应核生成保持计算效率

3. 轻量级架构设计:

- 共享Base-Net减少冗余计算

- 辅助监督提升特征质量

️六、未来展望

OverLoCK的意义不仅在于性能突破,更标志着纯卷积网络的复兴。其高效的全局建模能力为自动驾驶、医学影像等对延迟敏感的领域提供了新选择。团队已开源代码(https://rb.gy/wit4jh),期待更多研究者基于此探索视觉智能的边界。

全部评论