论文速递|视觉 AI 新范式!OverLoCK 实现人类级注意力机制
️一、前沿速递:仿生视觉新范式
人类视觉系统的核心奥秘——“先概览全局,后聚焦细节”,被香港大学团队成功复刻到深度学习模型中!他们提出的OverLoCK(Overview-first-Look-Closely-next ConvNet),首次将这一生物机制融入纯卷积神经网络,在图像分类、目标检测、语义分割等任务中刷新性能天花板。
️二、仿生设计:从生物学到AI的跨越
传统卷积神经网络(ConvNets)依赖金字塔结构逐层下采样,虽能扩大感受野,却忽略了人类视觉的双向反馈机制。OverLoCK创新性地采用三分支架构:
1. Base-Net:提取中低层特征
2. Overview-Net:通过轻量级全局建模生成动态顶层注意力(“概览”)
3. Focus-Net:在顶层指导下进行精细化感知(“细看”)
这种设计让模型能像人类一样,先快速定位关键区域,再深入分析细节,显著提升特征定位能力。
️三、动态卷积:全局与局部的完美平衡
为解决传统卷积固定核大小的局限,团队提出ContMix(上下文混合动态卷积):
- 通过区域中心亲和力计算,动态生成包含全局信息的卷积核
- 结合大小核混合设计,同时捕捉长距离依赖与局部细节
- 在高分辨率输入下仍保持线性复杂度
实验表明,ContMix在ImageNet上的有效感受野(ERF)超过基于Transformer和Mamba的模型,同时保留卷积的局部归纳偏置。
️四、性能碾压:刷新SOTA的成绩单
- 图像分类:OverLoCK-T以1/3计算量超越ConvNeXt-B,在384×384分辨率下Top-1达86.2%
- 目标检测:OverLoCK-S在COCO数据集上APb超越MogaNet-B 1.5%
- 语义分割:OverLoCK-T在ADE20K上mIoU提升UniRepLKNet-T 1.7%
️五、核心创新点
1. 深度阶段分解策略(DDS):
- 解耦概览与细节处理分支
- 通过上下文流动态更新顶层指导信号
2. 动态上下文混合机制:
- 全局信息注入卷积核权重
- 自适应核生成保持计算效率
3. 轻量级架构设计:
- 共享Base-Net减少冗余计算
- 辅助监督提升特征质量
️六、未来展望
OverLoCK的意义不仅在于性能突破,更标志着纯卷积网络的复兴。其高效的全局建模能力为自动驾驶、医学影像等对延迟敏感的领域提供了新选择。团队已开源代码(https://rb.gy/wit4jh),期待更多研究者基于此探索视觉智能的边界。