论文速递|视觉 AI 新范式！OverLoCK 实现人类级注意力机制

2025-04-05ASPCMS社区 - fjmyhfvclm

️一、前沿速递：仿生视觉新范式

人类视觉系统的核心奥秘——“先概览全局，后聚焦细节”，被香港大学团队成功复刻到深度学习模型中！他们提出的OverLoCK（Overview-first-Look-Closely-next ConvNet），首次将这一生物机制融入纯卷积神经网络，在图像分类、目标检测、语义分割等任务中刷新性能天花板。

️二、仿生设计：从生物学到AI的跨越

传统卷积神经网络（ConvNets）依赖金字塔结构逐层下采样，虽能扩大感受野，却忽略了人类视觉的双向反馈机制。OverLoCK创新性地采用三分支架构：

1. Base-Net：提取中低层特征

2. Overview-Net：通过轻量级全局建模生成动态顶层注意力（“概览”）

3. Focus-Net：在顶层指导下进行精细化感知（“细看”）

这种设计让模型能像人类一样，先快速定位关键区域，再深入分析细节，显著提升特征定位能力。

️三、动态卷积：全局与局部的完美平衡

为解决传统卷积固定核大小的局限，团队提出ContMix（上下文混合动态卷积）：

- 通过区域中心亲和力计算，动态生成包含全局信息的卷积核

- 结合大小核混合设计，同时捕捉长距离依赖与局部细节

- 在高分辨率输入下仍保持线性复杂度

实验表明，ContMix在ImageNet上的有效感受野（ERF）超过基于Transformer和Mamba的模型，同时保留卷积的局部归纳偏置。

️四、性能碾压：刷新SOTA的成绩单

- 图像分类：OverLoCK-T以1/3计算量超越ConvNeXt-B，在384×384分辨率下Top-1达86.2%

- 目标检测：OverLoCK-S在COCO数据集上APb超越MogaNet-B 1.5%

- 语义分割：OverLoCK-T在ADE20K上mIoU提升UniRepLKNet-T 1.7%

️五、核心创新点

1. 深度阶段分解策略（DDS）：

- 解耦概览与细节处理分支

- 通过上下文流动态更新顶层指导信号

2. 动态上下文混合机制：

- 全局信息注入卷积核权重

- 自适应核生成保持计算效率

3. 轻量级架构设计：

- 共享Base-Net减少冗余计算

- 辅助监督提升特征质量

️六、未来展望

OverLoCK的意义不仅在于性能突破，更标志着纯卷积网络的复兴。其高效的全局建模能力为自动驾驶、医学影像等对延迟敏感的领域提供了新选择。团队已开源代码（https://rb.gy/wit4jh），期待更多研究者基于此探索视觉智能的边界。