Skip to content
Words count
670 字
Reading time
3 分钟

该论文提出了一种名为 PGA-Net (Pyramid Feature Fusion and Global Context Attention Network) 的深度学习框架,旨在实现工业表面的像素级缺陷检测。该网络致力于解决表面缺陷检测中的关键挑战,包括缺陷与背景的低对比度、同类缺陷(intraclass)的外观差异性大,以及不同类别缺陷(interclass)间的高相似性

其核心创新性体现在以下几个方面:

  1. 金字塔特征融合 (Pyramid Feature Fusion, PFF) 模块:

    该模块首先从骨干网络(如VGG-16)的不同阶段提取多层次特征。随后,通过高效的密集跳跃连接 (dense skip connections),将这些包含低级细节和高级语义的特征融合生成五个不同分辨率的特征图。此设计旨在充分利用各层级特征,有效捕获不同尺度的上下文信息,以应对缺陷的尺度和形态变化。

  2. 全局上下文注意力 (Global Context Attention, GCA) 模块:

    该模块被应用于PFF模块产生的相邻分辨率的融合特征图之间 6666。它从较低分辨率(语义信息更丰富)的特征图中提取全局上下文信息,并利用这些信息来加权(指导)较高分辨率(空间细节更丰富)的特征图。这种机制促进了上下文信息从粗糙层级向精细层级的有效传播,有助于提升像素分类的准确性和空间定位的精确性,尤其针对区分相似缺陷类别。

  3. 边界细化 (Boundary Refinement, BR) 模块:

    在GCA模块之后,引入了边界细化块,采用残差结构进一步锐化和修正预测缺陷的边界。

  4. 深度监督 (Deep Supervision):

    网络在PFF产生的五个不同分辨率的输出层上均应用了损失函数进行监督训练 10101010101010。这种多分支监督策略旨在缓解梯度消失问题,加速网络收敛,并提升整体性能 11。最终预测结果由这五个分辨率分支的输出融合而成 12121212。

综上所述,PGA-Net通过结合多尺度特征的金字塔融合、全局上下文注意力引导以及边界细化和深度监督策略,构建了一个能够有效应对复杂工业场景下各种表面缺陷挑战的像素级检测模型。

Contributor

File History

Written with