rend 渲染思路做图像分割:何恺明等人提出PointRend( 三 )


逐点表示和 Point Head
点渲染通过结合两种特征类型来构建选定点的逐点特征。
实验:实例分割
表1比较了默认4x卷积头在点渲染和遮罩R-CNN中的性能。在COCO和Cityscapes数据集上,PointRend的性能超过了Mask R-CNN的默认头部。
【rend 渲染思路做图像分割:何恺明等人提出PointRend】
表1:1的性能对比:点渲染vs屏蔽R-CNN默认4×卷积屏蔽头。
细分推断策略使用的浮点数和内存是默认 4×卷积 head 的 1/30 不到,但它让 PointRend 能够获得高分辨率预测结果,见下表 2。PointRend 忽略对象中粗粒度预测就已足够的区域,从而在计算量大幅减少的情况下输出与 Mask R-CNN 框架一样的高分辨率结果。

表2:224×224输出分辨率掩码的浮点数和激活计数。
下表 3 展示了在不同输出分辨率和每个细分步骤不同选择点数量的情况下,PointRend 的细分推断性能。

表3:细分推理参数。
预测更高分辨率的掩码能够改进结果。尽管 AP 饱和,但当输出分辨率从低到高时,视觉上的提升仍然很明显,参见图 7。

图7:7:点渲染的抗锯齿效果。
表 4 展示了 PointRend 在训练过程中使用不同点选择策略时的性能。

表4:不同选点策略在训练中的表现,每个包围盒中有142个点。
下表 5 展示了 PointRend 和基线的对比情况,PointRend 性能超过基线模型,且基线模型的训练时间比 PointRend 长,模型规模也比 PointRend 大。

表5:基线模型和点渲染之间的性能比较。基线模型比点渲染大,训练时间是点渲染的3倍。
实验:语义分割
下表6显示了DeepLabV3和DeeplabV3+PointRend之间的比较。

表6: Deepplabv3+Pointrend在城市景观的语义分割上优于基线Deepplabv3。
在 res_4 阶段使用空洞卷积可以将推断时的输出分辨率提升二倍,参见 。与之对比,PointRend 具备更高的 mIoU。定性提升也非常明显,参见图 8。

图8:模型在Cityscapes样本上的实例分割和语义分割结果。
通过自适应地采样点,PointRend 对 32k 个点执行预测,并达到了 1024×2048 的分辨率,参见图 9。

图9:语义分割任务中Pointrend的推理。
下表 7 展示了,在 8 倍和 4 倍输出步幅变化的情况下,SemanticFPN+PointRend 的性能较 SemanticFPN 有所提升。

表7: SemanticFPN+PointRend在Cityscapes语义分割任务中优于基线语义FPN。
_原题是:《Ross、何恺明等人提出PointRend:渲染思路做图像分割,显着提升Mask R-CNN性能》

推荐阅读