rend 渲染思路做图像分割:何恺明等人提出PointRend

机器之心
机器的心脏报告
参与:魔王、一鸣
脸书公平实验室再次创新了图像分割算法,这次使用了图像渲染的思想。该算法可以集成为一个神经网络模块,显著提高了Mask R-CNN和DeepLabV3的性能。

实例分割是计算机视觉任务中的一项重要任务。传统的示例分割方法输入图像,预测图像的每个像素,推断像素所属的实例标签,并区分属于不同实例的像素。然而,现有方法可能会过度计算平滑像素点的边界,从而导致在应该具有清晰连续边界的实例边缘处出现错误的像素点。为了解决这个问题,何等人提出了一种新的实例分割方法来优化解决这个问题。
提到何恺明,读者们都不会陌生。近年来,他在语义分割和实例分割领域做了很多开创性的工作,用来提升分割效果。例如,在实例分割方面提出全景分割的方法,在语义分割上则提出了效果惊人的 TensorMask。最近,Alexander Kirillov、吴育昕、何恺明等又从计算机渲染的角度出发,提出了一个名为 PointRend 的方法,更好地提升图像分割过程中的平滑性和分割细节效果。
这种方法会对现有的网络架构产生很大的影响吗?研究人员表示,这种方法可以作为现有图像分割架构的一个模块。他们在Mask R- CNN和DeepLabV3模型上进行了测试,性能明显提升,计算能力很小。

本文的作者包括我们熟悉的何和,他们曾多次合作进行一些研究。除此之外,还有罗斯·吉尔西克,他曾与何合作过《TensorMask》等论文。
论文地址:https://arxiv.org/pdf/1912.08193.pdf
这篇论文的具体方法和效果是什么?机器的心脏编译了它。
引言
图像分割的任务包括将从规则网格采样的像素映射到同一网格上的标签映射。对于语义分割任务,标签图表示每个像素的预测类别。在案例分割任务中,每个检测到的对象都需要预测二值前景背景图像。这些任务中使用的方法基本上基于卷积神经网络。
用于图像分割任务的 CNN 通常基于规则网格运行:输入的是图像像素的规则网格,隐藏表征则是基于规则网格的特征向量,而输出则是基于规则网格的标签图。规则网格很方便,但在计算方面对图像分割而言未必完美。这些网络预测的标签图应当是基本平滑的,即邻近的像素通常使用同一个标签,因为高频区域限制在对象之间的稀疏边界。
常规网格可能会对平滑区域进行过采样,而对对象边界进行欠采样。以这种方式,在平滑区域中执行过度计算,这使得预测结果的轮廓模糊。因此,图像分割方法通常基于低分辨率规则网格预测标签,例如语义分割任务中的1/8输入或实例分割中的28×28,作为欠采样和过采样之间的折衷。

图1:使用点渲染执行实例分割和使用传统方法之间的比较。传统方法分割时,图像分辨率低,分割效果差。
数十年来,计算机图形学领域研究了很多类似的采样问题。例如,渲染器将模型映射到点阵图像,即像素的规则网格。尽管输出是基于规则网格的,但计算并不按照网格来均匀分配。常见的图形学策略是,对图像平面中被自适应选择点的不规则子集计算出像素值。例如, 中的典型细分技术获得了类四叉树采样模式,从而高效渲染出抗锯齿的高分辨率图像。
遵循类似的思路,何等研究者在研究中将图像分割作为一个渲染问题,利用计算机图形学中的经典思想高效地“渲染”出高质量的标签地图。研究人员将这一思想实现为一种新的神经网络模块——点趋势,它使用细分策略自适应地选择一组非均匀点,然后计算标签。PointRend可以被合并到公共实例分割元架构和语义分割元架构中。其细分策略使用比直接密集计算少一个数量级的浮点运算,高效计算高分辨率分割图。

推荐阅读