SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation笔记

2021/11/19 6:41:41

本文主要是介绍SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation笔记,对大家解决编程问题具有一定的参考价值,需要的程序猿们随着小编来一起学习吧!

SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation笔记

点云初学者,有理解错误的欢迎提出。

简述

问题:对原始点云进行全标注的成本过于高昂。

目的:设计一种方法能够在点云上对无标签的点进行自动标注【即:伪标签】。

基本流程:

  1. 使用一个 normal-based graph cut 方法对ScanNet数据集进行mesh的过分割(over-segmentation);相较于2d图像面临遮挡和亮度变化的影响,点云数据中不同物体之间有着明显的边界,此特性非常有益于过分割;最后每一个instance可能会被分割成多个segment。(文中指出:虽然有些属于不同instance的部分会被错误合并到一个segment,但是影响不大

  2. 进行seg-level标签标注。

    在每个instance上选一个点进行标注。有两种情况:

    1. 同一个instance被分割成若干个相连的segment
    2. 同一个instance被分割成多干个不相连的segment

    标注策略:情况1,选出最具代表性的segment标注(最大块或最中心),情况2:对每个相连的segments,选一个最具代表性的segment标注。

    image-20211118225502904

    最后平均每个场景仅需要1.93分钟的时间进行seg-level标签标注,归功于过分割仅需对场景0.03%的点进行人工标注就可得到大约29.42%的标签。

  3. 将带有初始标签的训练数据送入Seg-Group网络生成伪标签。

  4. 将含有伪标签的训练数据输入一个point-level的网络(别人的)进行语义分割,最后在此网络的实验结果上进行性能评价。

核心the location of instance 对于3d场景的语义分割任务具有重要价值。

SegGroup

\[\large \begin{eqnarray} M^l&&:&&第l层的输入节点数(即:segment数)\\ C^l&&:&&第l层的节点的输入特征维度\\ M^{l+1}&&:&&第l层的输出节点数(M^{l+1}\le M^l)\\ C^{l+l}&&:&&第l层节点的输出特征维度\\ \vec{h}^l_i&&:&&第l层节点i的特征向量\\ e^l_{ij}&&:&&第l层节点i和j之间的相似度系数(i和j在图中是相连的)\\ a^l_{ij}&&:&&可以看成是边的权重\\ \mathcal{N}^l_i&&:&&第l层节点i的一阶邻域内的节点\\ C^l_{mlp}&&:&&Feature \ Extractor提取的特征维度 \end{eqnarray} \]

初始要构建一个图(Graph),假设:a single instance 的所有 segment 是相连的。

以每个 segment 为图中节点,如果在过分割结果中两个segment是毗邻的的,则在Graph中二者之间存在一条边,边的权重\(a^l_{ij}\)由以下公式计算:

\[\large \begin{eqnarray} e^l_{ij}=&&exp(-\lambda||\vec{h}^l_i-\vec{h}^l_j||_2)\\ &&\lambda>0,如果节点i和j得相似度越高则e_{ij}越大\\ 归一化得:&&\\ a^l_{ij}=&&\frac{e^l_{ij}}{e^l_{ii}+\sum_{k\in \mathcal{N}^l_i}e^l_{ik}} \end{eqnarray} \]

整个Seg-Group网络可以分为三个组件:一个 Structural Grouping 和两个 Semantic Grouping。Structural Grouping和Semantic Grouping相比后者多了一个Graph Conv,故介绍Semantic Grouping即可,基本流程图如下:

image-20211118235325502

  1. Feature Extractor

采用EdgeConv来获得每个segment的特征,每个Feature Extractor的输出维度是64维。Structural Grouping里面的Feature Extractor有点不同,首先对每个segment进行FPS采样得到64个点,再对这64个点归一化至一个球体,每个点的特征是xyz+RGB,输入网络然后每个segment进行最大池和平均池,二者拼接得到一个128维的特征向量【存疑,后面两个Grouping Layer的Feature Extractor是怎么实现的】

  1. Graph Conv

本质上就是GCN,只是公式的表述形式不同

  1. Clustering

一共有四个Clustering操作,看SegGroup网络图就可以看出。前三个Clustering的目的和采用的算法是一样的,设置一个阈值,如果这一个有标签的segment和一个没有标签的segment在Graph中是相连的且二者特征向量的欧氏距离小于设定的阈值;则把没有标签的segment与有标签的segment合并。最后一个Clustering不设置阈值,对每个没有标签的segment计算它与一阶邻居segment的欧式距离,选出值最小的那个labelled segment的标签赋予其自身。

网络如何训练(存疑)

SegGroup网络图里面的K应该等于初始有标记的segment数,不过最后为何是(K,1)而不是(K,类别数)看不懂。

训练完SegGroup就得到训练数据的伪标签。可视化结果如下。

image-20211119010336955

补充

弱监督

来自:关于弱监督学习,这可能是目前最详尽的一篇科普文

简介:

image-20211118235824146

全景分割与实例分割的区别

【图解AI】什么是语义分割、实例分割、全景分割



这篇关于SegGroup: Seg-Level Supervision for 3D Instance and Semantic Segmentation笔记的文章就介绍到这儿,希望我们推荐的文章对大家有所帮助,也希望大家多多支持为之网!


扫一扫关注最新编程教程