PointNet以及PointNet++学习笔记

0 动机

3D点云数据是一个 $N\times 6$ 的数组， $N$ 是点的个数，6是表示一个点的纬度，即一个3D点表示为 $(x,y,z,N_x,N_y,N_z)$ ，分别是三维坐标和法向量。

点云数据具有无序性。无序性是指，现有一组表示一只狗的点云数据，将该数据输入系统不需要按照固定顺序输入。也就是说，先输入表示头的点和先输入表示尾巴的点，最后的结果都是一样的。

点云是非结构化的数据，直接CNN很难处理。

PointNet的任务就是解决如何对点云数据进行特征提取的问题。

点云数据的无序性本身没有办法改变，那么就需要模型自身不管点云的顺序如何变化都会始终输出相同的结果。也就是模型需要具有置换不变性。

思考这样一个问题，有一个函数 $f(x_1,x_2,...,x_n)$ ，这个函数应该怎样设置，才可以使得变量x的顺序任意变化都不会改变函数的值？

简单的设计有：

f(x_1,x_2,...,x_n)&=&max\{x_1,x_2,...,x_n\}\\ f(x_1,x_2,...,x_n)&=&x_1+x_2+...+x_n)

但是如果直接使用Max函数的话， $N\times 3$ 的点云只能得到 $1\times 3$ 的特征，这显然损失了大量信息和特征。

那么应该怎么改进呢？

可以先对点云数据进行升维操作，再进行Max。也就是将 $N\times 3$ 的点云升维至 $N\times M$ ，然后Max得到 $1\times M$ 的特征。

怎么在神经网络中升维呢？使用多层感知机MLP。

分类网络区域就是1.1节图像的具体版。

语义分割网络区域的一点区别就是，将全局特征与初始升维的点云特征进行拼接，然后对每个点进行mlp处理，即对每个点进行分类。

没有局部特征的融合。局部样本点之间应该是存在某些联系，但是PointNet，并没有考虑这点。

PointNet++的目的就是将局部特征融合进行模型中。

具体分为两步，第一步是怎么选取局部区域，第二步是怎么对局部区域进行卷积操作提取特征。

第一步，选取局部区域。

怎么确定一个局部区域？假设局部区域是一个圆，那么需要知道这个圆的圆心位置，以及圆的半径。

圆心位置怎么确定？

基于一个朴素的思想，那就是用尽可能少的圆来覆盖所有点。于是使用最远点采样选取圆心。

最远点采样的步骤：

随机采样第一个点 $x_1$
计算距离该点最远的点 $x_2$
计算剩余点到采样点的距离 $d_i^j$ ， $j$ 是采样点的索引， $i$ 是剩余点的索引。选择 $\max_i(\min_j(d_i^j))$ 对应的索引 $i$ 的点作为下一个采样点。重复该步骤。

在PointNet++中，只有圆心位置是计算得到的，圆心个数和半径都是预设好的。实际计算中选择多种半径和采样点个数，会使特征更加丰富。

在PointNet++中，这个划分局部区域的操作叫做分组（grouping)。

用数据举个例子：

可以发现128X16明显比1024大。这是因为在分组过程中，有的圆包含的点少于16个，有的圆多余16个。

分组操作强制要求每个圆必须包含16个点。于是不足16个点的圆会复制距离圆心最近的点，直到个数达到16.而多余16个的圆，会根据点到圆心的距离进行排序，选取距离最小的16个点。

至此，圆的圆心、半径、位置、包含点都已经解释清楚。而这些圆就是组，不同半径、个数表示不同尺度的组。

按照之前的例子，组的数据结构可以写作 $\text{batch}\times 128\times 16\times 6$ 。这和正常用于卷积的图像 $\text{batch}\times H\times W\times C$ 貌似没什么区别。

于是使用卷积对组进行特征提取：

进行维度变换，卷积中第二位是channel，而PointNet++将点的坐标特征当作channel。于是将组变为了 $(\text{batch}\times \text{features}\times \text{nsample}\times\text{npoints})\text{batch}\times 6\times 16\times 128$
进行卷积，（例如：in=6，out=64），则提取出的特征就是 $\text{batch}\times 64\times 16\times 128$ 。这与MLP的升维操作类似
对于每个组，只需要一个特征，于是使用PointNet的max操作处理16个点，使得特征变为 $\text{batch}\times 64\times 128$