【论文笔记】Neural Implicit Embedding for Point Cloud Analysis
创始人
2025-05-30 03:04:21

原文链接:https://ieeexplore.ieee.org/document/9156568

1. 引言

  本文提出点云的一种新表达,它封装了点云的局部信息,且对坐标系变换、缩放和排列具有鲁棒性。如下图所示,其关键思想是将点云实例的隐式函数嵌入神经网络中,并将神经网络的权重作为点云的特征。
在这里插入图片描述

  首先将点云转换为隐式函数,即距离场。通过将固定采样点数的“采样球”(图中黑色圆圈)放置在每一个点上来获取距离场。每个采样球的距离场均被嵌入一个神经网络,使得隐式表达具有排列不变性。所有网络的权重(图中βi\beta_iβi​)被拼接为矩阵,作为点云的表达。使用极端学习机(ELM)来嵌入距离场,以比较不同实例的网络权重。
  该表达由局部嵌入网络的权重组成,通过改变网络成分并对齐距离场,可对坐标变换和缩放具有不变性。尺度不变性是通过ELM的ReLU激活函数实现的;坐标不变性则是通过使用采样点的标准坐标实现的,这一标准坐标是通过将标准空间(由每个实例的距离值分布决定)与距离场对齐得到的。
  本文提出的点云表达只需要简单的神经网络,因此可以减少训练时间。

3. 方法

  本文的方法包含两个步骤:点云到隐式表达(即距离场)的转换以及隐式表达的网络嵌入。

3.1 隐式表达:距离场

  选择距离场作为隐式表达的原因有两点:距离场具有点的排列不变性、距离是与尺度协同变化的(能实现表达的尺度不变性)。
  给出由nnn个表面点p∈R3p\in \mathbb{R}^3p∈R3组成的点云PPP,采样点x∈Xx\in Xx∈X在周围空间内的距离函数ϕ\phiϕ被定义为ϕ(x)=min⁡p∈P∣∣x−p∣∣\phi(x)=\min_{p\in P}||x-p||ϕ(x)=p∈Pmin​∣∣x−p∣∣  实际中,本文将采样球放置在点云PPP的每一个表面点上,每个采样球内包含mmm个采样点xxx,这mmm个采样点xxx在所有点云实例采样球中的位置是相同的。球内采样点的坐标被归一化为相对球心的坐标,从而归一化球内的距离函数为ϕPi(x)=min⁡p~∣∣xi−p~∣∣\phi_{P_i}(x)=\min_{\tilde{p}}||x_i-\tilde{p}||ϕPi​​(x)=p~​min​∣∣xi​−p~​∣∣其中p~=p−pi\tilde{p}=p-p_ip~​=p−pi​是表面点相对于第iii个表面点pip_ipi​(即球心)的归一化坐标。
  在采样球和目标形状被旋转后,采样点的坐标改变了,但球内的距离场保持不变。
  采样球的半径与包含整个点云的球的半径相关。若形状是局部的或是开放的,则假设点云密度均匀,将采样球的半径定义为每个点到其kkk近邻点的距离均值。

3.2 隐式表达的参数化

  对每个表面点ppp,将其距离场嵌入神经网络,从而使网络权重能够捕捉采样球内的距离信息。常规的神经网络可以进行多种权值组合(各层权重同时被优化)。为进行权重比较,需要将它们嵌入到相同的度量空间中,因此本文使用极端学习机(ELM)。

简单来说,极端学习机就是特殊的前馈网络,不同之处在于:

  1. 仅需优化最后隐藏层到输出层的权重,其余权重可随机设置并在训练时固定;
  2. 隐藏层到输出层的权重通过解析计算确定,而非迭代优化。

因此,实际上ELM在训练和测试过程中就表现为一个固定的函数。

在这里插入图片描述
  本文使用3层的ELM,其中输入层到隐藏层的权重被固定为WWW(如上右图所示),仅优化隐藏层到输出层的权重β\betaβ。ELM的输入为采样点到球心表面点的归一化位置X∈Rm×3X\in\mathbb{R}^{m\times3}X∈Rm×3;ELM的训练目标是返回采样点到点云PPP中最近点的距离ΦPi(X)\Phi_{P_i}(X)ΦPi​​(X)(如上左图所示),目标函数为:βi∗=arg min⁡βi∣∣ΦPi(X)−βiTf(WXT+b)∣∣F2\beta^\ast_i=\argmin_{\beta_i}||\Phi_{P_i}(X)-\beta_i^Tf(WX^T+b)||_F^2βi∗​=βi​argmin​∣∣ΦPi​​(X)−βiT​f(WXT+b)∣∣F2​其中fff是非线性激活函数,W∈Rk×3W\in\mathbb{R}^{k\times3}W∈Rk×3和b∈Rkb\in\mathbb{R}^kb∈Rk是随机权重和偏置。为求取权重β\betaβ,仅需求取H=f(WX+b)H=f(WX+b)H=f(WX+b)的伪逆,得到β∗=H†ΦP(X)\beta^\ast=H^\dagger\Phi_P(X)β∗=H†ΦP​(X),或更鲁棒地,得到βi∗=(cI+HTH)−1HTΦPi(X)\beta_i^\ast=(cI+H^TH)^{-1}H^T\Phi_{P_i}(X)βi∗​=(cI+HTH)−1HTΦPi​​(X)其中ccc为常数,为反应尺度,将其设置为采样点XXX的方差。这样可以得到与XXX的排列顺序无关的唯一解β∗\beta^\astβ∗。
  本文将所有ELM的WWW固定为相同的正交随机矩阵,则权重β\betaβ由距离场决定。利用ELM的这一特性,每个采样球能得到唯一的权值β\betaβ。

3.2.1 固定WWW

  固定WWW的原因除了前面提到的固定权重β\betaβ的度量空间以外,还能提高计算效率。因为采样点在采样球内的位置是固定的,即XXX固定,则当WWW固定时,H=f(WX+b)H=f(WX+b)H=f(WX+b)及其伪逆(cI+HTH)−1HT(cI+H^TH)^{-1}H^T(cI+HTH)−1HT在整个数据集中均只需要计算一次,而非对每个采样球单独计算。
  为了同时计算所有采样球对应的拼接权重β\betaβ,需要将各采样球的距离场拼接为矩阵,从而β∗=(cI+HTH)−1HTΦP(X)\beta^\ast=(cI+H^TH)^{-1}H^T\Phi_P(X)β∗=(cI+HTH)−1HTΦP​(X)其中ΦP(X)∈Rm×n\Phi_P(X)\in\mathbb{R}^{m\times n}ΦP​(X)∈Rm×n,β∗∈Rk×n\beta^\ast\in\mathbb{R}^{k\times n}β∗∈Rk×n,nnn为采样球的数量。

3.3 实现坐标和尺度不变性

  可以通过修改ELM的输入和激活函数来使ELM权重β\betaβ具有坐标和尺度不变性。

3.3.1 坐标不变性:标准投影

  本文将距离场投影到4D规范空间上,以实现旋转不变性。引入采样矩阵X=[x1,x2,⋯,xm]T∈Rm×3X=[x_1,x_2,\cdots,x_m]^T\in\mathbb{R}^{m\times3}X=[x1​,x2​,⋯,xm​]T∈Rm×3和对应的采样距离向量ΦP(X)=[ϕ(x1),ϕ(x2),⋯,ϕ(xm)]T∈Rm\Phi_P(X)=[\phi(x_1),\phi(x_2),\cdots,\phi(x_m)]^T\in \mathbb{R}^mΦP​(X)=[ϕ(x1​),ϕ(x2​),⋯,ϕ(xm​)]T∈Rm,拼接为M=[X,ΦP(X)]M=[X,\Phi_P(X)]M=[X,ΦP​(X)]。对MMM使用奇异值分解(SVD)得到M=USVTM=USV^TM=USVT  由于SVD的结果存在符号模糊性,本文使用所有符号排列来转换数据。准备一个元素均为1或-1的向量ccc,以其为对角线构造对角矩阵CCC,记VˉT=VTC\bar{V}^T=V^TCVˉT=VTC。
  若令Mˉ=MVˉ\bar{M}=M\bar{V}Mˉ=MVˉ,其中Vˉ\bar{V}Vˉ是将数据矩阵投影到4维规范空间的矩阵。该投影根据距离场的方差将距离场对齐到唯一的姿态上,如下图所示。
在这里插入图片描述
  本文使用所有可能的符号排列来解决符号模糊的问题。ELM的输入为Xˉ=XVˉx\bar{X}=X\bar{V}_xXˉ=XVˉx​(其中Vˉx∈R3×4\bar{V}_x\in\mathbb{R}^{3\times4}Vˉx​∈R3×4为Vˉ\bar{V}Vˉ的前3行),即采样点投影到4D规范空间中的坐标。输入中移除了距离向量来避免平凡解。
  为高效求取Vˉx\bar{V}_xVˉx​,本文放置一个包含整个点云实例的全局球体,用于对齐全局距离场到一个唯一的姿态。对齐后再在表面点上放置采样球。

3.3.2 尺度不变性:ReLU激活函数

  本文利用ReLU函数的尺度可交换性(即ReLU(sx)=sReLU(x)\text{ReLU}(sx)=s\text{ReLU}(x)ReLU(sx)=sReLU(x))实现尺度不变性。通过移除3.2节第一式中的偏置项bbb并令f=ReLUf=\text{ReLU}f=ReLU,可得:β∗=arg min⁡β∣∣ΦP(X)−βTf(WXˉb)∣∣F2\beta^\ast=\argmin_{\beta}||\Phi_{P}(X)-\beta^Tf(W\bar{X}_b)||_F^2β∗=βargmin​∣∣ΦP​(X)−βTf(WXˉb​)∣∣F2​其中Xˉb∈Rm×(4+1)\bar{X}_b\in\mathbb{R}^{m\times(4+1)}Xˉb​∈Rm×(4+1)为添加1列偏置的Xˉ\bar{X}Xˉ,该偏置是通过计算Xˉ\bar{X}Xˉ各值的标准差得到的。
  下面证明尺度不变性。假设输入Xˉb\bar{X}_bXˉb​的缩放因数为sss(相应缩放ΦP(X)\Phi_P(X)ΦP​(X)),故上式近似为sΦP(X)≈β∗Tf(WsXˉb)=sβ∗Tf(WXˉb)s\Phi_P(X)\approx\beta^{\ast T}f(Ws\bar{X}_b)=s\beta^{\ast T}f(W\bar{X}_b)sΦP​(X)≈β∗Tf(WsXˉb​)=sβ∗Tf(WXˉb​)消去等式两端的sss可知网络权重β∗\beta^\astβ∗不变。其它满足尺度可交换性的函数也可作为本文的激活函数。

4.实验

  网络结构类似PointNet,如下图所示。
在这里插入图片描述

4.1 分类精度

  本文使用ModelNet10/40数据集。为和其余方法公平比较,首先将CAD模型归一化为0均值并包含在单位球内,再均匀采样固定数量的表面点。然后为每个表面点准备一个采样球并训练一个ELM,将数据转换为ELM的权重。
  实验表明本文的方法在所有基于点云的方法中表现很好。为点的特征附加法向量和点的坐标能提升性能,但不再有尺度不变性。
  添加噪声作为通常的数据增广方式,在本文方法中会带来性能下降,这可能是由于ELM的使用已经包含了一定的误差,与为点云添加噪声是等价的。

4.2 相关元素对嵌入的影响

  分别改变ELM权重WWW的维度kkk,采样球的半径和采样点的数量mmm进行实验:当三个值均很小时性能较差,但增大它们会使性能先达到峰值,然后略微下降。这可能是因为节点很少的ELM不能捕捉太多的信息。
  此外,注意到本文的模型很简单,能够大幅降低训练时间。

4.3 对表面点数量的鲁棒性

  将点云进行子集采样进行实验,性能仅略有下降,表明距离场对原始点云密度的鲁棒性。

4.4 规范嵌入的影响

  训练集不适用数据增广,对测试集进行随机旋转:实验表明增大旋转角度会使其余方法有严重的性能下降,而本文方法仅因为旋转带来的采样噪声而性能略有下降。若在训练时使用随机旋转数据增广,其余方法仅有很小的性能提升,因为物体姿态有无穷多种。进一步对测试数据进行缩放,其余方法的性能会进一步下降,而本文方法能保持性能。

4.5 点云分割

  使用ShapeNetCore Part数据集。分割头的输入为ELM权重与池化后的全局特征相拼接的结果。
  与基于PointNet的系列方法相比,本文方法有最高的mIoU。注意本文提出的表达可与点云坐标拼接,因此可以直接插入许多复杂模型。

5. 结论

  本文的模型训练分两步:第一步是ELM的无监督训练(生成距离场作为监督);第二步是具体任务相关模型的训练(常规训练方法)。注意测试数据也会进行第一步训练。
  之前的许多方法未考虑旋转不变性,会在重力方向未知时失效。此外本文的方法无需通过数据增广考虑物体各种可能的姿态,而是将形状信息处理到一个统一的参数空间中。

相关内容

热门资讯

汽车产业已经有“恒大”了?价格... 中国汽车产业即将迎来重大考验!近日,以直率著称的长城汽车董事长魏建军在接受媒体专访时,发出惊人警告:...
九牧的三重跃升:新场景、新智造... AI时代,中国卫浴加速征战世界。文 | 华商韬略 熊剑辉当上过春晚的宇树人形机器人,化身“礼仪小姐姐...
限流|限流算法 一、概念限流顾名思义,就是对请求或并发数进行限制;通过对一个时间窗口内的...
浙江金融反腐风暴:工行浙江分行... 靴子落地。5月30日,据中央纪委国家监委驻中国工商银行纪检监察组、辽宁省纪委监委消息:中国工商银行浙...
四年前收购的一家公司,如今要上... 这位实控人四年前收购了个企业,现在就准备让公司在港交所上市了!5月29日,港交所官网披露,江苏日御光...
美的集团董事长方洪波:小米进入... 5月30日,美的集团(000333.SZ、00300.HK,简称美的)董事长兼总裁方洪波在美的集团2...
产品研发利好引发连日大涨 舒泰... 新京报贝壳财经讯(记者丁爽)5月30日,舒泰神再度大涨收场。至当日收盘,公司股价涨15.02%,报2...
sql 标准的隔离级别 事务并发执行时遇到的一致性问题脏读(Dirty Read)如果一个事务读...
【读书笔记】电子商务 目录1,四种业务模式2,三种电商模式2.1 运营模式:“流...
5月收官,个股平均涨5%!机构... A股5月收官,全月大盘维持震荡,概念题材热点飞速轮动。今年的5月并不是“5穷”,两市5000余只个股...
说到底,钱生钱就这4个办法|小... 点击 “简七读财” ,发送消息“理财小工具”免费领取40个赚钱工具资源包~晚上好呀~不少朋友吐槽,...
一杯咖啡3块钱,“外卖补贴”带... 本文来源:时代周报 作者:孙艺格 图源:库迪咖啡官网1元的超大杯奶茶、1.68元的美式咖啡、2.6...
中国联塑创始人之子上任执行董事... 一则人事变动,让国内管道建材头部企业中国联塑集团控股有限公司(以下简称“中国联塑”)受到关注。中国联...
谷粒学院SpringSecur... 登录功能前端分析前端会调用此接口去实现登录// 登录export function login(us...
【基于协同过滤算法的推荐系统项... 本文目录1、推荐系统的关键元素1.1 数据1.2 算法1.3 业务领域1.4 展示信息2、推荐算法的...
公告精选丨中国交建:拟以5亿元... 今日焦点中国交建:拟以5亿元-10亿元回购公司A股股份中国交建公告称,公司拟不低于5亿元,不超过10...
javascript数组常用方... 数组对于程序语言的重要性自不必多说,而在使用javascript的时候难免也会需要用到...
SpringBoot学习--基... 本专栏主要记录SpringBoot学习之路 文章目录1 SpringBoot基本介绍1.1 官方文档...
重组停牌!渤海汽车拟购海纳川旗... 5月30日,渤海汽车(600960.SH)发布公告称,公司拟通过发行股份及支付现金的方式,购买北京海...
Spring学习(五) 事物管理: 一、事物管理的回顾: 1、事物的概念: 事物&...
java线程同步 并发:同一个对象被多个线程同时操作处理多线程问题时,多个线程访问同一个对...
代码审计(二) 一、DevSecOps的概念DevSecOps 是描述开发、安全和运营集成的术语。它是一种文化、自动...
西安高新“楼市新政”,一场“教... 第 2302期〡2025/05/30西安各区域的土地市场和区域价值或将重新洗牌。上周,西安高新区一份...
603023,下周复牌!正式摘... 2025.05.30本文字数:855,阅读时长大约2分钟5月30日,*ST威帝公告称,公司股票将于2...
第十章 STM32+ESP82... 前言 最近有不少小伙伴私信留言,想要我推出一章能够通过APP进行远程控制并获取传感器信...
试题 算法训练 逗志芃的暴走 问题描述   逗志芃是有妹子的现充,但是有时候妹子就是烦恼。因为逗志芃太逗了ÿ...
德邦证券董事会改组完成,山东财... 山东财金集团披露,5月29日,德邦证券在济南召开2025年度第一次临时股东会,会议选举产生公司新一届...
法网:郑钦文2-0胜资格赛黑马... 北京时间5月30日,2025赛季网球大满贯法国公开赛继续进行,在女单第三轮的一场比赛中,赛会8号种子...
宗馥莉接手父亲名下娃哈哈实业公... 天眼查App显示,近日,浙江娃哈哈实业股份有限公司发生工商变更,宗庆后卸任法定代表人、董事长、总经理...
北交所上市公司恒拓开源大宗交易... 每经讯,2025年5月30日,北交所上市公司恒拓开源(834415,收盘价:17.83元)发生一笔大...