新闻动态

当前位置: 首页 - 新闻动态 - 科研进展 - 正文

(通讯员 刘家铭)西安电子科技大学协同智能系统教育部重点实验室刘家铭硕士、武越副教授在多媒体领域权威期刊IEEE Transactions on Multimedia (TMM)上发表题为“Inter-Modal Masked Autoencoder for Self-Supervised Learning on Point Clouds”的学术论文。该论文针对点云自监督问题,提出了一种兼容模态内掩码学习和模态间对比学习的框架。

掩码自动编码器(MAE)是最近广泛使用的自监督学习方法,在自然语言处理和计算机视觉领域取得了巨大成功。然而,用于点云理解的掩码预训练的潜在优势尚未得到充分探索。基于MAE的点云使用Transformer架构探索三维空间中的低级几何表示,这对于细粒度解码补全和下游任务来说是不充分的。

受多模态的启发,我们提出了Inter-MAE,一种用于点云自监督学习的跨模态MAE方法。具体来说,我们首先使用Point-MAE作为基线,将点云划分为随机的低比例可见点和高比例掩码点。然后,通过非对称设计和移位掩模操作构建标准的基于Transformer的自编码器,并从可见点中学习潜在特征,旨在恢复掩模点。此外,我们在点云渲染后生成基于ViT的图像特征,与补全点的解码特征形成模间对比学习。大量实验表明,所提的Inter-MAE生成的预训练模型是有效的,并且在各种下游任务中表现出优异的结果。值得注意的是,我们的工作首次确立了将图像模态应用于掩码点云的可行性。

IEEE Transactions on Multimedia是计算机科学和工程技术领域顶级期刊(IF 7.3,中科院一区,Top期刊)。该期刊致力于多媒体技术和多媒体应用研究的各个方面,包括但不限于电路、网络、信号处理、系统、软件和系统集成。

论文链接:https://ieeexplore.ieee.org/document/10262210

上一篇: 实验室公茂果教授、张元侨博士在IEEE TIFS发表论文

下一篇: 实验室李豪副教授、万方高硕士在IEEE TEVC发表论文