多模态3D理解的新篇章：ULIP (CVPR 2023) 与ULIP-2

Tycho PaperWeekly 2024-01-16

©作者 | Tycho

简要概述

Salesforce AI 近期联手斯坦福大学（Prof. Silvio Savarese，Prof. Juan Carlos Niebles, Prof. Jiajun Wu）和得克萨斯大学奥斯汀分校（Prof. Roberto Martín-Martín），发布了 ULIP（CVPR 2023）和 ULIP-2 项目，这些项目正在引领 3D 理解的新篇章。他们采用了独特的方法，使用 3D 点云、图像和文本进行模型的预训练，将它们对齐到一个统一的特征空间。

论文标题：

ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D Understanding

收录会议：

CVPR 2023

论文链接：

https://arxiv.org/abs/2212.05171

项目主页：

https://tycho-xue.github.io/ULIP/

论文标题：

ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding

论文链接：

https://arxiv.org/abs/2305.08275

代码链接：

https://github.com/salesforce/ULIP

这种方法在 3D 分类任务中取得了最先进的结果，并为跨领域任务（如图像到 3D 检索）开辟了新的可能性。并且 ULIP-2 将这种多模态预训练变得可以不需要任何人工标注，从而可以大规模扩展。代码以及发布的大规模 tri-modal 的数据集（“ULIP - Objaverse Triplets” 和 “ULIP - ShapeNet Triplets”）已经开源。

▲ 对齐（3D，图像，文本）这三种特征的预训练框架示意图。

背景

3D 理解是人工智能领域的重要组成部分，它让机器能像人类一样在三维空间中感知和互动。这种能力在自动驾驶汽车、机器人、虚拟现实和增强现实等领域都有着重要的应用。然而，由于 3D 数据的处理和解释复杂性，以及收集和注释 3D 数据的成本，3D 理解一直面临着巨大的挑战。

方法

ULIP

▲ Tri-modal 预训练框架以及其下游任务。

ULIP（已经被 CVPR 2023 接收）采用了一种独特的方法，使用 3D 点云、图像和文本进行模型的预训练，将它们对齐到一个统一的表示空间。这种方法在 3D 分类任务中取得了最先进的结果，并为跨领域任务（如图像到 3D 检索）开辟了新的可能性。

ULIP 的成功关键在于使用预先对齐的图像和文本编码器，如 CLIP，它在大量的图像-文本对上进行预训练。这些编码器将三种模态的特征对齐到一个统一的表示空间，使模型能够更有效地理解和分类 3D 对象。这种改进的 3D 表示学习不仅增强了模型对 3D 数据的理解，而且还使得跨模态应用如 zero-shot 3D 分类和图像到 3D 检索成为可能，因为 3D 编码器获得了多模态上下文。

ULIP 的预训练损失函数如下：

在 ULIP 的默认设置中，被设置为 0，和被设置为 1。每两个模态之间的对比学习损失函数的定义如下：

▲ 这里 M1 和 M2 指三个模态中的任意两个模态。

ULIP 还做了由图像到 3D 的 retrieval 的实验，效果如下：

实验结果可以看出 ULIP 预训练的模型已经能够学习到图像和三维点云间有意义的多模态特征。令人惊讶的是，相较于其他的检索到的三维模型，第一名检索到的三维模型与查询图像的外观最为接近。例如，当我们使用来自不同飞机类型（战斗机和客机）的图片进行检索（第二行和第三行），检索到的最接近的 3D 点云仍然保留了查询图像的微妙差异。

ULIP-2

▲ 这里是一个 3D 物体生成多角度文字描述的示例。首先，我们从一组视角将 3D 物体渲染成 2D 图像，然后使用大型多模态模型为所有渲染出的图像生成描述

ULIP-2 在 ULIP 的基础上，利用大型多模态模型为 3D 物体生成全方面对应的语言描述，从而收集可扩展的多模态预训练数据，无需任何人工标注，使预训练过程和训练后的模型更加高效并且增强其适应性。

ULIP-2 的方法包括为每个 3D 物体生成多角度不同的语言描述，然后用这些描述来训练模型，使 3D 物体、2D 图像、和语言描述在特征空间对齐一致。这个框架使得无需手动注释就可以创建大量的三模态数据集，从而充分发挥多模态预训练的潜力。ULIP-2 还发布了生成的大规模三模态数据集：“ULIP-Objaverse Triplets”和“ULIP-ShapeNet Triplets”。Table.1 显示了这两个 tri-modal 的 datasets 的一些统计数据。

实验结果

ULIP 系列在多模态下游任务和 3D 表达的微调实验中均取得了惊人的效果，尤其 ULIP-2 中的预训练是完全不需要借助任何人工的标注就可以实现的。ULIP-2 在 ModelNet40 的下游零样本分类任务中取得了显著的提升（74.0% 的 top-1 准确率）；在真实世界的 ScanObjectNN 基准测试中，它仅用 1.4M 参数就取得了 91.5% 的总体准确率，这标志着在无需人工 3D 注释的情况下，实现了可扩展的多模态 3D 表示学习的突破。

消融实验

两篇论文均做了详尽的消融实验。

在“ULIP: Learning a Unified Representation of Language, Images, and Point Clouds for 3D Understanding” 中，由于 ULIP 的预训练框架有三个模态的参与，所以作者用实验探究了究竟是只对齐其中的两个模态好还是对齐所有三个模态好，实验结果如下：

从实验结果中可以看到，在不同的 3D backbone 中，对齐三个模态一致的比只对齐两个模态好，这也应证了 ULIP 的预训练框架的合理性。

在“ULIP-2: Towards Scalable Multimodal Pre-training for 3D Understanding” 中，作者探究了不同的大型多模态模型会对预训练的框架有什么影响，结果如下：

实验结果可以看出，ULIP-2 框架预训练的效果可以随着使用的大型多模态模型的升级而提升，具有一定的成长性。

在 ULIP-2 中，作者还探索了在生成 tri-modal 的数据集是采用不同数量的视角会如何影响整体预训练的表现，实验结果如下：

实验结果显示，随着使用的视角数量的增加，预训练的模型的 zero-shot classification 的效果也会随之增加。这也应证了 ULIP-2 中的观点，更全方位多样性的语言描述会对多模态预训练有正向的作用。

除此之外，ULIP-2 还探究了取 CLIP 排序过的不同 topk 的语言描述会对多模态预训练有什么影响，实验结果如下：

实验结果表明：ULIP-2 的框架对不同的 topk 有一定的鲁棒性，论文中采用了 top 5 作为默认设置。

结论

由 Salesforce AI，斯坦福大学，得克萨斯大学奥斯汀分校联手发布的 ULIP 项目（CVPR 2023）和 ULIP-2 正在改变 3D 理解领域。ULIP 将不同的模态对齐到一个统一的空间，增强了 3D 特征的学习并启用了跨模态应用。ULIP-2 进一步发展，为 3D 对象生成整体语言描述，创建并开源了大量的三模态数据集，并且这个过程无需人工标注。这些项目在 3D 理解方面设定了新的基准，为机器真正理解我们三维世界的未来铺平了道路。

About Us

关于作者

Salesforce AI

Le Xue（薛乐），Mingfei Gao（高明菲），Chen Xing（星辰），Ning Yu（于宁），Shu Zhang（张澍），Junnan Li（李俊男），Caiming Xiong（熊蔡明），Ran Xu（徐然），Juan carlos niebles，Silvio savarese

斯坦福大学

Prof. Silvio Savarese, Prof. Juan Carlos Niebles, Prof. Jiajun Wu（吴佳俊）

UT Austin

Prof. Roberto Martín-Martín

欢迎在 Twitter 上关注我们：@SFResearch @Salesforce。如果您有任何问题或想要进一步了解，可以通过电子邮件联系 Le Xue，邮箱地址为 lxue@salesforce.com。

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

继续滑动看下一个

多模态3D理解的新篇章：ULIP (CVPR 2023) 与ULIP-2

Tycho PaperWeekly

PaperWeekly

向上滑动看下一个

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

这一刻，快乐被具象化了

女高管与男下属上班约会开房，男方妻子闹到单位！被开除后她辩称：一直保持0.46-1.22米“个人距离”

周一004 意甲帕尔马VS卡利亚里【全网最强分析】今日继续拿捏主任！跟上吃肉！昨日推荐早场全收，今日8000倍直接做胆！

错过这轮牛市，等于2000年错过楼市！

多模态3D理解的新篇章：ULIP (CVPR 2023) 与ULIP-2

多模态3D理解的新篇章：ULIP (CVPR 2023) 与ULIP-2

您可能也对以下帖子感兴趣

黄晓菁，这位杭州泰隆银行女员工自爆视频火了，带给我们那些思考？

这一刻，快乐被具象化了

女高管与男下属上班约会开房，男方妻子闹到单位！被开除后她辩称：一直保持0.46-1.22米“个人距离”

周一004 意甲 帕尔马VS卡利亚里 【全网最强分析】今日继续拿捏主任！跟上吃肉！昨日推荐早场全收，今日8000倍直接做胆！

错过这轮牛市，等于2000年错过楼市！

生成图片，分享到微信朋友圈

多模态3D理解的新篇章：ULIP (CVPR 2023) 与ULIP-2

多模态3D理解的新篇章：ULIP (CVPR 2023) 与ULIP-2

您可能也对以下帖子感兴趣

周一004 意甲帕尔马VS卡利亚里【全网最强分析】今日继续拿捏主任！跟上吃肉！昨日推荐早场全收，今日8000倍直接做胆！