四时宝库

程序员的知识宝库

CVPR'24开源!超亿个! 超大规模3D识别数据集3DCOMPAT++

来源:3D视觉工坊

添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群

论文题目:3DCOMPAT++: An improved Large-scale 3D Vision Dataset for Compositional Recognition

作者:Habib Slim, Xiang Li, Yuchen Li,等

作者机构:Department of Computer Science, KAUST, Thuwal, Saudi Arabia等

论文链接:https://arxiv.org/pdf/2310.18511.pdf

数据链接:https://3dcompat-dataset.org/v2/

这项工作介绍了3DCOMPAT++数据集,这是一个包含超过1亿个渲染视图的多模态2D/3D数据集,涵盖了超过1千万个样式化三维形状,以及它们在部件实例级别上的精心注释。数据集包括了匹配的RGB点云、3D纹理网格、深度图和分割掩模。3DCOMPAT++涵盖了41个形状类别、275个细粒度部件类别和293个细粒度材料类别,可以构成地应用于三维对象的部件。研究引入了一个新任务,名为Grounded CoMPaT Recognition(GCR),旨在集体识别和定位三维对象部件上的材料组成。此外,研究还报道了在CVPR会议上组织的数据挑战的结果,展示了获胜方法的使用情况,该方法利用了一个修改过的PointNet++模型,训练在6D输入上,并探索了GCR增强的替代技术。

本文介绍了3DCOMPAT++数据集,这是一个用于研究物体形状、部件分割和材料兼容性的大规模数据集。数据集包含了丰富的样本,提供了细粒度和粗粒度的部件分割信息,以及材料兼容性信息。作者还提出了一个新的任务,即Grounded CoMPaT Recognition (GCR),旨在从给定的3D形状中预测对象类别、所有部件类别以及每个部件的相关材料。通过这个任务,研究人员可以评估模型对物体组合的理解能力。在实验部分,作者展示了在2D和3D数据上进行形状分类和部件分割的结果,并讨论了基线方法在这些任务上的表现。总体来说,本文提出的数据集和任务为研究者们提供了一个丰富的资源,可以用来推动物体形状和材料兼容性方面的研究。

这篇论文介绍了一个名为3DCOMPAT++的新数据集,该数据集是一个丰富注释的多模态2D/3D大规模数据集,旨在研究3D物体部件上的材料组成。数据集包括了1千万个样式化的3D形状,涵盖41种形状类别、275种细粒度部件名称和43种粗粒度部件名称,以及来自13种材料类别的293种独特材料。每个形状都从8个视角渲染,每个部件有1000种样式,总共渲染了1亿6千万个视图。数据集提供了2D渲染、深度图、部分掩码和材料掩码,以及2D和3D模态中的分层部件和材料注释。

与先前的工作相比,该数据集具有以下几个关键方面的不同之处:

(a) 数据集由人工创建,具有高质量的纹理和几何体;

(b) 提供了部分分割信息,包括2D和3D模态;

(c) 着重于使用适当的纹理坐标、纹理和材料对3D形状进行样式化;

(d) 所有注释都是人工生成的,而不是自动生成的。

此外,论文介绍了一项新任务,即CoMPaT识别,旨在集体识别和定位构成3D物体的部件材料组合。作者还提出了两种任务变体,并利用2D/3D最新方法作为此问题的基线。

本文的贡献为:

  • 提出了一个包含1千万个样式化模型的新数据集,用于研究3D物体部件上的材料组成。数据集包含了(a)一组多样化的用于3D形状的293种材料,其中(b)材料分配是在粗粒度和细粒度部分级别进行的;(c)2D和3D分割掩码,以及(d)经过人工验证的纹理坐标。

  • 通过涵盖2D和3D视觉任务的实验来验证数据集,包括对象分类、部分识别和分割、材料标记和形状生成。

  • 还提出了Grounded CoMPaT Recognition (GCR),一项新颖任务,旨在集体识别和定位3D物体部件上的材料组成。我们为这个问题提出了两个变体,并利用2D/3D最新方法作为基线。

3DCOMPAT++数据集是一个多模态2D/3D数据集,基于与工业合作伙伴合作收集和注释的艺术家设计的3D CAD模型。该数据集包含了1万个几何形状,这些形状在细粒度部件实例级别进行了注释和分割,并提供了每个注释部件的材料兼容性信息。每个形状提供了来自规范和随机视点的8个渲染视图,以及每个渲染视图的深度图、部分图和材料图。所有注释都由经过训练的注释者提供,遵循严格的多阶段审查流程。这个数据集为研究3D物体部件上的材料组成提供了丰富的注释和多样的数据,可用于各种2D和3D视觉任务的研究和开发。

2.1 数据集

该数据集提供了丰富的3D和2D数据,用于研究3D物体部件上的材料组成。对于每个样式化形状,提供了部分分割的纹理3D网格、RGB点云和点级别的部分和材料注释。部分分割信息提供了粗粒度和细粒度的语义级别。RGB点云可以根据可用的纹理3D网格以任意分辨率重新采样。每个形状都从8个视点渲染,包括4个规范视点和4个随机视点。规范视点均匀分布在形状周围,而随机视点则均匀采样于形状包围盒中心的上半球面。每个2D图像都伴随有部分分割掩码、材料掩码和深度图,并提供了相应的相机参数。部分分割掩码和材料掩码提供了粗粒度和细粒度的语义级别。这些数据可以用于各种2D和3D视觉任务的研究和开发。

2.2 数据收集流程

这部分介绍了一种基于点云的机器人抓取轨迹优化方法中的目标达成代价函数。在抓取轨迹优化中,需要生成机器人从当前关节配置到目标配置的轨迹,以抓取目标对象。通过将机器人末端执行器的姿态表示为一组3D点,可以定义一个目标达成成本函数来衡量机器人姿态与抓取目标之间的距离。这个成本函数利用点云匹配损失函数,通过最小化两组经过齐次变换的点云之间的距离来实现。与传统方法相比,这种方法不需要调整旋转和平移之间的权重,因此更简单且具有更好的通用性。

2.3 粗细粒度语义

3DCOMPAT++提供了两个层次的语义级别:粗粒度和细粒度,用于部件和材料的注释。部件层次结构中,细粒度部件类别是根据特定形状类别的手动定义命名法确定的,而粗粒度部件语义是根据形状类别特定的细粒度部件类别分组而成。粗粒度语义级别大大简化了形状的组合结构,而细粒度语义级别提供了对形状组合更详细的描述。材料层次结构中,粗粒度材料对应于13个高级材料类别,每个类别包含属于该类别的细粒度特定材料。总体而言,这些层次结构提供了一种更高级别和更详细的描述形状组合和材料的方式,为形状理解和分析提供了更多的信息和可能性。

2.4 渲染场景

每个形状都在相同的场景中渲染,使用单一方向光和围绕形状放置的三个区域光。为了确保形状始终在统一的白色背景上渲染,将样式化的形状放置在一个白色的卵形表面内。投影的阴影只出现在放置形状的z = 0平面上。在渲染深度图和掩模时,将背景表面从场景中移除。所有图像均以256x256的分辨率渲染,并且2D图像以PNG格式编码。深度图存储在OpenEXR格式中,以容纳到图像平面的绝对距离,这些距离用浮点值表示。视点。每个样式化的形状从多个视角进行渲染:4个规范视角和4个随机视角。首先将每个形状平移到z = 0平面之上。相机视点在球坐标(?,θ)中定义,其中原点设置为形状的边界框的中心。相机围绕原点oc旋转?和θ。规范视点均匀分布在形状周围,固定高程θ。然后依次增加基础球角?的值,并保持θ固定为0度,以获得四个规范视点。随机视点从平面上方的半球均匀采样。每个视图的相机参数在球坐标中定义(?,θ),并记录为外部和内部相机参数,并与渲染的图像一起提供。

2.5 工具箱

提供了一套工具,支持加载和可视化3DCOMPAT++数据。主要包括以下内容:

  • Python API:基于PyTorch和WebDataset,方便加载数据。

  • Web浏览器:用于在粗细粒度语义级别上浏览3D形状和部分标注。

  • 文档和笔记本:帮助使用数据集的文档和示例。

所有这些工具都可以在3DCOMPAT++网站上找到。

这篇论文的实验部分主要包括了形状分类和分割实验,以及立体组合识别(GCR)任务的实验。以下是实验内容的详细总结:

  • 形状分类:使用2D渲染和3D XYZ点云进行实验,评估在数据集上进行形状分类的难度。采样分辨率为2048点,所有方法都是从头开始训练200个时代。对于2D分类,使用预训练在ImageNet上的ResNet模型微调30个时代。最终,在2D渲染中,使用ResNet-50达到最高的Top-1准确率为90.20%;在3D点云中,使用CurveNet达到85.14%的准确率。

  • 部分分割:使用点云和2D渲染进行3D部分分割实验,评估在数据集上进行此任务的难度。提供了细粒度和粗粒度3D部分分割的结果。报告了点级准确度(与形状无关)和mIOU。在细粒度设置下,CurveNet在没有使用形状先验的情况下达到了53.09%的形状无关mIOU;在粗粒度设置下,CurveNet达到了76.32%的形状无关mIOU。

  • GCR任务:这个任务旨在理解给定3D形状的完整部分-材料组合。包括预测对象类别、所有部分类别以及每个部分的关联材料。定义了一系列评估指标,如形状准确度、值、全值、地面值和地面全值等。实验中使用了两种基于融合的基线方法,以评估在数据集上执行GCR任务的性能。最终的获胜方法是基于修改后的PointNet++模型,仅使用3D点云作为输入,在粗粒度设置下达到了58.99%的Grounded-value-all准确度。

总的来说,实验结果表明,在这些任务中取得高性能是具有挑战性的,特别是在细粒度的任务中。这些实验为未来的多模态模型的组合理解能力提供了重要的基准。

3DCOMPAT++是一个包含10M个样式化模型的大规模数据集,涵盖了10000个3D形状,跨越了41个物体类别。该数据集提供了3D形状、细粒度和粗粒度语义级别的部分分割信息以及材料兼容性信息,可以为同一形状的部分分配多个高质量的PBR材料。此外,该数据集还引入了一个新的任务,称为Grounded CoMPaT Recognition (GCR),并提出了解决这些任务的基线方法。未来,可以通过3DCOMPAT++提供的丰富数据探索其他任务,如3D部分感知形状合成、从2D视图进行3D部分感知重建和3D部分样式转移。

本文仅做学术分享,如有侵权,请联系删文。

3D视觉工坊交流群

目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉大模型工业3D视觉SLAM自动驾驶三维重建无人机等方向,细分群包括:

2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等

大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等

工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。

SLAM视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。

自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。

三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等

无人机:四旋翼建模、无人机飞控等

除了这些,还有求职硬件选型视觉产品落地最新论文3D视觉最新产品3D视觉行业新闻等交流群

添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉工坊知识星球

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等


发表评论:

控制面板
您好,欢迎到访网站!
  查看权限
网站分类
最新留言
    友情链接