这个CV数据集生成器火了,支持13类CV任务,DeepMind等打造丨开源
萧箫发自凹非寺量子位|公众号QbitAI
这年头 , AI玩家们想找到合适的图像数据集 , 简直是越来越难了 。
不仅数据参差不齐 , 合适的数据也难找(如光流图、深度图等) 。
为了解决这些问题 , 来自谷歌、MIT、DeepMind、MILA和剑桥大学等的34名研究人员 , 联手打造了一个名叫Kubric的数据集生成器 , 不仅能自己渲染 , 而且图像效果也非常真实 。

文章图片
不仅各种图像数据都能做 , 像语义分割、深度图或光流图这种“特殊数据”都能一键生成:

文章图片
还能控制渲染的 , 渲染出的视频可以达到以假乱真的效果:

文章图片
据作者们表示 , 目前Kubric支持的数据类型生成 , 效果也不比用已有数据集训练出来的差 。
这样的一个数据集生成器 , 到底要怎么上手?
先来看看这个Kubric数据集生成器究竟是个啥 。
简单来说 , 它有点像是一个专为图像AI打造的“数据车间” , 基于跨平台开源物理引擎和3D图像渲染软件打造 。

文章图片
其中 , PyBullet给用户提供了一个模拟3D物体运动的平台 , 例如两个球之间的弹性碰撞参数就可以用它来模拟 。 (当然 , 除了PyBullet以外 , 也可以扩展到其他物理引擎如MuJoCo上)
Blender则是一个渲染3D动画的平台 , 但它的优势在于操作方便 , 而且既可以做出照片级逼真的渲染图像 , 也可以输出3D动画效果 。 (例如有设计师拿它设计服装纹理)
可能这时候你会问 , Kubric相比自己手动渲染视频或图像数据集 , 方便在哪?
除了11个基础3D模型以外:

文章图片
还内置了GoogleScannedObjects(GSO)室内家具物品数据集中的一系列模型 , 以及包含背景、光照、材料纹理等参数的Polyhaven数据集 , 还有ShapeNet数据集等(包含55种常见的物品类型及51300个3D模型) 。
也就是说 , 如果你对渲染不太了解 , 也能利用内置的数据库快速生成想要的图像 。
, 省去了将渲染图像转成特殊数据(如深度图、光流图)、或是额外收集如视场、相机参数、光照等数据的麻烦 。
这也使得Kubric支持生成13类CV任务所需的图像数据 , 具体包括等 。

文章图片
没错 , 即使这些生成的图像中有2D也有3D类型 , 需要的数据量也从MB到TB级别不等 , 但Kubric都能满足 。
嗯 , 作者们还专门针对各种视觉任务 , 用Kubric生成的数据集一个个试了试 , 强调“用他们生成的数据集效果更好” 。

文章图片
△Kubric生成的光流图
那么 , 这样的数据集生成器究竟要怎么用呢?
作者提供了一些简单的操作流程 。
在安装之后 , 第一步就是创建默认场景:

文章图片
然后 , 再通过这两步 , 分别创建一块地板、和一个球体(也可以换成其他形状):

文章图片
接下来就是在场景中加一个照明 , 以及渲染摄像头采集图像:
- 创业|八成互联网电视非法采集用户数据, 彩电企业怎么办?
- 新书推荐 │ 大数据算法设计与分析
- 往宇航员的血管里种藻类,科学家这个想法太疯狂,来看结果怎么样
- 和真的几乎一样,这个仿生蜻蜓,要实现《沙丘》里的扑翼机了
- |大家都说iPhone好看,其实可能对这个品牌更喜欢才对
- 甩掉字幕看韩剧!只需要这个操作就够啦!
- 云厂商为什么都在冲这个KPI?
- |一招教你入门数据可视化!
- 固态硬盘|PCI-E 4.0新选择,西部数据WD_BLCK SN770固态硬盘体验
- 原神|原神:说好数据互通的,为什么自己不能用电脑玩?多数人都没注意
