博物馆|在杭州,我们逛了一家“数据博物馆”
鱼羊 博雯 发自 凹非寺 报道 | 公众号 QbitAI你可能打卡过很多博物馆,但我敢说“数据博物馆”,肯定不在此列。上百个开源数据集是展品,其中不乏来自电商、文娱等互联网领域的真实场景数据,更有来自工业、医疗等领域的产业稀缺数据。还吸引了中国科学院国家天文台台长常进院士、创新工场首席科学家周明博士、阿里巴巴集团副总裁贾扬清、阿里巴巴青橙奖获得者王权等学者大咖纷纷前往围观。不仅如此,“博物馆”还组织了一系列数据青年团聚活动,邀请青橙奖获得者、阿里星学长、技术KOL,与青年开发者畅聊《如何选择第一个工作》《AI的未来发展趋势与行业前景》等热门话题。你或许想不到,这家“博物馆”是由阿里云天池在今年的杭州云栖发起。
文章插图
没错,就是那个“奖金丰厚”、“直通大厂”、“还能结♂识AI大神”,人称“中国数据类赛事第一品牌”的天池平台。不过现在,你可不能仅仅把它看作一个刷简历的平台了。阿里云天池平台开起了“博物馆”,这究竟是怎么一回事?什么是“数据博物馆”?答案还得从现场获取。
文章插图
最吸引眼球的“展品”,当数行业大规模开源数据集。不仅数量多达上百个,还覆盖零售、文娱、工业、医疗、自然科学等数十个行业。既有来自真实业务场景的商品数据,也不乏跟产业界、学术界深入合作获得的宝贵科研数据。更厉害的是,基于这些数据集产出的学术论文,已经有超过700篇。
文章插图
具体详情,我们不妨选取其中几个“经典款”,一起看个究竟。比如新零售领域数据集,就有阿里淘系技术开源的家居行业数据集3D-FRONT,包含超过20,000张高清室内场景专业设计渲染图,可用于场景布局预测与生成等研究课题。该数据集填补了业内大规模高质量3D场景布局标准数据集的空白,也因此获得了中国计算机图形学大会颁发的首个「图形开源数据集奖」。
文章插图
再比如文娱数据集方面,服务于产业的视频数据集同样不少。曾应用于“MEDIA AI阿里巴巴文娱算法挑战赛”的Youku-TED数据集,共包含近3,000小时的55,000段视频,标注了含53类事件类别的近30万段视频事件。作为一个大规模的视频时序事件检测数据集,正是展开智能生产、视频智能剪辑、生产安全监控、视频内容检索等热门应用研究的基础。
文章插图
更多方面,还有用于检测钢铁、布匹、酒瓶、瓷砖瑕疵的工业领域数据集,涉及遥感、气候、天文等领域的自然科学类数据集,以及医疗、交通、安全、数字城市等领域的数据集,都在开源列表之中。值得一提的是,天池平台还广泛和外部机构合作,开放多个行业/学术benchmark。像是由阿里达摩院、天池平台,以及浙江大学联合推出的MUGE榜单,就是一个用于多模态理解和生成评估的基准,这也是国内首个多模态方向的基准数据集。
文章插图
如此大批量的开源数据集,确实不负“数据博物馆”之名。那么这些精品数据集又是从何而来?阿里云开发者业务总监王一婷介绍,一方面,他们会与业务团队共建自有数据集;另一方面,天池主动与工业、学术界合作,产出大量高质量脱敏数据集;此外,平台还支持用户共享数据集,共同推动科研数据集开源生态的建设。而这正是阿里云天池今年重磅升级之后,启动的大规模数据开源计划。天池大动作为哪般?又是来自真实行业大批量数据集的开源,又是建立行业benchmark,阿里云天池到底图什么?众所周知,对于数据挖掘/机器学习这些学科,高质量数据集可以说是必不可少的生产资料。但以高校学生为代表的青年AI开发者,很难接触到大量真实有效的数据,因此也就很难快速提升自身技术实践能力。而与真实业务场景的脱节,带来的问题还不止于此。比如,学界和业界在研究目标上往往不同。学界可能更加关注一些确定条件下的确定指标,而业界则会从成本和收益的角度去思考问题。在云栖大会期间举办的天池数据青年团聚上,达摩院算法专家罗浩博士就谈到:翻译模型准确率指标从70%提升到80%,在学界是足以发表论文的优秀成果,但对于产业界,就算一百句话都只翻错了一两个单词,还是需要人工全部重译,利润提升不大。
- meta|促进更逼真AR/VR体验,Meta正在开发全新空间音频工具
- 在昨日推文中,王者荣耀将以“____文化”为主题推出限定皮肤,为乡村振兴加油? 王者荣耀6月28日每日一题答案
- ColorOS|绿厂又在憋大招?新系统和新产品接踵而至
- 零售业|确定涨价!iPhone14四款新机全面涨价!国行也在其中!
- 数字化转型|新一代iPad Pro正在路上 外观、配置大升级
- 月球也在太阳系的宜居带中,为何不能产生生命?原来个头太小了
- 在南极3500米的深海,科学家发现新物种,这是个透明的肉球?
- 新发现恐龙可能在灾难性的太空岩石撞击地球之前就已经灭绝了
- 中美科学家在琥珀中发现1亿年前的虱子,它们以恐龙羽毛为食
- 为什么现在很少有人提及“克隆技术”了?“克隆技术”有何缺点?
