ceo|爱数智慧CEO张晴晴:中文不是一种语言,而是十三亿种语言( 三 )


针对对话式AI,前面提到的这些现在也跟大家分享一下我们爱数智慧针对对话式AI的数据解决方案。首先我们目前享有全球最大的对话式AI库,这都是经过多维度标签化的,所有数据获取都是完全合规的,从C端获取到了相应授权,我们所有对话数据可以分成国内覆盖有各大方言地区,方言地区以外我们会涉及到双语,比如说中英文混合的语音现象。第二部分就是外语数据,主要考虑的就是英语,比如“一带一路”,外语也会帮助智能化转型的企业出海,帮助大家更快进行底层模型迭代。
除了前面的数据,我们也分别针对不同的场景客户需求,去形成相应标准数据解决方案。这里用一个出行里的智能座舱举例,这也是目前比较火的方向。另外像智能客服和智能营销,这里所有解决方案都是数据维度的,什么样的数据能够在相应的模型优化过程中,很快迭代出一个基础的模型性能。然后是智能家居,这个不赘述了,包括现在也有很多行业客户都在开始考虑智能会议,也是一种类智能社交的应用。
今年4月份的时候,我们开源了数据集,前面提到的这么多数据集分别会拿出一部分的数据放到我们的开源社区MagicHub.io上。最后讲一讲Annotator 5.0智能化标注平台。我们看到在整个数据需求侧,其实市场规模增速也是非常快的,这里核心数据标注的模式主要就是围绕像图像、语音以及文本这三类数据,当然这三类数据在标注过程中也看到一些痛点。
第一类像短视频多模态的数据,需要对很多维度数据进行标注;
第二类标注过程还需要用到大量的人的智力;
第三点是管理过程中如何更高效可视化让大家看到标注的过程有没有什么样的问题以及效率情况;
最后对标注系统进行降本增效。对于这四个部分我们推出了Annotator 5.0智能化标注平台,而发布的系统当中同时发布的是私有化的部署版本以及SaaS版本,这个SaaS版本也会放在我们的MagicHub.io开源社区上,也欢迎大家注册使用。
对于我们四大核心功能针对的四个痛点,分别是多模态的标注、项目可拆分、可视化管理、智能质检和验收等进行相应的优化。核心点大家可以看到我们的右侧这张,基本上是全貌的展示,所有的视频、文本、图片都可以标签化,所有的标签都可以进行配置,大家可以根据各自的需求进行相应的标签配置,包括可视化的呈现,还有包括智能的标注以及智能的审核。
我们的系统预计比市面上的通用版本效率提升50%,私有化部署版本也支持快速一键部署、一键运维。这里进行了SaaS版本和私有版本进行了对比,右边的SaaS版本都可以尝试使用。今年在Q3的时候,SaaS版本和私有化部署版本就会上线,欢迎大家使用和交流。对于我们的系统大家有更多的问题欢迎加我们的社群来进行探讨。
【 ceo|爱数智慧CEO张晴晴:中文不是一种语言,而是十三亿种语言】最后,爱数智慧秉持数据定义智能,我们希望我们定位在数据这个领域,能够为全球人工智能企业和个人提供更高的价值,谢谢大家。