ceo|爱数智慧CEO张晴晴：中文不是一种语言，而是十三亿种语言( 二 )

第二个部分讲一下对话式AI，时间关系对于一些细节部分做一个大体介绍，对于对话式AI来讲核心是完成人和机器的交互，这个过程人会发出语音，我们会通过语音识别的方法，把语音转化成相关的文字，机器的内部需要对文字进行理解以及意图的识别，识别完之后机器会给一个回馈，回馈会使用语音合成的方式，将回馈的内容播报出来，这样就完成了人机交互。
我们看到语音识别、语音合成、自然语音理解这三者是我们的技术核心，这三者在语音交互和对话式落地时有明确特点。中国人说普通化，很多时候我们都有当地特色的口音，这种口音会使得语音识别的性能变得不好，听不懂你在说什么。在语音合成里的客服场景也会用到，我们希望机器播报出来的声音有情感，听上去像真人一样，但是这个部分目前感觉声音还不够真实，还是比较机械的，也是需要提高的。
第三部分是自然语言理解，机器理解人说话的目的和意图，并拆解出来做相关的动作。这里面最大的点是我们人类说话表达的方式真的差异化很大，中国有13亿人口，我们会认为每一个人的表达方式都是特殊的，所以中文不是一个语言，从某个意义上来讲是13亿的语言，对于13亿语言我们怎么去理解它？这部分也是非常大的挑战。
对于这三类来看，我们刚刚提到是需要大量的数据来去不停优化我们的三个核心算法，这里也有做过统计，发现现在对于人工智能的性能提高来讲，95%的收益是来自于数据，也就是说使用什么样的数据，比如刚刚说口音不好识别，那使用针对性的口音优化，你的识别率就会明显提升。
而对于数据来说，其实就是AI的原油，就像人类开车的汽油也是从原油加工之后最后可以使用的汽油。对于数据也是同样，我们获取原始的数据就是将日常交流当中的原始声音送到模型里迭代优化，这个过程还是要经过一步一步标准的处理和清洗，这个过程叫做数据结构化，根据不同行业场景的需求，行业性的解决方案也会不同。
结构化的质量其实也决定了智能系统的性能，比如刚刚说到的什么样的数据清洗用于这一次模型迭代的优化？这会影响模型最后输出的效果。除此以外还有最重要的一点就是数量，对于数据在AI领域也有一句话叫做“No data is not more data”。
我们看到随着横坐标的数据数量增加，纵坐标上识别的性能也会有明显的增加，而这张图里两个黑点，对比的是上面的黑点，对于一些科技互联网公司来说所增加的数据量级。我们会看到对于行业在和科技互联网公司比较过程中，数据增量上还是有差距，更多行业的数据还在等待被挖掘。数据量也是决定智能系统的上限。
这里刚刚提到更多的数据带来性能的优化，大家可能会想问，投入是无止境的吗？其实投入也是有技巧的，新开的一个功能从零开始搭建底层基础数据集，这投入成本是蛮大的事情。考虑到整个的发展，包括我们要兼具模型的通用性，我们会使用数据二八原则，即所有数据80%是共性的，20%会根据不同客户企业需求定制开发，以下我们通过一个类别来解释。
左侧这张图是假设了一个场景和一个企业，设备商会优化四个功能点，每一个功能点如果全部进行定制的数据采集和标注，我们会看到其实在ABCD这四个点上，每一个功能点都需要一千小时的数据，也就是四千小时数据量作为总投入，每个功能点上享有的只是一千小时。右侧这四个功能点我们会认为底层很多的能力是可以复用的。
比如说我们想要解决四川话或上海话的方言问题，这里底层80%的数据是复用的，每个功能拿出20%数据做定制，根据功能点进行数据采集和标注，我们会看到其实总的投入量有1600小时，分到每一个功能点上可以享有2000小时的训练量，你的投入更小，获取的收益就会更大。除了ROI的对比以外，在数据基础的投入情况下，我们也会看到有更多其他的优势，其中非常重要就是考虑数据合规性的问题。