具有弱标记数据声音的大规模视听学习( 二 )
然后我们训练一个4个隐藏层的深度全连接神经网络(DNN)来识别声音事件 。 每层的单元数分别为2048、2048、1024、1024、C , 其中C为类数 。 第一个和第二个隐藏层之后是一个dropout层 , dropout率为0.3 。 除最后一层使用sigmoid激活外 , 所有层都使用整流线性单元(ReLU)激活 。 与音频模型类似 , 网络使用二元交叉熵损失函数进行训练 。
实验
1.Audioset数据集
Audioset是最大的声音事件数据集 。 该数据集提供了527个声音事件的YouTube视频 。 每个视频剪辑的长度大约为10秒 , 由人类注释 , 带有多个标签 , 表示视频剪辑中存在的声音事件 。 每个视频剪辑的平均标签数为2.7 。 该数据集被弱标记 , 因为每个视频剪辑的标签表示声音事件的存在或不存在 , 但不包含任何时间信息 。 训练集中声音事件类的分布严重不平衡 , 从代表最多的类Music的大约100万个视频到代表最少的类Screech的大约120个视频 。
2.融合方法的比较
表2总结了结果 。 音频模型达到38.35mAP和97.12mAUC , 而视觉模型达到25.73mAP和91.30mAUC 。 由于任务的性质 , 预计音频模型优于视觉模型 。
表2:结合视听模型的不同融合方法的mAP和mAUC比较
文章图片
音频和视觉输出的平均融合达到42.84mAP , 比音频模型绝对提升4.49mAP(相对:11.7%) , 比视觉模型绝对提升17.11mAP(相对:66.5%) 。 回归融合模型比平均融合略有改进:提高了0.26mAP 。 MLP融合模型比平均融合有相当大的改进:提高了2.76mAP 。 我们的注意力融合模型实现了46.16mAP , 相对于音频模型 , 绝对提升了7.81mAP(相对:20.4%) 。 它还优于所有基线融合方法:比平均融合提高3.32mAP(相对:7.7%) 。
3.与最先进技术的比较
表3显示了与Audioset上最先进模型的比较 。 我们的音频模型略好于Audioset上的最新性能 。 然而 , 这是通过多个模型的集成输出获得的 , 最佳的单个模型性能(与之相比更公平)为38.0 。 据我们所知 , 王等人的工作是唯一在Audioset上报告了声音事件的视觉和视听模型的先前工作 。 我们的视觉模型比他们提高了6.93mAP(相对:36.8%) 。 更重要的是 , 与他们的工作相比 , 我们的视听模型提高了4.35mAP(相对:10.4%) , 并在Audioset上设置了新的最新技术 。
表3:用于AudioSet上最先进的音频、视觉和视听声音识别模型的mAP和mAUC
文章图片
讨论
- WPS|WPS比office更好用?为何有公司禁止用WPS?兼容性太弱,广告太多
- CNC加工刀具有哪些? CNC加工刀具的用途
- 支付宝|游戏本难带,轻薄本性能弱?适合上班族学生党的华硕全能本上线了
- 华为|从弱电到华为工程师,我都掌握了哪些网工必备的硬技能
- 研究表明,霸王龙并没有那么凶猛?它们比我们想象的弱很多
- 你有没有遇到过在家信号特别差|中国电信vowifi将有效解决居民住宅区域弱覆盖问题
- 摄像头|“从路由器发现自己被绿?还不止一次?弱弱感受一下!
- 搜索引擎|什么是Schema标记 好处是什么?
- 显卡|核心显卡真香 CPU厂商不甘示弱奔赴平民核显
- 磁吸散热如何选?红魔黑鲨飞智,三家究竟孰强孰弱?
