具有弱标记数据声音的大规模视听学习( 二 )

然后我们训练一个4个隐藏层的深度全连接神经网络(DNN)来识别声音事件。每层的单元数分别为2048、2048、1024、1024、C ，其中C为类数。第一个和第二个隐藏层之后是一个dropout层， dropout率为0.3 。除最后一层使用sigmoid激活外，所有层都使用整流线性单元(ReLU)激活。与音频模型类似，网络使用二元交叉熵损失函数进行训练。
实验
1.Audioset数据集
Audioset是最大的声音事件数据集。该数据集提供了527个声音事件的YouTube视频。每个视频剪辑的长度大约为10秒，由人类注释，带有多个标签，表示视频剪辑中存在的声音事件。每个视频剪辑的平均标签数为2.7 。该数据集被弱标记，因为每个视频剪辑的标签表示声音事件的存在或不存在，但不包含任何时间信息。训练集中声音事件类的分布严重不平衡，从代表最多的类Music的大约100万个视频到代表最少的类Screech的大约120个视频。
2.融合方法的比较
表2总结了结果。音频模型达到38.35mAP和97.12mAUC ，而视觉模型达到25.73mAP和91.30mAUC 。由于任务的性质，预计音频模型优于视觉模型。
表2：结合视听模型的不同融合方法的mAP和mAUC比较

文章图片
音频和视觉输出的平均融合达到42.84mAP ，比音频模型绝对提升4.49mAP（相对：11.7%），比视觉模型绝对提升17.11mAP（相对：66.5%）。回归融合模型比平均融合略有改进：提高了0.26mAP 。 MLP融合模型比平均融合有相当大的改进：提高了2.76mAP 。我们的注意力融合模型实现了46.16mAP ，相对于音频模型，绝对提升了7.81mAP（相对：20.4%）。它还优于所有基线融合方法：比平均融合提高3.32mAP（相对：7.7%）。
3.与最先进技术的比较
表3显示了与Audioset上最先进模型的比较。我们的音频模型略好于Audioset上的最新性能。然而，这是通过多个模型的集成输出获得的，最佳的单个模型性能（与之相比更公平）为38.0 。据我们所知，王等人的工作是唯一在Audioset上报告了声音事件的视觉和视听模型的先前工作。我们的视觉模型比他们提高了6.93mAP（相对：36.8%）。更重要的是，与他们的工作相比，我们的视听模型提高了4.35mAP（相对：10.4%），并在Audioset上设置了新的最新技术。
表3：用于AudioSet上最先进的音频、视觉和视听声音识别模型的mAP和mAUC

文章图片
讨论