机器学习|Bengio 终于换演讲题目了！生成式主动学习如何让科学实验从寻找“一个分子”变为寻找“一类分子”？( 四 )

文章插图

所以在主动学习的每个阶段，学习器都会主动提出问题。而在传统的机器学习中，我们只是观察一组例子，然后从中学习。
在这里，除了已有的例子，我们还可以提出问题。例如，“对于一张图片，正确的标签是什么？”这就是主动学习。
这种方法的问题在于，在许多情况下，我们并没有一组固定的x配置。相反，我们希望能够在高维空间中提出任何问题，但这又可能遭遇指数爆炸。
我们从主动学习文献中学到的重要教训是如何选择这些查询，这里的基本思想是：我们想要估计预测变量f的不确定性。换句话说，对于要估计的函数，我们希望选择能够提供尽可能多信息的问题。
正如我所说，基于池的主动学习的问题是无法穷举，例如，无法穷举所有的分子，然后只需查询那些具有高不确定性的分子。我们需要以某种方式处理数量呈指数级增长的可能问题。
生成式主动学习
所以，我提议遵循的原则是生成式主动学习（Generative Active Learning），这是本次演讲最重要的内容，当学习器可以选择其希望现实世界提供答案的问题时，应该进行哪些实验？

文章插图

在高维空间中，一个不错的方案是：训练一个生成模型，该模型将对好问题进行采样。
要怎么训练这个模型呢？首先，我们观察现实世界，然后提出一些问题，接下来进行一些实验，将这些实验结果加载到一个数据集中。
因此，有了该数据集，我们就可以进行传统的机器学习方法。我们可以学习一个模型，比如给定 x 预测 y，我们也可以使用该模型来筛选潜在问题。
根据该模型，如果我们发现一个问题得分很高，比如很高的不确定性，那么这可能是一个好问题。
正如我所说，困难在于潜在的问题太多了。因此，仅凭预测候选实验的好坏程度是不够的，所以我们要训练这个生成模型。不过，我们将以一种与通常的生成模型不太相同的方式来训练它。
通常的训练生成模型的方式是利用一组固定的例子。但在这里，我们有一个由世界模型计算的函数，它会告诉我们特定的实验有多大用处。我们将采用这种特殊的方式来训练生成模型，寻找生成具有高f值的配置。
【机器学习|Bengio 终于换演讲题目了！生成式主动学习如何让科学实验从寻找“一个分子”变为寻找“一类分子”？】可能有很多方法可以做到这一点，但如果目标不仅仅是优化，而是找到不同的好的解决方案，那么合理的做法就是将分数换算。接下来，我们将基于世界模型获得一种奖励函数，使得生成模型不是最大化奖励，而是获得具有高回报的样本问题。

文章插图

因此，以与奖励成正比的概率对它们进行采样。可以定义任何我们想要的奖励，那么这个解决方案就合适了。但现在有一个数学问题：如何将奖励函数转换为生成模型，使得这个生成模型可以以与该奖励函数成正比的概率进行采样？
原则上，我们可以将该函数写下来。P_T(x) 是从生成模型中采样的概率，应该等于 R(x) ，即对所有可能的奖励进行归一化。但归一化是很困难的，这是我们首先遇到的问题。概率工具箱中有一个工具原则上可以做到这一点，它被称为蒙特卡罗马尔科夫链。
唯一的问题是，在这些高维空间中，对于我们通常关心的数据类型，这种 MCMC 方法可能非常慢，事实上，由于所谓的模式混合挑战，很难真正找到一组多样化的解决方案。