机器学习|Bengio 终于换演讲题目了！生成式主动学习如何让科学实验从寻找“一个分子”变为寻找“一类分子”？( 二 )

论文摘要

这篇论文是关于从一系列动作中学习生成对象（如分子图）的随机策略的问题，这样生成对象的概率与该对象的给定正奖励成正比。虽然标准回报最大化趋向于收敛到单个回报最大化序列，但在某些情况下，我们希望对一组不同的高回报解决方案进行采样。
例如，在黑盒函数优化中，当可能有几轮时，每轮都有大量查询，其中批次应该是多样化的，例如，在新分子的设计中。也可以将其视为将能量函数近似转换为生成分布的问题。虽然 MCMC 方法可以实现这点，但它们很昂贵并且通常只执行局部探索。
相反，训练生成策略可以分摊训练期间的搜索成本并快速生成。使用来自时间差异学习的见解，我们提出了 GFlowNets ，基于将生成过程视为流网络的观点，使得处理不同轨迹可以产生相同最终状态的棘手情况成为可能，例如，有很多方法可以顺序地添加原子以生成一些分子图。我们将轨迹集转换为流，并将流一致性方程转换为学习目标，类似于将 Bellman 方程转换为时间差分方法。
我们证明了提议目标的任何全局最小值都会产生一个策略，该策略从所需的分布中采样，并证明 GFlowNets 在奖励函数有多种模式的简单域和分子合成任务上的改进性能和多样性。

引言

强化学习 (RL) 中预期回报 R 的最大化通常是通过将策略 π 的所有概率质量放在最高回报的动作序列上来实现的。在本文中，我们研究了这样一种场景，我们的目标不是生成单个最高奖励的动作序列，而是采样轨迹分布，其概率与给定的正回报或奖励函数成正比。
这在探索很重要的任务中很有用，即我们想从返回函数的前导模式中采样。这相当于将能量函数转化为相应的生成模型的问题，其中要生成的对象是通过一系列动作获得的。通过改变能量函数的温度（即乘法缩放）或获取返回的幂，可以控制发生器的选择性，即仅在低温下从最高模式附近产生或探索更多更高的温度。
这种设置的一个激励应用是迭代黑盒优化，其中学习者可以访问一个 oracle，该 oracle 可以为每一轮的大量候选者计算奖励，例如，在药物发现应用中。当 oracle 本身不确定时，生成的候选者的多样性尤其重要，比如，它可能由细胞检测组成，这是临床试验的廉价代理，或者它可能由对接模拟的结果组成（估计候选者小分子与目标蛋白结合），这是更准确但更昂贵的下游评估（如细胞检测或小鼠体内检测）的代表。
当调用 oracle 很昂贵时（例如涉及生物实验），Angermueller 等人（2020年）已证明在此类探索环境中应用机器学习的标准方法是获取已经从 oracle 收集的数据（例如一组（ x, y) 对，其中 x 是候选解，y 是来自 oracle 的 x 的标量评估）并训练一个监督代理 f（被视为模拟器），它从 x 预测 y。函数 f 或 f 的变体包含其值的不确定性，如贝叶斯优化（Srinivas 等人，2010 年；Negoescu 等人，2011 年），然后可以用作奖励函数 R 来训练生成模型或一项政策，这将为下一次实验测定产生一批候选物。
搜索使 R(x) 最大化的 x 是不够的，因为我们希望为一批查询采样具有高 R 值的一组代表性 x，即围绕 R(x) 的模式。请注意，存在获得多样性的替代方法，例如，使用批量贝叶斯优化（Kirsch 等人，2019）。所提出的方法的一个优点是计算成本与批次的大小呈线性关系（与比较候选对的方法相反，这至少是二次的）。由于可以使用合成生物学对十万个候选物进行分析，线性缩放将是一个很大的优势。