机器学习|Bengio 终于换演讲题目了!生成式主动学习如何让科学实验从寻找“一个分子”变为寻找“一类分子”?( 三 )
因此,在本文中,我们专注于将给定的正奖励或回报函数转换为生成策略的特定机器学习问题,该策略以与回报成正比的概率进行采样。在上面提到的应用中,我们只在生成一个候选后才应用奖励函数,即除了终端状态外,奖励为零,返回的是终端奖励。我们处于 RL 所谓的情节环境中。
我们的方法将给定状态下分配给动作的概率视为与节点为状态的网络相关联的流,而该节点的输出边是由动作驱动的确定性转换。进入网络的总流量是终端状态(即分区函数)中奖励的总和,可以显示为根节点(或开始状态)的流量。我们的算法受到 Bellman 更新的启发,并在流入和流出每个状态的流入和流出流量匹配时收敛。选择一个动作的概率与对应于该动作的输出流成正比的策略被证明可以达到预期的结果,即采样一个终端状态的概率与其奖励成正比。
此外,我们表明由此产生的 RL 设置是离策略的;即使训练轨迹来自不同的策略,只要它有足够大的支持,它也会收敛到上述解决方案。本文的主要贡献如下:
? 我们提出了 GFlowNets ,这是一种基于流网络和本地流匹配条件的非归一化概率分布的新生成方法:进入状态的流必须匹配输出流。
? 我们证明了 GFlowNets的关键特性,包括流匹配条件(许多训练目标可以提供)与生成的策略与目标奖励函数的匹配结果之间的联系。我们还证明了它的离线特性和渐近收敛性(如果训练目标可以最小化)。此外,我们还证明了Buesing 等人之前(2019 年)将生成过程视为一棵树,当存在许多可导致相同状态的动作序列时,该工作将失败。
? 我们在合成数据上证明了从寻求一种回报模式,而是寻求对整个分布及其所有模式进行建模的有用性。
? 我们成功将 GFlowNet 应用于大规模分子合成领域,并与 PPO 和 MCMC 方法进行了对比实验。

文章插图
我采用这种方法的动机之一,是在因果发现的背景下发现良好的因果模型和对观察的良好解释。在这些环境中,我们拥有一个 oracle,或一个黑匣子,或现实世界,或一个实验装置,我们可以对它进行查询,进行试验,或者可以尝试输入 x 的一些配置。
这些输入是查询 x,它们进入这个黑匣子,然后我们得到一个输出 f(x)。f 是一个标量,是我们选择的 x 的好坏指标。例如,一种分子的某个性质有多好?答案一般通过实验分析得到。我们不知道 f 里面发生了什么,但我们想找到 f 的高值。也就是说,我们想找到使得 f 很大的 x。更一般地说,我们希望获得大量好的解决方案。
这里还涉及到一个“多样性”的概念,以及一个“探索”的概念,因为我们将能够通过许多路由多次查询该 oracle。
最初,当我们不太了解 f 时,我们更多处于探索模式。我们将尝试不同的 x 值,并让学习器对 f 内部发生的事情有所了解。在这些过程即将结束时,从而获得有限信息时,我们可能更多处于强化学习的“利用”模式
基于池的主动学习
因此,这种方法与强化学习之间存在联系,但也存在差异,并与主动学习有关。经典的主动学习,也称为基于池的主动学习(Pool-based Active Learning),就是这样工作的。我们有一个像上述一样的 oracle,它是一个从输入 x 到某个标量的函数。我们也有一个例子池 s,我们不知道答案,并希望调用 oracle 来找出答案。
- 36氪首发|烹饪机器人公司「智谷天厨」获数千万元天使轮融资,羲融善道独家投资
- 网友热议|母亲回应3个孩子2个上清华:只能教孩子做人诚实守信 学习都靠自己努力
- 机器人|华为机器人新专利上线 网友:先有华为后有天开上鸿蒙如升仙
- 金字塔是时间机器?用途是拉伸和压缩时间,或能使生命延长和衰老
- 第六届全省中小学生互联网+机器人设计活动决赛顺利结束
- “文旅机器人小i”上岗
- 文旅机器人“小i”来了
- 如何评价扫地机器人离家出走一事?
- 李飞飞团队将ViT用在机器人身上,规划推理最高提速512倍
- 格力电器|不要再说Python难了,按照这个学习路线,四周速成Python
