术致科技

您现在的位置是:首页 > 建站 > 正文

建站

google pr值(谷歌大脑又出来PR文了)

术致建站2023-01-06建站653
雷锋网AI科技评论按:继前段时间在arxiv上贴出《OneBigNet》之后,近日JurgenSchmidhuber和来自谷歌大脑的DavidHa又放了一篇大标题论文:世界模型(World

雷锋人工智能技术点评。com:不久前,谷歌大脑的Jurgen schmidhub和David HA在arXiv上发布了“一个大网”后,最近发布了另一篇大标题论文:世界模型。但与上次一致的批评不同,这次几乎所有人都认为内容很好。例如,在reddit上,人们的声音类似于这样:

google pr值(谷歌大脑又出来PR文了)

或者也有这样的声音:

那么这篇文章在谈论什么呢?简单地说:为代理建立一个内部世界模型,这样它就可以在没有外部输入的情况下从自己的内部世界学习(比喻地说,它可以通过做梦来学习)

必须说,这是模仿人类学习的另一种情况。基于我们有限的感官(视觉、听觉、嗅觉等),我们人类在头脑中建立了一个心理世界模型,这是我们做出判断和决定的基础。当我们清醒时,我们不断地通过视觉、听觉和其他感觉系统输入信息,并根据我们的心理世界模型做出决策和行动;当我们入睡时,我们关闭了感觉系统,但我们仍然可以在梦中“学习”为了处理日常生活中流经我们的大量信息,我们的大脑抽象地表示这些信息的时空维度。我们可以观察一个场景并记住它的抽象描述。另一方面,我们在任何时刻的感知实际上都是由大脑内部的心理模型对未来的预测决定的,那么我们如何理解大脑的预测模型呢?事实上,这不仅仅是为了预测未来,而是为了预测给定当前运动行为的未来感官数据。当我们处于危险中时,我们可以本能地采用这种预测模型,进行快速反思行为,而无需有意识地制定行动计划,以棒球为例。棒球击球手只有几毫秒的时间来决定如何挥拍,这实际上比眼睛发出的视觉信号到达大脑所需的时间要短;击球手能够击球的原因是我们可以本能地预测球何时何地出现。对于职业球员来说,所有这些都是潜意识里发生的。他们的肌肉根据内部心理模型预测的结果,在正确的时间和地点挥动球棒。所有这些都不需要有意识的规划,因为人类认知的这一特征,事实上,一些人很早就尝试建立类似的模型(1995年至2015年)。本文的意义在于,它使用一个简化的框架,通过实验展示了这些研究的一些关键概念,并提出了进一步的改进思路,这些改进思路有效地应用到强化学习环境中。说到强化学习,RL算法往往会遇到信用分配问题的瓶颈,因此,传统的RL算法很难学习具有数百万权重的大型神经网络。因此,在实践中,为了在训练过程中快速迭代出好的策略,通常使用小型网络。在本工作中,作者重点训练一个大型神经网络来处理RL任务,并将agent分为大世界模型和小控制器模型。首先,作者以无监督的方式训练大型神经网络来学习agent世界模型;然后训练较小的控制器模型,以使用以前的世界模型来执行任务。该方法保证了控制器模型的训练算法能够在较小的搜索空间内关注信用分配问题,而不会牺牲大世界模型的容量和表达能力。此外,作者构建的模型甚至可以在自己的世界模型生成的“梦”中完全训练agent,并将训练效果传递回实际环境。agent模型的结构如下:

具体来说,其可视化模型选择了变分自动编码(VAE):

其内存RNN选择了混合密度网络和RNN的组合(mdn RNN):

sketchrnn是mdn RNN的一个例子,它可以预测草图的下一个笔划。类似的模型用于预测下一个隐藏向量Z。控制器(c)模型负责确定要采取的行动,以最大化环境中代理的预期回报。在实验中,作者特意选择了最简单的c:

,其中m和B分别是权重矩阵和偏移向量。上述三种模型的组合如下:

作者首先通过赛车实验对模型进行了测试。实验过程如下:

在这场比赛中,agent可以控制三个动作:左转/右转、加速和刹车。实验结果如下:

如果只有视觉模型(V)-

如果视觉模型(V)和记忆模型(m)-

在100次测试中,该模型的平均得分显著高于之前的一些模型,当然,它比之前的模型要高。因为这个世界模型可以模拟未来(也就是说,给定当前状态,它可以生成下一次的概率分布)因此,如果这被视为一个真实的观察值,这意味着代理可以自己“想象”一个假想的比赛场景,并在这种错觉中学习,那么在梦中学习的经验是否可以转移到实际环境中?我们需要看下一个实验,在这个游戏中,房间另一端的怪物会发射火球。代理需要学习的是如何避免这些火球,以防止被杀

维兹杜姆实验的过程与赛车实验的过程基本相同,但存在一些差异。首先,V不仅在开始时对一些视频进行编码,而且还将m预测的特征向量转换为整个“幻想”期间的可见图像。其次,m不仅需要预测下一时刻的特征向量,还需要预测agent的死/活状态。实验过程如下:

应该强调的是,在这里,代理除了收集的原始图像数据之外什么都没有。它将学习如何在自己的梦中模拟游戏的基本规则,如游戏的逻辑、敌人的行为、身体特征等。例如,如果一个代理在其幻想游戏中向左移动太远,它必须学会防止自己移动到与真实游戏仙境不同的两侧墙之外,仙境中有许多不确定因素。例如,您可能会看到火球沿着随机路径移动,或者代理莫名其妙地死亡,因此您无法解释原因。以下是梦中训练的一个好结果:

将这个代理在梦中应用到实际的游戏环境中,我们发现它令人惊讶地好。在100轮随机测试中,平均存活帧率为1100,远远超过了获胜750的要求,然而,作者在实验中也发现了一个bug。我们知道,当我们年轻的时候,虽然我们知道投掷的物体会掉落,但我们仍然会想象一些不切实际的超级英雄可以在空中飞行。原因是我们可以完全控制我们的精神世界,我们可以随意创造任何我们想要的东西。同样,在这个模型中,由于控制器可以访问M的所有隐藏状态,这本质上授予代理访问所有内部状态的权限,所以它可以直接操纵这些隐藏状态以最大化预期回报。例如,在梦境学习中,这些虚拟怪物不再发射火球,因此无论代理如何移动,他们都会得到很高的分数。然而,当这些训练结果在实际环境中进行测试时,就会发现代理很快就会死亡。这类似于白日做梦,无论你做多少,你都不会在现实生活中成功。在上述实验中,任务相对简单,因此可以使用随机策略收集数据集来训练世界模型。但是,如果环境更复杂呢?在这种情况下,代理只能看到世界的一部分。因此,我们需要多次迭代,即让我们的代理探索世界并不断收集新的观察结果,以便他们的世界模型可以随着时间的推移而改变和改进。操作过程如下:

上述实验证明,对于一个简单的任务周期,一次迭代就足够了。一个负责的任务可能需要多次迭代。这里一个令人兴奋的研究方向是如何增加好奇心和内在动机,让代理人进行更多的探索。上述过程验证了在完全虚拟的梦境空间中训练代理人的可能性。这种方法的好处不言而喻。例如,在计算密集型游戏引擎中,可能需要大量计算资源来渲染游戏的图像帧,或者渲染与游戏本身无关的一些内容;这极大地浪费了计算资源,增加了训练代理的训练周期;在梦境环境中,我们可以使用更少的资源和更短的周期来获得类似的训练结果。此外,我们可以使用深度学习框架来构建这个世界模型。我们将世界模型设计成一个完全可区分的通用计算图。优点是我们可以直接使用反向传播算法来训练我们的代理,并微调策略以最大化目标函数。模型本身仍需改进。例如,V模型中使用的VAE作为一个独立的培训模型,实际上有其自身的局限性,因为它还可能对与任务无关的部分进行编码。毕竟,无监督学习不知道什么对任务有用。例如,在末日环境中,它详细再现了侧墙上不重要的砖瓦图案;但是,在赛车环境中,它不会复制与任务相关的砖块。通过用m训练V,VAE可能会更加关注图像中与任务相关的区域。缺点是我们可能无法有效地重用VAE,而不必再次执行新任务

学习任务相关功能与神经科学密切相关。当初级感觉神经元获得奖励时,它们会从抑制状态中释放出来,这表明它们通常至少在成年后学习与任务相关的特征,而不是任何特征。作者任务的未来工作可能会探索如何进一步改进V模型,以关注与任务相关的特性,另一个潜在的严重问题是,此世界模型的功能有限。虽然现代存储设备可以存储迭代训练过程中生成的大量历史数据,但基于LSTM的世界模型无法在其权重连接中存储所有记录的信息。人脑可以记忆几十年,但反向传播训练的神经网络的记忆能力有限,经常遭受灾难性遗忘。如果代理想要学习探索一个更复杂的世界,作者认为,未来的工作可能会探索如何使用更高容量的模型来用更小的容量来取代mdn rnn网络,或者合并外部机柜,reddit上似乎不乏“现场人员”,他们通常可以对作品发表适当的评论。例如,雷锋发现网络名称为SieestinModel,评估如下:

通过worldmodels github。IO,由雷锋AI技术评论编辑。com