DeepMind的强化学习-从无监督辅助到情境控制

4DB辅助网 • 2023年10月20日上午10:09 • CSGO • 阅读 19

机器之心报道DeepMind论文提出神经情景控制:可显著提速深度强化学习深度强化学习方法能在广泛的环境中实现超越人类的表现。这样的方法是非常低效的, 在机器之心(AI)上,一项名为「DeepMindLinkedLearning」的论文首次提出深度强化学习。这一论文描述了一种新的深度强化学习方法-从无监督指导到情景控制:这篇文章将研究如何利用人工智能技术来实现超越人类的表现——这种方式被称为「神经情境控制」。

该论文通过使用一个基于深度学习的模型构建了一个可显著提高的神经网络系统,其中包含多个不同类型的情节,以获得更高效率的训练数据和更精确的数据结构;这些过程可以由不同的神经元的输入、输出或者存储器进行处理,并且每个人也可以根据自己的需要调整他们的策略,例如减少操作量或增加任务数量。此外,该论文还解释了一种能够快速提升训练速度的深度增强方法。虽然这个方案并不会影响人们对深层强化学习的支持率。然而,《神经元与计算机》杂志网站称:「对于深入了解深度强化学习的方法而言,我们的目标是让其具有更好的效果。」

深度强化学习是一种新式自适应学习方法,它能有效地降低目标环境下的压力,从而提高了训练效率并最终改变系统的性能,这是自然科学中常见的做法之一。深度强化学习的目的是在低负载的环境下提供高效而有效的训练信息,如时间戳,记忆等。但是,随着年龄增长以及其他因素的变化,许多人在接受高昂的工作时开始考虑要解决的问题。

深度强化学习可以通过向深度学习相关领域的人才传授有关深度强化学习的信息,但通常不会给他们更多反馈,因为这些知识往往只用于特定领域内的研究。为了进一步扩大规模,研究者们必须为现有的技术带来一些挑战:

1)大规模工作场景:当一个人无法专注于某个特定的时间,且可能没有足够的经验来确定他的位置时,很难选择另一个人。这使它们难以应对任何特殊要求,因此不能准确预测周围的事件。然而,如果不注意细节可能会导致大量错误,甚至完全失效。这就是为什么很多专家认为训练中的大脑缺乏必要的辅助性。尽管这样做有助于保持训练成果,但在某些情况下已经过度到了超负荷的情况。

2)非线性的长期学习:过去20年间科学家发现了一些潜在的应用,包括针对传统训练的人工干预机制。这些改进使得那些不需要经过长时间练习才能达到理想的水平的人获得了最佳体验,而不是依赖于大量的重复训练,比如频繁复原、反复循环等。而且,由于现在有很多优秀的案例证明了人工干预算法可以在有限的条件下维持训练结果。

本文由 4DB辅助网原创发布。

发布者： 4DB辅助网

本网站所有文章禁止采集转载，否则以侵权处理。

本文链接：http://www.4daiban.com/6091.html

DeepMind的强化学习-从无监督辅助到情境控制

相关推荐

发表回复