感谢本站网友三库的线索传递!
一般的人工智能,还是得看DeepMind这一次,只有一个型号,使用同样的重量,不仅让王牌雅达利游戏飞了起来
和人类聊天,看图写字也不在话下。你甚至可以在真实环境中控制机械臂,让它按照指令完成任务!
这个模特名叫加托,在西班牙语中是猫的意思。
DeepMind称,这只猫可以使用相同权重的相同神经网络来适应各种环境。
具体来说,DeepMind对它进行了604项不同任务的训练这些任务有完全不同的模式,要遵守的要素和行为规则也不一样
加托不仅在450个任务中超过了50%的专家水平,还在23个雅达利游戏中超过了人类的平均分数。
Deep Mind的CEO哈萨比斯直接说:
这是目前我们最通用的代理。
这一最新成果一发布,立刻在AI圈掀起热议。
一些人工智能研究人员指出:
加托令人印象深刻你只需要在云上花费50,000美元就可以完成它的训练
这笔钱只是PaLM 1100万美元培训费用的一小部分以PaLM的预算,加托可以扩大100倍,这很可能是有效的
PaLM是Google发布的5400亿参数语言模型。
有人直接牺牲了AlphaStar架构和加托架构的对比:
Zoom AI杰出科学家Awni Hannun直接感叹Google/DeepMind过去五周密集发布的成果。
那么这只来自DeepMind的猫到底是怎么回事呢。
变压器负责一切。
对于研究方法,DeepMind只用了一句话来解释:
受大语言模型的启发,我们使用类似的方法将模型能力扩展到文本之外的领域。
没错这次是大语言模型中常用的Transformer架构
Transformer的本质是将一个序列转换成另一个序列。
因此,为了让它掌握各种任务,首先需要将各种数据编码成序列。
不用说,文本是序列信息,可以通过经典的句子片段进行编码。
图像,维特,已经打好了先分成16x16的像素,然后对每个像素进行编号,处理成序列
游戏过程中的按键输入也是一个序列,属于离散值,比如上,下,左,右,左,右巴巴。
机器人操纵过程中的传感器信号和关节力矩是连续值,它们也通过一系列采样和编码处理成离散序列。
最后,所有串行数据都交给同一个转换器进行处理。
整个加托模型使用的训练数据普遍偏向于游戏和机器人控制任务,596个任务占85.3%而视觉和自然语言任务只占14.7%
在模型架构上,为了简洁和可扩展,在最经典的原Transformer基础上进行修改。具体参数如下:
在Google的16x16 Cloud TPUv3切片上对4层11.8亿参数的加托进行了4天左右的训练。
在部署阶段,加托像传统的Transformer和ViT一样运行视觉和语言任务。
游戏和机器人控制的行为模式可以理解为一步一个脚印。
首先给出一个任务提示,比如游戏操作或者机器人动作,作为输出序列的开始。
接下来,加托会观察当前的环境,对运动向量进行自回归采样,动作执行后环境会发生变化,然后重复这个过程...
那么,这样训练出来的加托在各种任务中表现如何呢。
成为只有12亿参数的通才
在玩游戏方面,加托的表现可以用一张图来概括。
x轴是训练集中专家水平的百分比,其中0表示随机参数模型的水平。
y轴是加托超过或达到相应专家水平的任务数。
最终,604项加托任务中有450项超过了专家水平的50%。
更详细的结果如下:
在雅达利游戏测试中,加托在23场比赛中超过了人类的平均得分,在11场比赛中得分是人类的两倍。
这些游戏包括经典的乒乓球,赛车,射击,格斗等类型。
在Bengio团队发起的BabyAI测试上,加托在几乎所有级别上都达到了80%的专家水平,最难的Boss水平达到了75%它与BabyAI列表中的前两个模型不相上下,但这两个模型都经过了数百万次演示的训练
BabyAI检查点示例
在元世界中,加托的全部45个任务中,有44个超过了专家水平的50%,35个超过了80%,3个超过了90%。
元世界任务示例
在操控真实机器人方面,和之前的型号没什么区别。
至于视觉和文字任务,DeepMind至少给出了一些例子而不是跑分来验证通用模型的可行性。
描述图像
闲谈
最后,DeepMind还对加托模型的可扩展性进行了评估。
虽然目前的加托无法在每一个单项任务上与SOTA结果相提并论,但实验结果表明,伴随着参数,数据和硬件的增加,加托模型的性能仍有成比例提升的空间。
此外,加托在小样本学习方面也显示出一些潜力。
DeepMind认为,这样的通用模型可以通过提示或微调快速学习新任务,不再需要为每个任务训练一个大型模型。
通用人工智能还有多远。
看过加托的表演后,网友们大为震惊也就不足为奇了。
有些人甚至认为AGI就在眼前。
当然反对/质疑的声音也不小。
比如总是抢着给人工智能泼冷水的马库斯,这次第一次开炮了:
仔细看第10页无论模型有多大,大语言模型标志性的不可靠和错误信息依然存在
但无论如何,DeepMind在通用人工智能方向的努力正在不断产生新的成果。
事实上,无论是2013年让谷歌大吃一惊的雅达利游戏AI,还是举世闻名的AlphaGo和AlphaStar,DeepMind想要通过这些阶段性成果达到的终极目标,一直都引出了通用人工智能这个关键词。
去年,DeepMind首席研究科学家,伦敦大学学院教授大卫·西尔弗也主导发表了一篇同样引起大量讨论的文章:奖励就够了。
论文认为,强化学习作为基于报酬最大化的人工智能分支,足以推动一般人工智能的发展。
据加托团队成员称,这只猫猫已经在DeepMind培育了2年。
这种加托是以有监督的方式进行离线训练的,但论文也强调,原则上也可以通过离线或在线强化学习的方式进行训练。
就在一周前,DeepMind发布了一个新视频,视频中写道:
我们接下来要做一件大事,这意味着我们需要尝试很多人们认为太难的事情但是我们必须尝试一下
现在,似乎下一个大事件是指AGI。
论文地址: