像人一样脑补世界!DeepMind历时一年半搞出GQN,登上Science
2018-08-24 12:31:49 来源:量子位
原标题:像人一样脑补世界!DeepMind历时一年半搞出GQN,登上Science
夏乙 安妮 发自 凹非寺量子位 出品 | 公众号 QbitAI
历时一年半的研发之后,新成果浮出水面 。
被称为人工智能“梦之队”的DeepMind,刚刚在Science上发表论文,提出一种像人类一样具备“脑补”世界能力的AI:GQN(Generative Query Network)。
GQN能够基于2D图像,重建/脑补出整个场景的3D表示。
“与婴儿和动物非常相似,GQN通过理解对周围环境的观察来学习。”DeepMind在官方博客中称这个学习方式,就像人类一样。
DeepMind的创始人兼CEO哈萨比斯表示,他一直都对大脑如何重现图像非常着迷,而这次提出的GQN模型可以根据几个2D快照重现3D场景表示,还能从任何角度渲染出来。
△ 哈萨比斯Twitter截图 这个AI高级在哪?你可能已经从前边的描述中注意到,它是一种无监督学习模型,连训练的图像都是自己获取的。
而现在那些很厉害的计算机视觉系统,都是监督学习的成果,它们需要用人类制造的大规模标注图像数据集来训练,这就限制了数据集包含场景的范围,进而限制了这种数据所训练出来的视觉系统的能力。
论文一作、DeepMind研究员Ali Eslami说,监督学习超级成功,但它还是无法让人满足。有这样两个原因:第一,人类需要手动创建数据集来训练它,这种操作又贵又不全面;第二,人类婴儿和高级哺乳动物都不是这么学习的。
如果要开发在现实世界里可用的复杂机器,想让AI完全理解周边环境,知道能就近坐在哪、旁边的沙发是什么材质、地上的影子是哪个光源制造出来的、又该去哪关灯,就需要换一个思路。
DeepMind新提出的GQN,就是这样一种新思路。
两个网络GQN模型由两部分组成:一个表示网络、一个生成网络。
表示网络将智能体观察到的图像作为输入,然后生成一个描述潜在场景的表示(向量)。
生成网络的任务是从一个之前没有观察到的角度,来预测(也可以叫“想象”)出这个潜在的场景。
表示网络并不知道人类会让生成网络从哪些视角来预测,所以,它必须有效地描绘出整个场景的真实布局。
在这个过程中,它会先构建一个简单的分布表示,抓住最重要的元素,比如物体的位置、颜色和整个房间的布局。在训练过程中,生成器了解了这个环境中典型的物体、特性、关系、规则。这些两个网络共享的“概念”让表示网络可以用高度压缩、概略的方式来描述场景,让生成网络在有必要的时候去补全细节。
比如说,一个蓝色立方体,在表示网络那里就是一组数字,而生成网络知道在不同角度该用怎样的像素来呈现它。
四大特性DeepMind在模拟的三维世界中,基于多个程序生成的环境,对GQN进行了一系列受控实验。其中的多个物体的位置、颜色、形状、纹理、光源都是随机生成,并且伴随着重度的遮挡。
在这些环境中进行训练之后,GQN被用于新的场景。DeepMind在实验中,发现了GQN的几个重要特性。
第一,GQN能以非常精确的方式,从全新的视角“想象/脑补”出以前从未见过的场景。只要给出一个场景表示和新的摄像机视点后,GQN就能生成清晰的图像,无需实现规定透视、遮挡或光线规则。
效果请看下面几个演示,左边是观察到的2D图片,右边是GQN“脑补”出的世界。
第二,GQN学会对对象进行计数、定位和分类,而且无需任何对象级标签。尽管露出的表示部分可能非常小,但GQN的预测仍然高度准确,几乎可以乱真。这意味着GQN能够准确感知。
效果请看下图,同样左边是观察,右边是脑补:
第三,GQN能够表示、衡量和减少不确定性。即便内容不是完全可见,GQN也能应付场景中的不确定性,并将场景中的多个局部视图组合起来,形成一个整体。
这事儿挺难,人都不一定能做好。GQN能力如何?见下图所示。有一类是第一人称视角的预测:
有一类是自上而下的视角预测:
第四,GQN能够进行稳健、数据高效的强化学习。与无模型的基线智能体相比,把GQN的紧凑表示赋予最先进的强化学习智能体后,可以更加数据高效的方式完成任务。
对这些智能体而言,GQN中的信息可以看做是对环境的“先天”知识。
相关研究GQN同样构建于诸多前人的探索基础之上,DeepMind正式列出的相关研究就达到128篇,而且声明仅列出了一小部分。
这些相关的研究从1971年,一直延续到2018年3月。
其中排在第一位的,也是曾经刊载在Science上的著名研究:心理旋转实验。这个实验表明:表象这一心理现象是客观存在的,外界刺激进入大脑并非进入黑箱,而这个实验也揭露了信息在大脑中进行加工的过程。
如果你对128篇相关研究感兴趣,传送门在此:
http://t.cn/RB9WmLX
与之前的研究相比,DeepMind展示了一种学习物理场景紧凑、基础表示的新方法,而且这个方法不需要特定领域工程或耗时的场景内容标记。也就是说,这个模型可以应用于各种不同的环境。
而且这个方法还雪城了一个强大的神经渲染器,可以从新的视角生成精确的场景图像。
当然DeepMind也在博客中表示,与更传统的计算机视觉技术相比,新方法仍然有很多限制,目前也只接受过合成场景的训练。
不过随着新的数据源出现,加之硬件能力的进展,DeepMind准备研究GQN在更高分辨率的真实场景中的应用。展望未来,DeepMind表示会探索GQN更多的场景理解能力,例如跨空间和时间学习物理和运动的常识概念,以及在虚拟和增强现实中的应用。
“尽管在实际应用之前还有非常多的研究需要完成,但我们相信这个工作是迈向完全自主场景理解的一大步。”DeepMind说。
多方评价毕竟也是登上Science的论文了,DeepMind官宣几个小时后,在Twitter和Reddit收到了大量围观和评价。
“话痨”型谷歌大脑的研究人员David Ha称赞这是来自“梦之队”DeepMind的炫酷研究。“环境生成模型可为自动学习理解周围世界的机器铺平道路。”他给出了肯定评价。
日本AI独角兽Preferred Networks(PFN)联合创始人冈野原大辅(Daisuke Okanohara)认为,GQN通过几个视角的观察就能将3D世界表示成本征向量,又能从新视角重现出场景,“这项研究显示出神经网络可以通过无监督方式学习这样的能力,真是个突破。”
Twitter机器学习界网红AlteredQualia认为这是“相当疯狂的”的一项研究,澳大利亚数据科学家、psyoa.org董事会成员Tom Wallis评价GQN“在场景理解上效果惊人”……
虽然很多大牛力挺,但……Reddit上的很多程序员却认为这项研究没有所说的那么完美。
ID为court_of _ai的网友认为这项研究有些让他失望:
视觉效果不错,但也只是一个典型的过拟合练习。就用一堆玩具似的世界,用大量数据提炼出vanilla conditional deconvs。……但这怎么能算一个突破?
网友seann999认为,若想应用这项成果到实际研究中,那恐怕有点难度:
结果真的很酷,但是在典型的导航任务(比如IRL或3D迷宫游戏)中,你通常不会得到真实的当前相机视角/位置,所以我认为它应用起来非常困难。
仅从图像和动作序列进行三维表示学习和环境重构可能更具挑战性,特别是在随机环境中。
还有一些网友因此开始怀疑Science是不是给DeepMind放水了:
论文传送门Deepmind技术性地“收买”了这些大型期刊,他们近期发表在《科学》/《自然》上的论文我们很难当真。他们的很多研究都非常棒,但为什么要这样炒作呢:(
Anyway,这篇论文还是非常值得一读,
传送门在此:
http://science.sciencemag.org/content/360/6394/1204.full
— 完 —
加入社群
量子位AI社群17群开始招募啦,欢迎对AI感兴趣的同学,加小助手微信qbitbot7入群;
此外,量子位专业细分群(自动驾驶、CV、NLP、机器学习等)正在招募,面向正在从事相关领域的工程师及研究人员。
进群请加小助手微信号qbitbot7,并务必备注相应群的关键词~通过审核后我们将邀请进群。(专业群审核较严,敬请谅解)
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号(QbitAI)对话界面,回复“招聘”两个字。
量子位 QbitAI · 头条号签约作者
վ"ᴗ" ի 追踪AI技术和产品新动态
相关阅读
- (2020-06-08)跨越时空,云端闪耀,第五届中国智能建筑节圆满落幕
- (2020-06-08)五六天后:科学减脂 专业营养师团队为您的健康“保驾护航”
- (2020-06-08)谜茵焕肤精华:开启非入侵式医美级护肤体验
- (2020-06-08)苏宁金融助力小微商户“绽放”:这笔资金太及时了!
- (2020-06-08)草本与咖啡的结合——品晟咖啡强势登场
- (2020-06-08)艾德证券港股打新京东|大有机会博10%的收益,来不来?
热点推荐
- (2021-08-26)沪指三连阳 业绩暖色烘托周期股行情
- (2021-08-26)国泰君安宏观首席分析师董琦:10月或迎消费复苏时间窗
- (2021-08-12)322家公司上半年净利润同比增长,21只个股股价创历史新高
- (2021-08-12)A股盘面凸显两大积极信号
- (2021-08-11)白酒行业指数创六年来最高单日涨幅,市值一日暴增逾3000亿元!市场信心源自哪里?
- (2021-08-11)7月份中国快递发展指数同比提高11.1% 机构称快递板块极具吸引力