AI能「踢足球」了但AI机器人还不能

不久前,来自英国人工智能公司DeepMind的研究团队,利用一种加速版运动课程,通过计算机模拟数十年足球比赛的情况,训练AI学会了熟练地控制数字人形足球运动员。

早在2016年,AlphaGo在围棋上战胜李世石后没多久,Deepmind就开始琢磨让AI踢足球了。

当年6月,DeepMind的研究人员让AI控制一只蚂蚁形状的物体去追逐小球,然后带球直至将其送进球门得分。

根据DeepMind小组负责人David Silver的说法,借助当时谷歌最新开发出异步Actor-Critic算法,即A3C,AI不仅完成了这个项目,而且在整个过程中不需要向他灌输有关力学的知识。

到了2019年,DeepMind已经训练了许多「Player」,它们分别由不同训练计划制作而成的,DeepMind从中选择10个双人足球团队。

这10个团队每个都有250亿帧的学习经验,DeepMind收集了它们之间的100万场比赛。

然后DeepMind设置环境,让多个AI一起踢足球赛,并且提前设置了规则,奖励整个「足球队」而不是去鼓励某个「AI球员」的个人成绩,以促成整个球队的进步。

看起来一切顺利,然而到了2020年,DeepMind的AI球员出问题了。

根据脑极体提供的资料,在一场比赛中,一方的足球机器人排成一排向球门发起射击,但机器人守门员却并没有准备防守,而是一倒在地上开始胡乱摆动起了双腿。

接着,担任前锋的机器人球员跳了一段十分令人困惑的舞蹈,跺跺脚,挥挥手,啪叽一下摔倒在地上。

此前,AlphaGo的学习是基于监督学习,即通过标记好的数据集来进行训练的。

与之相比,强化学习是模仿人类的学习模式,AI以「试错」的方式进行学习,对了受奖,错了受罚,从而建立正确的联系。

研究者设置了两种奖励,一是完成比赛,二是收集环境中的得分。结果就是智能体找到了一片区域,在那里不停地转圈「刷分」,最后自然没能完成比赛,但它的得分反而更高。

文章开头提到,DeepMind的研究团队在训练「AI足球运动员」上有了新突破。

据论文描述,尽管DeepMind团队在此次研究中简化了游戏规则,并将两队球员人数限定在了2-3人,但「AI足球运动员」可以完成带球突破、身体对抗、精准射门等动作。

第一步,AI需要观看人类踢足球的视频剪辑,学会自然行走,因为AI开始并不知道要在足球场上做什么。

第三步,就用用比赛的形式训练,AI机器人进行2对2比赛,这一步需要耗时2到3周,主要是让AI学会团队协作,以及预测传球等更高难度的运动控制。

DeepMind团队认为,这一研究推动了人工系统向人类水平运动智能向前迈进。

不过,DeepMind团队还是比较清醒,他们知道,这次突破还是有局限性的。

比如,比赛是2v2,而不是现实足球比赛常用的11v11,还不能说明AI可以参加更复杂的足球比赛。

最近,整个AI社区都沉浸在ChatGPT带来的狂欢中,OpenAI也一跃成为全球最受瞩目的科技公司。然而,同样把「通用人工智能」作为终极目标的DeepMind却缺席了这场狂欢。大众不免好奇:DeepMind最近在忙什么?刚刚,DeepMind似乎回应了这个问题:他们把一直以来坚持的强化学习带到了物理世界,做出了一些可以自己学习踢足球的具身智能体小机器人。

“你永远不知道网络另一端坐着的是不是一条狗”——随着技术的发展,同样的道理如今也适用于电话,即使电话那头的声音极为逼真、语序听着正常,可你又怎知对方是真人而非AI机器人当毫无情感、不知疲倦的机器人成为骚扰电话拨打者时,骚扰电话变得越发让人排斥甚至害怕……相对于屏蔽和警惕骚扰电话,今天,我们将从技术的角度重新审视骚扰电线

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注