历史最高分!腾讯绝悟AI斩获Minecraft AI竞赛冠军
绝悟AI开始挑战更复杂的开放世界游戏环境了 。
Minecraft (中文译名《我的世界》) 是全球最畅销的开放世界3D游戏 。随机生成的开放地图、自由灵活的玩法、多线程长链条任务 , 给AI研究带来了极大挑战 。针对Minecraft的复杂环境 , 游戏AI赛事MineRL邀请全球程序员在4天时间内用一台计算机训练AI找到游戏中的钻石 。
12月8日 , 第三届MineRL竞赛主赛道 (research track) 发布成绩 , AI 的“钻石之梦”向前踏进了一大步:腾讯AI Lab“绝悟”以76.970分的绝对优势夺冠 。研究成果已发布在Arxiv上 , 算法框架可复用于其他复杂决策环境 。
文章图片
文章图片
【历史最高分!腾讯绝悟AI斩获Minecraft AI竞赛冠军】(论文链接:https://arxiv.org/abs/2112.04907)
MineRL竞赛由卡内基·梅隆大学、微软、DeepMind、OpenAI , 联合机器学习顶级会议NeurIPS共同举办 , 极富挑战性的赛题持续吸引全球开发者关注 。今年赛事共有59支团队、近500名选手投身其中 , 其中不乏世界顶级学府和研究机构的科研强队 。竞赛的研究主题是:训练样本高效的Minecraft AI智能体 。
腾讯AI Lab创新性地通过分层强化学习(Hierarchical Reinforcement Learning)、表示学习(Representation Learning)、自模仿学习(Self-imitation Learning)、集成行为克隆(Ensemble Behavior Cloning)等算法高效实现比赛目标 。
文章图片
文章图片
文章图片
文章图片
(绝悟AI以压倒性优势获得历史最高分 , 今年榜单详见链接)
极度多样的环境、完全靠随机种子生成的地图、长决策序列与复杂的技能学习、高自由度玩法带来的海量策略偏好都增加了Minecraft AI研究的难度 。比如 , 为了让AI在15分钟内找到钻石 , AI需要经历徒手采集原木、合成木板、木棍与木镐 , 采集到铁矿 , 经过一系列加工才能合成钻石 。
此外 , 主办方还制定了种种严苛的规则:包括禁止参赛者编写规则、游戏环境甚至将背包信息与动作空间加密、且不允许使用预训练模型 , 只允许与环境最多交互八百万次 , 每个参赛队伍只能使用6核CPU与半张NVIDIA K80显卡训练4天——这个配置几乎对于所有高校实验室与个人研究者都可以负担的 。
这次比赛的目的在于促进样本高效 (Sample-efficient) 游戏AI算法的发展 。目前流行的强化学习算法一般需要多达成百上千万次的试错来寻找最优流程 , 耗费大量的时间和计算资源 。而纯靠人类数据的模仿学习算法虽然更快 , 但性能上往往不尽如人意 。
文章图片
文章图片
(Minecraft 游戏截图)
绝悟AI创新性地提出了一种样本高效的基于分层强化学习(Hierarchical Reinforcement Learning)的解决方案 。数据表明 , 腾讯AI Lab推出的上层控制器的预测准确率可以达到99.95% , 也就是说 , AI从人类数据中学到了一套几乎不出错的宏观策略 , 每时每刻都清晰地知道自己下一步的正确动向 。
在状态空间表征上 , Minecraft游戏遇到的最大挑战在于如何理解复杂的开放地图 。首先被选中的是近年来热门的表示学习方法 (Representation Learning) 。但研究人员很快发现 , 已有方法只适用于2D场景 , 在MineCraft游戏环境里效果很差 。于是腾讯AI Lab设计了一种“基于动作感知”(Action-aware Representation Learning)的新颖算法 , 用来捕捉每个动作对环境产生的影响 , 形成注意力机制 。实验表明 , 该算法可以显著提升智能体获得资源的能力与效率 。
推荐阅读
- 动视暴雪被高溢价收购 坐拥大量游戏金矿的腾讯将迎来什么?
- 整个寒假最多玩14小时?腾讯游戏公布2022年寒假未成年人限玩时间
- 腾讯游戏发布寒假限玩日历:假期未成年人打游戏时间合计不超14个小时
- 《阿凡达》MMO 射击手游官宣今年上线:虚幻引擎 4 开发,腾讯海外发行
- 腾讯又一款“远古”游戏走向终结,8500多万玩家要补偿
- 韩国解说:uzi不是历史第一adc
- 上海输入性感染者数量超历史最高!张文宏最新发文,信息量大、针对性强
- 历史悠久的常州有不少特色菜,你知道几个?
- Uzi历史地位遭到质疑,李哥点赞承认Bang是史一下
- uzi风评突然反转,网友玩梗嘲笑黑历史