在击败OG战队之后,OpenAI在上周开放了玩家挑战,所有Dota2玩家都可以报名对战OpenAI Five。与此同时,OpenAI团队也在Reddit论坛上进行了一次水友问答,以下为问答的主要内容:
Q:Bots在同一位置放下4个眼,或者在己方野区留下一个野怪的逻辑是什么?
A:目前我们关于消耗品的使用逻辑是编码好的,所以购买守卫或者回复品的决定权并不在AI。当信使运到一些英雄不想要的物品时,他们会立即将其使用,尤其是当物品栏已满,他们会把任何拿到的东西塞到背包里;至于野怪,尚不清楚他们是否懂得封野或者清野的规则,更不清楚他们是否理解刷野的时间点。最简单的解释是他们完全没有弄清楚这些概念。
Q:这是不是说优先选择大药而非吃树是你们而不是他们的决定?
A:我们最初的选择就是删除吃树(主要因为我们一开始没有告诉他们游戏中有树林)。我们在上个月对AI进行了这方面的训练,但最终由于某些原因不得不在对阵OG比赛的一周前回归当初的设定;至于选择,这应该是机器和我们共同作出的决定——我们告诉他们买什么,然后观察他们在不同固定脚本下的表现(即搞清楚他们喜欢或者擅长什么),再对胜率进行比较来查看哪种选择更适合他们。
Q:Bot在训练的时候,天辉或者夜魇一方是否存在胜率方面的优势?
A:我们的测试团队注意到Bot在天辉和夜魇方的行为同样有些许的差异,无论是战略目的优先级(比如:在夜魇一方时会优先拿下天辉方的优势路外塔)还是对线(影响后续发挥进而影响胜率),总体来说这些差异和人类是不一样的(比如AI不会有镜头角度的问题),不过有些地方是一致的。
17个英雄池随机镜像对阵,有55-56%的胜率(不知说的是天辉还是夜魇)。
Q:所以这个周末以后,OpenAI的Dota项目就将结束了?
A:这个周末结束之后,我们项目的竞技部分将就此终止,在17英雄池的比赛击败OG之后,继续在这个方向发展已经收获不了太多。不过我们依然会专注研究并使用Dota2的环境来测试一些新奇的想法,看看我们能从强化学习和人工智能上学到什么。既然我们已经有了最复杂和最深度的AI环境之一,我们希望能够解锁至关重要的学习能力,即关于算法,研发,环境结构等等方面。
Q:选择哪些英雄给OpenAI Five训练的决策过程是什么?
A:我们最初选择的是一些最易于AI进行学习的英雄(远程,技能简单等等)。在有了进步之后,我们便通过增加近战英雄和四号位英雄来进行平衡。接下来添加的是一些更有趣/好玩的英雄,但很遗憾,他们表现出来的竞技水平远不如最初的英雄。
Q:能告诉我们扩展后的英雄池有多少英雄吗?
A:我们最先加入的是小黑和哈斯卡,当他们的水平达到与最初英雄池相差无几后,我们又加入了帕格纳、帕吉、剧毒、白虎和风行,看看他们是否学会最初英雄池没有的新机制。我们还以较低的规模训练了大约80名英雄(不包括召唤/幻象系英雄)来查看效果。
Q:我感觉像哈斯卡这样的英雄让AI来玩应该会比人类玩得好,此外,AI的宏优势在召唤/幻象系英雄身上是不是更明显?
A:哈斯卡似乎出了一点问题,因为AI非常擅长于即刻转移和集火某一个目标。尤其是当AI开始学习哈斯卡时,这个英雄几乎每局比赛都会死的很难看;在数量为80的英雄池中,我们没有尝试训练召唤/幻象系英雄,只要是涉及多操的英雄都不包括在内。
Q:80英雄池相当厉害了,与25英雄池相比,学习速率是否有很大的下降?
A:在更大的英雄池下度量技能是比较棘手的。尤其是当你缺少优秀的对手做为参照来检测学习效率的减慢。我们能检测出隐身英雄的学习效率的增长,不过现在这也只是传闻。
Q:我知道AI团队为了补偿人类玩家在操作上固有的缺陷而限制了每分钟的行动数或者反应时间,不过你们是否考虑了人类玩家由于游戏内的互动(鼠标的移动、手指在键盘上的操作,视觉集中区域等等)产生的效率损失进而提出解决办法呢?我这么问是因为,当然你们已经考虑过了,Bot战胜人类并不是通过战术而是因为我们没有直接与游戏进行直接IO交互。
A:你很难把APM这种东西换算成等量的毫秒数延迟。总之我们并没有刻意地创造出一个完全一致的游戏环境因为人机双方的本质是不一样的,人类有人类的优势(比如从游戏中学习,知道在和AI比赛),Bot有Bot的优势(他们不是人)。我们更感兴趣的是,人类和机器对待Dota的方式能否殊途同归。
Q:你们能否为我们展示一下Bot是怎么玩米波或者卡尔的吗?
A:等事情稍微平静下来,我们很乐于展示不同技能等级下,一些其他英雄的操作片段——有些比赛录像真的很厉害(当然有些可以上WTF集锦了)。
Q:你们能不把AI竞技场关了吗?我想一直玩下去。
A:我们也很想开着让大家玩,但很遗憾,每逢Dota2版本更新我们就要额外对AI进行训练。
Q:有没有计划削弱一下AI的反应时间,这样他们就不能秒羊/吹对方的先手了?那些操作的反应时间真的只有200ms吗?
A:实际上出现这些操作,更多的是因为AI能够预见的到而不仅仅是反应时间的问题。真正想要他们表现得更像人类的解决办法是,根据AI是否有敌方英雄视野或者能否被预测到而对反应时间进行动态削弱。当人类和机器为了完成同一件可以预见的事情而进行较量时,人类总是获胜的一方(比如抢赏金符)。
Q:在将来OpenAI Five是否还会向公众开放呢?
A:目前我们没有继续向公众开放OpenAI的计划,很遗憾。
OpenAI的玩家挑战已在21日结束,OpenAI取得了7215场胜利,而人类获得了42场胜利,胜利的玩家中包括了职业选手,普通玩家和知名主播。
迪士尼Major赛事专题报道:
下一篇:容城县启动征迁安置工作政策培训