OpenAI战胜DOTA2人类玩家是“里程碑式成就”?有专家评含金量不高

2018-07-02
我们可以预见未来社会中很多错综复杂的东西都没有了,为什么呢?因为这些自主系统将让我们意识到,现在我们的一些优化措施实际上是不成熟的,反而让问题变得复杂;这些系统还能让我们少走很多弯路,现在我们都是走了弯路以后才意识到自己绕了道。 我们可以预见未来社会中很多错综复杂的东西都没有了,为什么呢?因为这些自主系统将让我们意识到,现在我们的一些优化措施实际上是不成熟的,反而让问题变得复杂;这些系统还能让我们少走很多弯路,现在我们都是走了弯路以后才意识到自己绕了道。

作为人类,我们还不够聪明,无法看穿复杂和复杂交互的迷雾,但我们编写的系统或许可以。它们可能帮助我们实现几百年来我们一直不情愿地、迷茫地走向的目标——协作。

OpenAI并没有在算法上创新,谈不上“里程碑式的成就”

伦敦大学学院(UCL)的计算机教授汪军告诉新智元,AlphaGo之后,AI领域的下一大挑战就是多智能体强化学习(Multi-Agent reinforcement learning,MARL),也即让多个智能体学会合作与竞争。

DOTA、星际争霸,还有更多人熟悉的王者荣耀,都属于多智能体强化学习(MARL),但DOTA 5v5的设置相对更加简单。从去年开始,汪军在UCL的团队与上海的一家游戏公司合作,研究如何让AI玩王者荣耀。目前,包括DeepMind、Facebook、阿里、腾讯在内的很多机构,都在这些游戏上从事MARL研究,但尚未有团队公开实质性的突破。

OpenAI的工作让更多学者和公众关注MARL,这是一件好事,但如果说这是一项“里程碑式的成就”,则远远谈不上。

汪军说,OpenAI仅发布了blog,没有发布学术论文,目前对其科学性还比较难以评估。但从发布的blog上看不到算法的创新。他们只是扩展了已有的方法,然后上了大量的计算力——整整128000 CPU和 256 GPU,这样的硬件基础设施是一般的高校所不具备的。”

“OpenAI证明了使用现有的算法和trick,加上强大的计算力、工程力量和足够的耐心,是可以把这件事情做出来的。”

很可惜的是,OpenAI并没有针对游戏中AI如何合作去明晰建模,没有尝试去理解AI彼此合作的机制,模型还是单独的强化学习,把其他的英雄当成环境的一部分,并使用普通的团队和个体结合的奖励机制,通过大量试错取得了最后的结果。“只要有足够多的时间(也就是足够多的计算资源),你总能试出一些结果。”汪军说,因此它不太具有创新性。

汪军呼吁大家重视并扶持基础性的长期研究,将眼光放长远,“多多资助我们这些搞基础研究的一些GPU”,对领域长期健康发展做出积极贡献。

不过,汪军也非常肯定AlphaGo、OpenAI等机构的研究对产业带来的潜移默化的影响。“目前,阿里巴巴、百度、滴滴、京东、华为这些公司都在尝试把强化学习用在不同的场景,比如直接用在互联网广告、仓储物流、自动驾驶等场景上面,这就是AlphaGo带来的影响,大家都对强化学习非常关注。”

“据我所知,DeepMind已经把研究的一些能量输入到谷歌内部中,好像我们看到DeepMind还没有实现经济价值,其实已经让谷歌内部产生了效率。”汪军说。

  本文首发于微信公众号:新智元。文章内容属作者个人观点,不代表和讯网立场。投资者据此操作,风险请自担。