今年5月,以3:0比分赢下中国棋手柯洁后,AlphaGo宣告退役,但故事并未结束。 北京时间19日01:00,谷歌旗下的DeepMind公司公布了进化后的最强版AlphaGo ,代号AlphaGo Zero。它的独门秘籍是“自学成才”。而且,是从一张白纸开始,零基础学习,在短短3天之内,成为顶级高手。 团队称,AlphaGo Zero的水平已经超过之前所有版本的AlphaGo。那么它究竟有多厉害呢? 打败李世石的AlphaGo用了3000万盘比赛作为训练数据,AlphaGo Zero用了490万盘比赛数据。经过3天的训练,AlphaGo Zero就以100:0的比分完胜对阵李世石的那版AlphaGo。 DeepMind联合创始人兼CEO 、AlphaGo之父戴密斯·哈萨比斯和AlphaGo团队负责人大卫·席尔瓦 等人同时在官方博客上发表文章,详解最强版本阿尔法狗是如何炼成的,与前代有何不一样。 AlphaGo Zero:从零开始,自学成才 哈萨比斯等人撰写了《AlphaGo Zero:从零开始》的文章,该文介绍到AlphaGo Zero比前代AlphaGo更强大,可以一争史上最强围棋手。 AlphaGo的前几代版本,一开始用上千盘人类业余和专业棋手的棋谱进行训练,学习如何下围棋。AlphaGo Zero则跳过了这个步骤,自我对弈学习下棋,完全从乱下开始。用这种方式,它很快超过了人类水平,对阵此前战胜人类冠军李世石的前代AlphaGo取得了100连胜。 AlphaGo Zero之所以能当自己的老师,是用了一种叫强化学习的新模式。系统从一个对围棋一无所知的神经网络开始,将该神经网络和一个强力搜索算法结合,自我对弈。在对弈过程中,神经网络不断调整、升级,预测每一步落子和最终的胜利者。 升级后的神经网络与搜索网络结合成一个更强的新版本AlphaGo Zero,如此往复循环。每过一轮,系统的表现就提升了一点点,自我对弈的质量也提升了一点点。神经网络越来越准确,AlphaGo Zero的版本也越来越强。 这种技术比此前所有版本的AlphaGo都更为强大。这是因为,它不再受到人类知识的限制,而能够从婴儿般的白纸状态,直接向世界上最强大的棋手——AlphaGo本身学起。 除了上述的分别之外,AlphaGo Zero还与此前版本有显著的差别: 首先,AlphaGo Zero仅用棋盘上的黑白子作为输入,而前代则包括了小部分人工规划的特征输入。 其次,AlphaGo Zero仅用了单一的神经网络。在此前的版本中,AlphaGo用到了“策略网络”来选择下一步棋的走法,以及运用“价值网络”来预测每一步棋后的赢家。而在新的版本中,这两个神经网络合二为一,从而让它能得到更高效的训练和评估。 第三,AlphaGo Zero并不运用快速、随机的走子方式。在此前的版本中,AlphaGo用的是快速走子方式,来预测哪个玩家会从当前的局面中赢得比赛。相反,新版本依靠的是其高质量的神经网络来评估下棋的局势。 据悉,以上这些不一样帮助新版本在系统上有了提升,而算法的改变则让系统变得更强更有效。 仅仅自我对弈3天后,AlphaGo Zero就以100:0完胜了此前击败世界冠军李世石的旧版AlphaGo Lee。自我对弈40天后,AlphaGo Zero变得更为强大,超过了此前击败当今第一人柯洁的“大师”版AlphaGo Master。 通过数百万次自我对弈,AlphaGo从零开始掌握了围棋,在短短几天内就积累起了人类几千年才有的知识。AlphaGo Zero也发现了新的知识,发展出打破常规的策略和新招,与它在对战李世石和柯洁时创造的那些交相辉映,却又更胜一筹。 AlphaGo Zero的提升,有理由让我们相信,人工智能会成为人类智慧的增强器,帮助我们搞定人类正在面临的一些严峻挑战 。 |
发表评论