升级版阿尔法狗有多恐怖？学习三天吊打前任！

hcrt 2017-10-20 08:50

今年5月，以3:0比分赢下中国棋手柯洁后，AlphaGo宣告退役，但故事并未结束。
北京时间19日01：00，谷歌旗下的DeepMind公司公布了进化后的最强版AlphaGo ，代号AlphaGo Zero。它的独门秘籍是“自学成才”。而且，是从一张白纸开始，零基础学习，在短短3天之内，成为顶级高手。

连柯洁都回应称，新版本AlphaGo问世，显得人类太多余了。
团队称，AlphaGo Zero的水平已经超过之前所有版本的AlphaGo。那么它究竟有多厉害呢？
打败李世石的AlphaGo用了3000万盘比赛作为训练数据，AlphaGo Zero用了490万盘比赛数据。经过3天的训练，AlphaGo Zero就以100：0的比分完胜对阵李世石的那版AlphaGo。
DeepMind联合创始人兼CEO 、AlphaGo之父戴密斯·哈萨比斯和AlphaGo团队负责人大卫·席尔瓦等人同时在官方博客上发表文章，详解最强版本阿尔法狗是如何炼成的，与前代有何不一样。

升级版阿尔法狗有多恐怖？学习三天吊打前任！

AlphaGo几个版本的排名情况
AlphaGo Zero：从零开始，自学成才
哈萨比斯等人撰写了《AlphaGo Zero：从零开始》的文章，该文介绍到AlphaGo Zero比前代AlphaGo更强大，可以一争史上最强围棋手。
AlphaGo的前几代版本，一开始用上千盘人类业余和专业棋手的棋谱进行训练，学习如何下围棋。AlphaGo Zero则跳过了这个步骤，自我对弈学习下棋，完全从乱下开始。用这种方式，它很快超过了人类水平，对阵此前战胜人类冠军李世石的前代AlphaGo取得了100连胜。
AlphaGo Zero之所以能当自己的老师，是用了一种叫强化学习的新模式。系统从一个对围棋一无所知的神经网络开始，将该神经网络和一个强力搜索算法结合，自我对弈。在对弈过程中，神经网络不断调整、升级，预测每一步落子和最终的胜利者。
升级后的神经网络与搜索网络结合成一个更强的新版本AlphaGo Zero，如此往复循环。每过一轮，系统的表现就提升了一点点，自我对弈的质量也提升了一点点。神经网络越来越准确，AlphaGo Zero的版本也越来越强。
这种技术比此前所有版本的AlphaGo都更为强大。这是因为，它不再受到人类知识的限制，而能够从婴儿般的白纸状态，直接向世界上最强大的棋手——AlphaGo本身学起。

升级版阿尔法狗有多恐怖？学习三天吊打前任！

AlphaGo-Zero的训练时间轴
除了上述的分别之外，AlphaGo Zero还与此前版本有显著的差别：
首先，AlphaGo Zero仅用棋盘上的黑白子作为输入，而前代则包括了小部分人工规划的特征输入。
其次，AlphaGo Zero仅用了单一的神经网络。在此前的版本中，AlphaGo用到了“策略网络”来选择下一步棋的走法，以及运用“价值网络”来预测每一步棋后的赢家。而在新的版本中，这两个神经网络合二为一，从而让它能得到更高效的训练和评估。
第三，AlphaGo Zero并不运用快速、随机的走子方式。在此前的版本中，AlphaGo用的是快速走子方式，来预测哪个玩家会从当前的局面中赢得比赛。相反，新版本依靠的是其高质量的神经网络来评估下棋的局势。
据悉，以上这些不一样帮助新版本在系统上有了提升，而算法的改变则让系统变得更强更有效。
仅仅自我对弈3天后，AlphaGo Zero就以100：0完胜了此前击败世界冠军李世石的旧版AlphaGo Lee。自我对弈40天后，AlphaGo Zero变得更为强大，超过了此前击败当今第一人柯洁的“大师”版AlphaGo Master。
通过数百万次自我对弈，AlphaGo从零开始掌握了围棋，在短短几天内就积累起了人类几千年才有的知识。AlphaGo Zero也发现了新的知识，发展出打破常规的策略和新招，与它在对战李世石和柯洁时创造的那些交相辉映，却又更胜一筹。
AlphaGo Zero的提升，有理由让我们相信，人工智能会成为人类智慧的增强器，帮助我们搞定人类正在面临的一些严峻挑战。

人工智能

雷人

握手

鲜花

鸡蛋

路过

购买机械键盘的避坑指南，小白必看！ 激光打印机打出来是白纸怎么解决？

升级版阿尔法狗有多恐怖？学习三天吊打前任！

最新评论