新版解决了哪些遗留问题?"阿尔法狗之父"来答疑
【网易智能讯10月20日消息】DeepMind首席研究员、“AlphaGo之父”David Silver和Julian Schrittwieser(AlphaGo Zero作者之一)在Reddit回答网友提问。
资料显示,“AlphaGo之父”David Silver毕业于剑桥大学,获得了艾迪生威斯利奖,随后与人共同创立了视频游戏公司Elixir Studios,2004年,成为伦敦大学学院的讲师,Silver起初是DeepMind的顾问,直到2013年正式加入DeepMind。
以下是我们精选的Q&A,全文请前往Reddit.com
当被问到为什么AlphaGo Zero的训练如此稳定?
David Silver说,AlphaGo Zero所用的算法与策略梯度、Q-learning之类的传统(无模型)算法不同,通过使用AlphaGo search,我们极大地改进了策略和自我对弈的结果,然后我们应用简单的、基于梯度的更新来训练下一个策略+价值网络(policy+value network)。这比渐进的、基于梯度的策略改进(policy improvement)要稳定的多。
为什么这次Zero就训练了40天?训练3个月会怎样?
David Silver认为,这是一个人力和资源优先级的问题,如果训练3个月,我想你会问训练6个月会发生什么。
为什么一开始选择用人类对局数据来训练AlphaGo,而不是通过自我对弈来从0开始?之前的AlphaGo瓶颈在哪里?
David Silver表示,创造一个完全自学的系统,一直是强化学习中的一个开放式问题,之前都非常不稳定,之后我们做了很多实验,发现AlphaGo Zero的算法是最有效率的。
DeepMind和Facebook几乎同时开始研究这一课题,为什么你们能达到这个水平?
David Silver说,Facebook更专注于监督学习,我们关注强化学习,是因为相信它最终会超越人类的知识,研究表明,仅使用监督学习能够获得令人惊讶的表现,但如果要远超人类水平,强化学习才是关键。
AlphaGo Zero是AlphaGo的最终版本吗?
David Silver:我们已经不再主动研究如何让AlphaGo变得更强,但我们仍然用它尝试新的想法。
AlphaGo有没有开源计划?
David Silver:我们在过去已经开源了许多代码,但AlphaGo始终是一个复杂的过程,它是一个非常复杂的代码。
背景阅读:
谷歌子公司DeepMind日前发布了一款新版本的AlphaGo程序,它能通过自学玩转多种游戏,这套系统名为“AlphaGo Zero”,它通过一种名为“强化学习”的机器学习技术,可以在与自己游戏中吸取教训。
仅三天时间,AlphaGo Zero自行掌握了围棋的下法,还发明了更好的棋步。这期间,除了被告知围棋的基本规则,它未获得人类的帮助。随着AlphaGo Zero被不断训练时,它开始在围棋游戏中学习先进的概念,并挑选出一些有利的位置和序列。
经过三天的训练,该系统能够击败AlphaGo Lee,后者是去年击败了韩国选手李世石(Lee Sedol)的DeepMind软件,胜率是100比0,经过大约40天的训练(约2900万场自玩游戏),AlphaGo Zero击败了AlphaGo Master(今年早些时候击败了世界冠军柯洁)。
您可能也感兴趣:
官方微博/微信

每日头条、业界资讯、热点资讯、八卦爆料,全天跟踪微博播报。各种爆料、内幕、花边、资讯一网打尽。百万互联网粉丝互动参与,TechWeb官方微博期待您的关注。

想在手机上看科技资讯和科技八卦吗?
想第一时间看独家爆料和深度报道吗?
请关注TechWeb官方微信公众帐号:
1.用手机扫左侧二维码;
2.在添加朋友里,搜索关注TechWeb。
为您推荐
特斯拉股价实现九连涨 距离万亿市值还差近3000亿美元
分析师称苹果应收购迪士尼 以推动Vision Pro普及
集邦咨询预计2024年苹果Vision Pro MR头显出货量约为20万台
微软将向美国国防部、美国宇航局等机构开放GPT-4大模型
OpenAI CEO重申尚未开始训练GPT-5 还有很多工作需要做
周鸿祎直播演示360智脑高考作文 冯仑:及格 但不打动人
网传长安汽车克扣供应商10%货款 官方发声明否认并已报案
Meta旗下社交应用Instagram被曝可能引入AI聊天机器人
苹果公司证实已收购AR头显初创公司Mira
更多
- 荷兰隐私监管机构出于担忧要求OpenAI提供更多信息
- 电动汽车充电桩厂商SK Signet美国首座工厂已建成 下月投入运营
- 三星电子将向现代汽车供应最新一代汽车芯片 用于车载信息娱乐系统
- 史上最小最便宜车型 沃尔沃推出全电动紧凑型SUV EX30
- 数据中心热衷于AI GPU供应多元化 AMD有望成最大受益者
- 特斯拉股价实现九连涨 距离万亿市值还差近3000亿美元
- 分析师称苹果应收购迪士尼 以推动Vision Pro普及
- 集邦咨询预计2024年苹果Vision Pro MR头显出货量约为20万台
- 微软将向美国国防部、美国宇航局等机构开放GPT-4大模型
- OpenAI CEO重申尚未开始训练GPT-5 还有很多工作需要做