597.老板你做个人吧(第9章)(2/2)
博米围棋大师此前的版本,结合了数百万人类围棋专家的棋谱,以及强化学习进行了自我训练。
博米围棋AI的能力则在这个基础上有了质的提升。
最大的区别是,它不再需要人类数据。也就是说,它一开始就没有接触过人类棋谱。研发团队只是让它自由随意地在棋盘上下棋,然后进行自我博弈。
刘光然给曹阳介绍,博米围棋AI使用新的强化学习方法,让自己变成了老师。
系统一开始甚至并不知道什么是围棋,只是从单一神经网络开始,通过神经网络强大的搜索算法,进行了自我对弈。
随着自我博弈的增加,神经网络逐渐调整,提升预测下一步的能力,最终赢得比赛。更为厉害的是,随着训练的深入,博米围棋大师团队发现,博米围棋AI还独立发现了游戏规则,并走出了新策略,为围棋这项古老游戏带来了新的见解。
从某种程度来说,也要归功于之前AI换脸技术带来的灵感。
AI换脸也是两个【大脑】,一个负责做假,另外一个负责识别,然后看是做假的更厉害,还是能够识别的更厉害,最后一直推演到识别技术也无法区分真假为止,就算是成功了。
博米围棋大师也是这样,自己的两个大脑互相下围棋,然后把棋谱存下来,作为数据库当中的一部分,之后再不断地从数据库当中进行深度学习,然后又自己跟自己下,不断地重复这个过程,直到最终能快速地产生出最优解。
之前博米围棋AI仅用了单一的神经网络。