用一个泛化的强化学习算法掌握国际象棋和日本象棋
摘要:
国际象棋游戏在人工智能的历史中是最广泛研究的领域。最强的程序都基于复杂的搜索技术,特定领域的自适应和人类专家十几年来完善的手工评估函数的结合。相反,AlphaGo Zero程序最近通过从自我对弈的白板状态的强化学习中,获得了在围棋游戏中超出常人的表现。在本文中,我们将这个方法推广到一个AlphaZero算法,它能够在很多有挑战的领域,从白纸状态,获得超出常人的表现。AlphaZero从随机对弈开始,不给定除游戏规则之外的领域知识,如同在围棋中一样,它在24小时内在国际象棋和日本象棋中达到了超出常人的水平,并在每个游戏中,令人信服地击败了一个世界冠军的程序。