转摘AlphaGo的发展历程、基础知识、核心算法、模型结构、训练数据、测试环境等

希叡阅读量 599

作者:禅与计算机程序设计艺术

1.简介

AlphaGo,是Google在2016年提出的基于强化学习(reinforcement learning)的视频游戏AI模型。它由蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)、神经网络和对棋盘局势的高级特征工程(advanced board-state feature engineering)等组成。其战胜人类顶尖棋手围棋选手李世石,击败国际象棋世界冠军柯洁斯基等多项围棋比赛。它也被认为是目前最先进的AI模型之一。

随着人工智能(AI)领域的不断革新与进步,AlphaGo的模型也在不断更新和完善中。这份技术文档将记录AlphaGo的整个发展历程,并从AI的历史角度出发探讨它的演变及未来的发展方向。希望通过这一技术文档,能够帮助读者更全面地了解AlphaGo的发展历程、基础知识、核心算法、模型结构、训练数据、测试环境以及当前的研究和应用现状。

2.基本概念术语说明

2.1 AlphaZero

AlphaZero,是由Deepmind于2017年发表的一系列工作的统称。它是一种结合了蒙特卡洛树搜索(MCTS)与神经网络的训练方法,目的是开发一种可以直接从游戏板上获取输入图像、通过组合神经网络计算决策并落子的机器人。由于这种方式避免了暴力穷举搜索,使得AlphaZero取得了非常优异的性能。

MCTS是一种搜索算法,用于在有限的时间内对可能的游戏状态进行模拟。它通过反复迭代、每次随机选择一个动作来估算每个节点的胜率。以此作为对下一步行动的依据。MCTS主要用来解决蒙特卡罗方法遇到的两个难题------效

复制代码
    ===========================
    【来源: CSDN】
    【作者: 禅与计算机程序设计艺术】
    【原文链接】 https://dreamit.blog.csdn.net/article/details/132255813
    声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。
0/300
全部评论0
0/300