转摘AlphaGo的发展历程、基础知识、核心算法、模型结构、训练数据、测试环境等
希叡阅读量 599
作者:禅与计算机程序设计艺术
1.简介
AlphaGo,是Google在2016年提出的基于强化学习(reinforcement learning)的视频游戏AI模型。它由蒙特卡洛树搜索(Monte Carlo Tree Search,MCTS)、神经网络和对棋盘局势的高级特征工程(advanced board-state feature engineering)等组成。其战胜人类顶尖棋手围棋选手李世石,击败国际象棋世界冠军柯洁斯基等多项围棋比赛。它也被认为是目前最先进的AI模型之一。
随着人工智能(AI)领域的不断革新与进步,AlphaGo的模型也在不断更新和完善中。这份技术文档将记录AlphaGo的整个发展历程,并从AI的历史角度出发探讨它的演变及未来的发展方向。希望通过这一技术文档,能够帮助读者更全面地了解AlphaGo的发展历程、基础知识、核心算法、模型结构、训练数据、测试环境以及当前的研究和应用现状。
2.基本概念术语说明
2.1 AlphaZero
AlphaZero,是由Deepmind于2017年发表的一系列工作的统称。它是一种结合了蒙特卡洛树搜索(MCTS)与神经网络的训练方法,目的是开发一种可以直接从游戏板上获取输入图像、通过组合神经网络计算决策并落子的机器人。由于这种方式避免了暴力穷举搜索,使得AlphaZero取得了非常优异的性能。
2.2 Monte Carlo Tree Search (MCTS)
MCTS是一种搜索算法,用于在有限的时间内对可能的游戏状态进行模拟。它通过反复迭代、每次随机选择一个动作来估算每个节点的胜率。以此作为对下一步行动的依据。MCTS主要用来解决蒙特卡罗方法遇到的两个难题------效
===========================
【来源: CSDN】
【作者: 禅与计算机程序设计艺术】
【原文链接】 https://dreamit.blog.csdn.net/article/details/132255813
声明:转载此文是出于传递更多信息之目的。若有来源标注错误或侵犯了您的合法权益,请作者持权属证明与本网联系,我们将及时更正、删除,谢谢。
0/300
全部评论0