AlphaGo里程碑

2016年3月，Google DeepMind的AlphaGo以4:1战胜围棋世界冠军李世石。这一事件震惊了世界，被认为是AI发展史上的里程碑。围棋曾被认为是AI最难攻克的棋类，AlphaGo证明了深度强化学习的巨大潜力。

时间：2016年3月·阅读时间：约14分钟

围棋挑战

为什么围棋是AI的难题

围棋被认为是AI的终极挑战：

搜索空间巨大：10^170种可能局面（超过宇宙原子数）
局面评估困难：没有简单的评估函数
直觉与计算结合：需要"棋感"和精确计算
长期规划：一步棋的影响可能在数百手后才显现

之前的尝试

在AlphaGo之前，围棋AI的水平：

最强程序只能达到业余水平
与职业选手的差距巨大
专家认为AI战胜职业棋手至少需要10-20年

DeepMind的野心

2014年Google收购DeepMind后：

DeepMind选择围棋作为突破口
整合深度学习和强化学习
借鉴人类棋谱和自我对弈
开发专用硬件TPU加速训练

AlphaGo架构

核心组件

AlphaGo由两个深度神经网络组成：

策略网络（Policy Network）

预测下一步最佳落子位置。输入当前局面，输出每个位置的概率分布。准确率达到约57%，远超之前最好的44%。

价值网络（Value Network）

评估当前局面的胜率。输入局面，输出黑方或白方的胜率。帮助判断局面的优劣。

蒙特卡洛树搜索

AlphaGo将神经网络与蒙特卡洛树搜索（MCTS）结合：

选择：根据策略网络的概率选择分支
扩展：扩展搜索树的新节点
评估：使用价值网络评估局面
回溯：将评估结果回传更新

训练流程

监督学习：从人类棋谱学习落子模式
强化学习：自我对弈提升策略
价值学习：从自我对弈数据学习局面评估

历史性对局

赛前预期

比赛前，大多数专家预测李世石会获胜：

李世石是当时最强的棋手之一
围棋的复杂性被认为远超AI能力
DeepMind团队内部也有担忧

五番棋结果

局数	结果	备注
第1局	AlphaGo胜	震惊世界
第2局	AlphaGo胜	展现全局观
第3局	AlphaGo胜	提前锁定胜利
第4局	李世石胜	"神之一手"
第5局	AlphaGo胜	最终比分4:1

精彩瞬间

第2局第37手：AlphaGo下出五路肩冲，被职业棋手称为"人类不会下的棋"
第4局第78手：李世石的"挖"，被认为是"神之一手"
AlphaGo的反应：在李世石的妙手后，AlphaGo的胜率评估急剧下降

全球影响

比赛引发了全球关注：

YouTube直播观看人数超过2亿
围棋培训班报名人数激增
AI成为公共讨论热点
引发关于AI未来的广泛讨论

技术创新

深度学习与强化学习结合

AlphaGo的成功在于：

用深度学习学习特征和模式
用强化学习提升策略
用MCTS进行高效搜索
人类知识和自我学习结合

超人类的表现

AlphaGo展示了AI的独特优势：

不受情绪影响
计算能力远超人类
能发现人类忽视的招法
全新的围棋视角

发现新知识

AlphaGo改变了围棋理论：

证明了某些传统理论的错误
发现了新的定式和手筋
改变了职业棋手的训练方式
推动了围棋理论的发展

深远影响

对AI领域

证明了深度强化学习的威力
推动了通用AI研究
吸引大量投资和人才
AI伦理讨论升温

对围棋界

职业棋手开始学习AI棋谱
AI成为训练工具
围棋理论被重新审视
人们对围棋的理解加深

社会影响

公众对AI能力有了新认识
讨论AI在各领域的应用前景
关于AI替代人类的担忧
对AI发展的期待和恐惧并存

后续演进

AlphaGo Zero

2017年，DeepMind发布AlphaGo Zero：

完全不需要人类棋谱
从零开始自我对弈
3天训练超越李世石版本
40天超越所有之前版本

AlphaZero

2017年底，通用版本AlphaZero：

同一架构学习围棋、国际象棋、日本将棋
每个游戏都在几小时内达到超人水平
证明了算法的通用性

MuZero

2020年，更通用的MuZero：

甚至不需要知道游戏规则
通过交互学习环境和策略
适用于Atari游戏和棋类