AlphaGo里程碑
2016年3月,Google DeepMind的AlphaGo以4:1战胜围棋世界冠军李世石。这一事件震惊了世界,被认为是AI发展史上的里程碑。围棋曾被认为是AI最难攻克的棋类,AlphaGo证明了深度强化学习的巨大潜力。
时间:2016年3月·阅读时间:约14分钟
围棋挑战
为什么围棋是AI的难题
围棋被认为是AI的终极挑战:
- 搜索空间巨大:10^170种可能局面(超过宇宙原子数)
- 局面评估困难:没有简单的评估函数
- 直觉与计算结合:需要"棋感"和精确计算
- 长期规划:一步棋的影响可能在数百手后才显现
之前的尝试
在AlphaGo之前,围棋AI的水平:
- 最强程序只能达到业余水平
- 与职业选手的差距巨大
- 专家认为AI战胜职业棋手至少需要10-20年
DeepMind的野心
2014年Google收购DeepMind后:
- DeepMind选择围棋作为突破口
- 整合深度学习和强化学习
- 借鉴人类棋谱和自我对弈
- 开发专用硬件TPU加速训练
AlphaGo架构
核心组件
AlphaGo由两个深度神经网络组成:
策略网络(Policy Network)
预测下一步最佳落子位置。输入当前局面,输出每个位置的概率分布。准确率达到约57%,远超之前最好的44%。
价值网络(Value Network)
评估当前局面的胜率。输入局面,输出黑方或白方的胜率。帮助判断局面的优劣。
蒙特卡洛树搜索
AlphaGo将神经网络与蒙特卡洛树搜索(MCTS)结合:
- 选择:根据策略网络的概率选择分支
- 扩展:扩展搜索树的新节点
- 评估:使用价值网络评估局面
- 回溯:将评估结果回传更新
训练流程
- 监督学习:从人类棋谱学习落子模式
- 强化学习:自我对弈提升策略
- 价值学习:从自我对弈数据学习局面评估
历史性对局
赛前预期
比赛前,大多数专家预测李世石会获胜:
- 李世石是当时最强的棋手之一
- 围棋的复杂性被认为远超AI能力
- DeepMind团队内部也有担忧
五番棋结果
| 局数 | 结果 | 备注 |
|---|---|---|
| 第1局 | AlphaGo胜 | 震惊世界 |
| 第2局 | AlphaGo胜 | 展现全局观 |
| 第3局 | AlphaGo胜 | 提前锁定胜利 |
| 第4局 | 李世石胜 | "神之一手" |
| 第5局 | AlphaGo胜 | 最终比分4:1 |
精彩瞬间
- 第2局第37手:AlphaGo下出五路肩冲,被职业棋手称为"人类不会下的棋"
- 第4局第78手:李世石的"挖",被认为是"神之一手"
- AlphaGo的反应:在李世石的妙手后,AlphaGo的胜率评估急剧下降
全球影响
比赛引发了全球关注:
- YouTube直播观看人数超过2亿
- 围棋培训班报名人数激增
- AI成为公共讨论热点
- 引发关于AI未来的广泛讨论
技术创新
深度学习与强化学习结合
AlphaGo的成功在于:
- 用深度学习学习特征和模式
- 用强化学习提升策略
- 用MCTS进行高效搜索
- 人类知识和自我学习结合
超人类的表现
AlphaGo展示了AI的独特优势:
- 不受情绪影响
- 计算能力远超人类
- 能发现人类忽视的招法
- 全新的围棋视角
发现新知识
AlphaGo改变了围棋理论:
- 证明了某些传统理论的错误
- 发现了新的定式和手筋
- 改变了职业棋手的训练方式
- 推动了围棋理论的发展
深远影响
对AI领域
- 证明了深度强化学习的威力
- 推动了通用AI研究
- 吸引大量投资和人才
- AI伦理讨论升温
对围棋界
- 职业棋手开始学习AI棋谱
- AI成为训练工具
- 围棋理论被重新审视
- 人们对围棋的理解加深
社会影响
- 公众对AI能力有了新认识
- 讨论AI在各领域的应用前景
- 关于AI替代人类的担忧
- 对AI发展的期待和恐惧并存
后续演进
AlphaGo Zero
2017年,DeepMind发布AlphaGo Zero:
- 完全不需要人类棋谱
- 从零开始自我对弈
- 3天训练超越李世石版本
- 40天超越所有之前版本
AlphaZero
2017年底,通用版本AlphaZero:
- 同一架构学习围棋、国际象棋、日本将棋
- 每个游戏都在几小时内达到超人水平
- 证明了算法的通用性
MuZero
2020年,更通用的MuZero:
- 甚至不需要知道游戏规则
- 通过交互学习环境和策略
- 适用于Atari游戏和棋类