睿诚科技协会

AlphaGo 2.0 技术如何再突破围棋极限?

AlphaGo Lee 在 2025 年击败李世乭 4:1 后,并没有停下脚步,紧接着,DeepMind 团队开发出了更强大的 AlphaGo Master 版本,这个版本在 2025 年初通过匿名账号在网络平台上以“Master”为名,与包括柯洁、李世乭、朴廷桓等在内的顶尖人类棋手进行了快棋对决,取得了60:0的全胜战绩,这个版本就是通常所说的 AlphaGo 2.0

AlphaGo 2.0 技术如何再突破围棋极限?-图1
(图片来源网络,侵删)

AlphaGo 2.0 的技术核心可以看作是 AlphaGo Lee 的全面进化版,它在多个维度上实现了质的飞跃,其技术架构也演变成了我们今天熟知的 AlphaZero 的雏形。

下面我们从几个核心技术层面来拆解 AlphaGo 2.0:


核心架构:从“监督学习+强化学习”到“纯强化学习”

这是 AlphaGo 2.0 与 AlphaGo Lee 最根本的区别。

AlphaGo Lee 的混合模式:

  1. 监督学习 (SL)

    AlphaGo 2.0 技术如何再突破围棋极限?-图2
    (图片来源网络,侵删)
    • 目的:让神经网络学会“像人类高手一样下棋”。
    • 方法:使用约 3000 万步由人类职业棋手对弈产生的棋谱数据,训练一个策略网络,这个网络的作用是,给定当前棋盘局面,预测出人类高手下一步最可能下的几个位置(概率分布)。
    • 类比:这相当于让学生通过大量做“例题”(棋谱)来掌握解题方法。
  2. 强化学习 (RL)

    • 目的:让神经网络超越人类,学会“如何赢得比赛”,而不仅仅是模仿人类。
    • 方法
      • 自我对弈:让训练好的策略网络和自己下棋,生成新的棋局数据。
      • 价值网络:在这些新棋局的基础上,训练另一个网络——价值网络,它的作用是,给定当前棋盘局面,直接评估出当前局面的胜率(当前局面下,黑棋有 70% 的概率获胜)。
      • 策略优化:通过自我对弈,不断优化策略网络,使其目标不再是模仿人类,而是最大化价值网络所评估的胜率,这个过程叫做策略梯度优化。

AlphaGo Lee:它先“拜师学艺”(监督学习),再“闭关修炼,自我突破”(强化学习)。

AlphaGo 2.0 (Master) 的进化:纯强化学习

AlphaGo 2.0 摒弃了对人类棋谱的依赖,完全采用从零开始的纯强化学习

  1. 初始策略网络

    AlphaGo 2.0 技术如何再突破围棋极限?-图3
    (图片来源网络,侵删)

    它不再使用人类棋谱进行预训练,初始的策略网络非常“弱”,只是通过一个简单的随机走子策略进行自我对弈,进行初步训练。

  2. 自我对弈和迭代

    • 系统通过蒙特卡洛树搜索 与自身的策略网络和价值网络进行自我对弈,生成海量的棋局数据(据称是 AlphaGo Lee 的数倍)。
    • 在这个过程中,策略网络和价值网络不断相互迭代、相互优化,策略网络指导搜索,而搜索的结果又反过来用来训练和改进策略网络和价值网络。

AlphaGo 2.0 的巨大优势

  • 摆脱了人类知识的束缚:它不再局限于人类已知的棋谱和定式,在自我对弈中,它可能走出人类从未想过、但被证明是更优的招法,著名的“三三点三三”开局,AlphaGo 在自我对弈中“发明”并验证有效的。
  • 效率更高,潜力更大:理论上,只要有足够的计算资源,纯强化学习可以让 AI 的棋力无限逼近“围棋的真理”,而不会因为人类棋谱的局限而遇到瓶颈。

算法核心:蒙特卡洛树搜索 的深度融合

MCS 是 AlphaGo 系列的决策核心,但在 2.0 版本中,它与神经网络的结合更加紧密和高效。

AlphaGo Lee 中的 MCTS:

MCTS 主要依赖策略网络来引导搜索。

  1. 选择:从根节点(当前局面)开始,根据一个公式(如 UCT 公式)选择子节点,这个公式平衡了“已经探索过的深度”( exploitation,利用)和“未充分探索的可能性”( exploration,探索)。
  2. 扩展:当搜索到一个叶节点时,使用策略网络来评估这个局面,并扩展出几个最有希望的下一步。
  3. 模拟:从扩展出的节点开始,使用一个快速的随机走子策略(Rollout)来模拟一盘棋的结局,得到一个胜负结果。
  4. 反向传播:将这个胜负结果反向传播回路径上的所有节点,更新它们的访问次数和胜率统计。

AlphaGo 2.0 中的 MCTS 进化:

AlphaGo 2.0 引入了价值网络,极大地提升了 MCTS 的效率和准确性。

  1. 模拟环节被取代:在 AlphaGo 2.0 中,当 MCTS 扩展到一个叶节点时,不再进行耗时的随机走子模拟,而是直接调用价值网络,让它瞬间评估出当前局面的胜率。
  2. 更快的收敛:由于价值网络可以提供比随机模拟更准确、更快速的评估,MCTS 可以在更少的搜索步数内做出更高质量的决策,这使得 AlphaGo 能够在有限的思考时间内(如快棋赛)做出更优的选择。

简单比喻

  • AlphaGo Lee 的 MCTS 像一个经验丰富的探险家,每次勘探新区域(模拟)都要花很长时间,但能获得一手信息。
  • AlphaGo 2.0 的 MCTS 带了一个“超级 GPS”(价值网络),它能瞬间告诉你某个新区域的“价值评分”,从而让探险家能更快、更准地找到宝藏(最佳落子点)。

计算能力与训练规模的指数级增长

AlphaGo 2.0 的成功离不开其背后恐怖的硬件支持。

  • 训练:据 DeepMind 公布,AlphaGo 2.0 的训练过程使用了 1920 个 CPU 和 280 个 GPU,进行了长达数月的自我对弈,生成了数千万盘棋局,这个计算规模是 AlphaGo Lee 的数倍甚至数十倍。
  • 对战:在对战人类顶尖棋手时,它通常使用 4 到 5 个 TPU(张量处理单元) 进行实时决策,远超 AlphaGo Lee 在与李世乭对局时使用的 48 个 GPU。

这种巨大的算力投入,使得纯强化学习的训练和高质量的自我对弈成为可能。


从 AlphaGo 2.0 到 AlphaZero:通用化之路

AlphaGo 2.0 的成功为最终的 AlphaZero 铺平了道路,AlphaZero 可以看作是 AlphaGo 2.0 技术的终极形态和通用化。

特性 AlphaGo Lee AlphaGo 2.0 (Master) AlphaZero
学习方式 监督学习 + 强化学习 纯强化学习 纯强化学习
初始知识 人类棋谱 随机初始化 随机初始化
输入特征 使用人工设计的特征(如气、连接等) 使用人工设计的特征 仅使用棋盘的原始状态(黑白棋子位置)
通用性 仅限于围棋 仅限于围棋 通用,通过更换规则可下国际象棋、日本将棋等
训练时间 数周 数月 3天 (达到超越AlphaGo Master的棋力)

AlphaZero 的核心突破

  1. 输入简化:它不再需要人类专家来设计复杂的输入特征,只需要一个表示棋盘状态的二维矩阵(0, 1, -1 分别代表空、黑、白),这让算法变得更“干净”,也更容易推广到其他规则不同的棋类游戏。
  2. 极致的通用性:由于算法本身不依赖于任何特定游戏的人工规则,它只需要学习该游戏的规则,就能通过纯强化学习成为该游戏的顶尖高手,AlphaZero 在国际象棋和日本将棋上都取得了惊人的成绩。

AlphaGo 2.0 (Master) 的技术精髓可以概括为:

  1. 范式转变:从“模仿人类”的监督学习,进化为“自我超越”的纯强化学习,摆脱了人类知识的桎梏。
  2. 决策引擎升级:将价值网络深度融入蒙特卡洛树搜索,用瞬间评估取代了低效的随机模拟,极大提升了决策的准确性和速度。
  3. 算力驱动:依靠海量的计算资源和自我对弈数据,实现了训练规模的指数级增长,为算法的突破提供了物质基础。
  4. 承前启后:它是 AlphaGo 系列的巅峰之作,其“纯强化学习 + MCTS + 神经网络”的架构,为最终的通用化 AI——AlphaZero 奠定了坚实的基础。

AlphaGo 2.0 不仅在围棋上战胜了所有人类,更重要的是,它向世界展示了不依赖人类先验知识,仅通过自我博弈和强大算力就能达到超人智能的全新路径,这是人工智能发展史上一个重要的转折点。

分享:
扫描分享到社交APP
上一篇
下一篇