AlphaGo — Monte carlo search with deep reinforcement learning policy and value network
AlphaGo — Monte carlo search with deep reinforcement learning policy and value network

AlphaGo — Monte carlo search with deep reinforcement learning policy and value network

AlphaGo其实很简单~

摘要

  由于其巨大的搜索空间以及评估棋盘状态和落子的难度,围棋一直被认为是人工智能经典游戏中最具挑战性的游戏。在这篇文章里,作者介绍了一种新的AI围棋方法,它使用“价值网络”来评估棋盘位置和“策略网络”来选择落子。主模型以深度神经网络为主,训练由对人类专家的经验进行监督学习和自对弈的强化学习组成。研究者将训练成的价值网络、策略网络应用到蒙特卡洛搜索的过程中,从而增加了每个落子的价值。使用这种搜索算法,AlphaGo对其他围棋程序的胜率达到了99.8%,并以5比0击败了人类欧洲围棋冠军。

技术路线

AlphaGo神经网络训练全景
  图a:p_{\pi}p_{\sigma} 使用监督学习学习人类专家在不同棋盘状态下的落子,p_{\pi} 是一个更加轻量级的网络。p_{\rho} 的网络架构和 p_{\sigma} 想同,并且参数被初始化为训练好的p_{\sigma} 的参数,然后通过策略梯度强化学习自对弈进行改进,以最大化获胜的概率。通过使用强化学习策略网络 p_{\rho} 自对弈生成一个新的数据集。最后,回归训练一个价值网络 v_{\theta},以根据新数据集中的数据学习当前棋盘玩家获胜的期望。
  图b:AlphaGo 中使用的神经网络架构的示意图。策略网络将棋盘状态 s 作为输入,通过参数为 \sigma\rho的策略网络输出概率分布 p_{\sigma}(a|s)p_{\rho}(a|s) 表示为了取胜当前棋盘每个合法位置的落子收益期望。价值网络类似地使用多个卷积层,参数为 \theta,输出一个标量值 v_{\theta}(s') 来预测当前棋盘状态的获胜期望。

策略网络的监督学习

  训练的第一个阶段是使用监督学习学习人类专家的经验。SL 策略网络 p_{\sigma}(a|s) 在权重为 \sigma 的卷积层和非线性整流器之间交替,最终的 softmax 层输出所有合法落子位置的概率分布。策略网络的输入是棋盘状态的简单表示。策略网络在随机采样的状态-动作对上进行训练,使用随机梯度上升来最大化在状态 s 中选择的人类动作的可能性

\Delta\sigma\propto\frac{\partial p_{\sigma}(a|s)}{\partial\sigma}

  作者从 KGS Go Server 的 3000 万个状态-动作训练了一个 13 层的策略网络,称为 SL(SupervisedLearning) 策略网络。该网络预测在测试集上的准确率为 57.0%,远远高于基准模型的 44.4%。然而,准确性的小幅提高会导致计算开销的增长,较大的网络可以获得更好的准确性,但在搜索过程中评估速度较慢。作者还训练了一个更快但不太准确的策略网络 p_{\pi}(a|s),使用更轻量级的特征的线性 softmax 达到了 24.2% 的准确率。p_{\pi}(a|s)选择一个动作只需要2 \mu s,比p_{\sigma}(a|s) 的3 ms要快得多。

策略网络的强化学习

  训练的第二阶段旨在通过策略梯度强化学习 (RL) 改进策略网络。RL 策略网络 p_{\rho} 在结构上与 SL 策略网络相同,并且其权重 \rho 被初始化为相同的值,即 \rho = \sigma。使用随机化的动作采样策略放置过拟合,每个episode结束的时候设定胜方的reward为1,负方的reward为-1。然后在每个时间步 t,通过随机梯度上升最大化获胜的期望

\Delta\sigma\propto\frac{\partial p_{\rho}(a_t|s_t)}{\partial\sigma}z_t.

值网络的强化学习

  训练的最后一个阶段是评估每个棋盘状态获胜的期望,估计一个价值函数 v^p(s),训练时双方玩家都使用策略 p 预测的位置 s 的结果

v^p(s)=\mathbb{E}[z_t=z|s_t=s,a_{t\cdots T}\sim p].

  RL价值网络与策略网络有相似的结构,参数为 \theta,使用策略梯度的MSE进行更新

\Delta\sigma\propto\frac{\partial v_{\theta}(s)}{\partial\theta}(z-v_{\theta}(s)).

蒙特卡洛搜索

AlphaGo蒙特卡洛树搜索
  在对战中,AlphaGo 在 MCTS 算法中结合了策略和价值网络,该算法通过前瞻搜索来选择动作。搜索树的每条边 (s, a) 存储一个动作值 Q(s, a)、访问计数 N(s, a) 和先验概率 P(s, a)。从根状态开始模拟遍历可能的棋盘状态。 在每个模拟的每个时间步 t,从状态 s_t 中选择一个动作 a_t

a_t = \arg\max_a(Q(s_t,a)+u(s_t,a))

来最大化价值+bonus

u(s,a) \propto \frac{P(s,a)}{1+N(s,a)}.

  Bonus 正比于先验概率,但是随着访问次数递减。当遍历在第L步到达叶节点 s_L 时,叶节点继续扩展,节点 s_L 仅由 SL 策略网络 p_\sigma 处理一次得到新的叶节点,输出概率存储为每个合法动作 a 的先验概率 P,p(s,a) = p_\sigma(a|s)。叶节点以两种不同的方式进行评估:首先是价值网络 v_\theta(s_L);其次,通过使用轻量级策略网络 \pi 随机出的从 L 直到最终步骤 T,使用混合参数 \lambda 将这些评估组合成叶节点的评估

V(s_L)=(1-\lambda)v_\theta(s_L)+\lambda z_L.

  在模拟结束时,更新所有遍历到的边的动作值和访问次数

N(s,a)=\sum_{i=1}^{n}1(s,a,i)\\
Q(s,a)=\frac{1}{N(s,a)}\sum_{i=1}^{n}1(s,a,i)V(s_L^i).

  其中 s_i 是第 i 次模拟的叶节点,1(s, a, i) 表示在第 i 次模拟期间是否遍历了边 (s, a)。搜索完成后,算法从根位置选择访问次数最多的移动,因为这是根据概率分布采样的,被访问的次数阅读说明价值越大。

15条评论

  1. Shanesulse

    cialis 5 mg originale prezzo : an effective drug containing tadalafil, is used for erectile dysfunction and benign prostatic hyperplasia. In Italy, a 28-tablet pack of Cialis 5 mg is priced at around €165.26, though prices vary by pharmacy and discounts. Generic alternatives, like Tadalafil DOC Generici, cost €0.8–€2.6 per tablet, providing a budget-friendly option. Consult a doctor, as a prescription is needed.

  2. Ismaelbok

    Hi there! I know this is kinda off topic nevertheless I’d figured I’d ask. Would you be interested in exchanging links or maybe guest writing a blog article or vice-versa? My site discusses a lot of the same subjects as yours and I feel we could greatly benefit from each other. If you might be interested feel free to shoot me an e-mail. I look forward to hearing from you! Fantastic blog by the way!
    https://imperialgroup.com.ua/yak-vybraty-ta-vstanovyty-linzy-v-fary

  3. «Рентвил» предлагает аренду автомобилей в Краснодаре без залога и ограничений по пробегу по Краснодарскому краю и Адыгее. Требуется стаж от 3 лет и возраст от 23 лет. Оформление за 5 минут онлайн: нужны только фото паспорта и прав. Подача авто на жд вокзал и аэропорт Краснодар Мин-воды Сочи . Компания работает 10 лет , автомобили проходят своевременное ТО. Доступны детские кресла. Бронируйте через сайт аренда авто краснодар

  4. посредник в Китае В эпоху глобализации и стремительного развития мировой экономики, Китай занимает ключевую позицию в качестве крупнейшего производственного центра. Организация эффективных и надежных поставок товаров из Китая становится стратегически важной задачей для предприятий, стремящихся к оптимизации затрат и расширению ассортимента. Наша компания предлагает комплексные решения для вашего бизнеса, обеспечивая бесперебойные и выгодные поставки товаров напрямую из Китая.

  5. Shanesulse

    May I just say what a comfort to discover someone who really knows what they are talking about online. You actually know how to bring an issue to light and make it important. More and more people should read this and understand this side of the story. I was surprised that you’re not more popular since you surely possess the gift.
    zain kuwait recharge

  6. Шкаф Кухня – сердце дома, место, где рождаются кулинарные шедевры и собирается вся семья. Именно поэтому выбор мебели для кухни – задача ответственная и требующая особого подхода. Мебель на заказ в Краснодаре – это возможность создать уникальное пространство, идеально отвечающее вашим потребностям и предпочтениям.

回复 TimsothyMunny 取消回复

您的电子邮箱地址不会被公开。