400 行 C 代码, 从 0 实现强化学习 | antirez ttt-rl

400 行 C 代码, 从 0 实现强化学习 | antirez ttt-rl

Subscribe:
页面内有广告,如果你看不到说明你在用广告拦截插件,为了网站能够持续运营,请顺手将本网站加到广告拦截白名单中,感谢!


Redis 作者 antirez 新开源了一个厉害的项目, 用不到 400 行的 C 代码, 不使用任何依赖, 从头实现了一个强化学习 (Reinforcement learning)的 Tic Tac Toe 游戏.

现在你能搜到的绝大部分强化学习的例子都是通过 PyTorch 之类的 ML 框架实现的, 这个项目能够帮你加深对 RL 学习的理解.

编译之后, 程序会先尝试用随机对手进行对局 15 万次, 然后启动一个交互式的命令行与用户一起玩 Tic Tac Toe 的游戏.

如果在和随机对手进行对局 200 万次之后再和人类一起玩, 那它从来没输过.

原仓库 Readme 和代码中有更多细节和注释, 想学习 ML 和强化学习的朋友不容错过.

🫘: ouo.io/Ttrh2MT