深度强化学习平台为玩家带来新的人工智能体验-电子发烧友网

得益于索尼 AI 、索尼互动娱乐（ SIE ）以及 GT Sport 的开发者 Polyphony Digital Inc 。的最新合作， Gran Turismo （ GT ） Sport 的竞争对手正面临一个新的、 AI 超级强大的竞争者。

被称为 Gran Turismo Sophy （ GT Sophy ）的自主人工智能赛车代理最近击败了 GT 运动领域的世界最佳车手。发表在 Nature，上的工作介绍了一种新的深度强化学习平台，用于创建 GT Sophy ，并可能为全球玩家带来新的人工智能体验。

索尼集团公司董事长、总裁兼首席执行官吉田健一郎在一份发布。的声明中说：“索尼的目的是‘通过创造力和技术的力量，让世界充满情感’，而大图里斯莫·索菲就是这一点的完美体现。”

“我们为游戏玩家打造了一款游戏 AI ，这是索尼作为一家创意娱乐公司的独特之处。它标志着 AI 发展的重大飞跃，同时也为全球 GT 粉丝提供了增强的体验。”

Smart gaming

人工智能对游戏来说并不新鲜。 2017 年，来自 DeepMind 的 Alpha Zero 项目在学会玩和征服国际象棋、日本象棋和使用深度强化学习（ deep RL ）围棋时成为新闻

作为机器学习的一种补偿， deep RL 在基本术语中使用计算 RL 代理通过试错来做出决策，以解决问题。在算法中引入深度学习后，智能体从非常大的数据集做出决策，并决定有效地实现其目标的行动。

Alpha Zero 程序使用了一种算法，一个未经训练的神经网络对自己进行了数百万次游戏，并根据其结果调整游戏。

然而，赛车人工智能对来自不同汽车、赛道、驾驶员、天气和对手的无数变量提出了更复杂的推理需求。作为最逼真的驾驶模拟器之一， GT Sport 使用真实的赛车和赛道尺寸，通过考虑空气阻力和轮胎摩擦等因素再现比赛环境。

强化良好行为

该团队创建了一个能够适应实时因素的赛车代理，并使用新开发的 deep RL 算法对 GT Sophy 进行了赛车控制、赛车战术和赛车礼仪三项具体技能的培训。根据 project’s website ，该算法使用最新的强化学习技术，根据赛车经纪人的行为对其进行奖励或惩罚。

研究人员在研究报告中写道：“使用 deep RL 开发赛车代理的优点之一是，工程师无需编程如何以及何时执行赢得比赛所需的技能，只要它暴露在正确的条件下，代理通过反复试验学会做正确的事。”。

该团队定制了一个基于网络的分布式异步部署和培训（ DART ）平台，使用 SIE 的全球云基础设施研究人员在 PlayStation 4 控制台上培训 GT Sophy ，然后使用 DART 收集培训数据并评估代理的版本。

使用这个系统，研究人员指定一个实验，自动运行，并在网络浏览器中查看数据。每个实验都在一个计算节点上使用一个培训师，该培训师使用 cuDNN 加速的 TensorFlow 深度学习框架和 NVIDIA V100 GPU 或 NVIDIA A100 GPU 的一半，再加上大约 8 个 CPU 和 55 个记忆的碎片。

据 project’s website 报道，“该系统允许索尼人工智能的研究团队无缝地同时运行数百个实验，同时探索将 GT Sophy 提升到下一个水平的技术。”。

增压燃气轮机

在 2021 ，世界上最好的 GT 赛车手中有四人在两个单独的比赛中与 GT Suffy 竞争。这些比赛包括三个赛马场、四名 GT Sophy 经纪人和赛车。在首次亮相时， GT Sophy 在计时赛中表现出色，但在同一赛道上挑战赛车手时表现不佳。

该队在第一场比赛结果的基础上进行了改进，升级了训练体系，增加了网络规模，调整了特征和奖励，增强了对手。

这一结果造就了一名赛车经纪人，他可以在急转弯处超越一名人类驾驶员，处理拥挤的起跑，在滑流中进行弹弓传球，并执行防守动作。经纪人这样做的同时，也遵守了人类驾驶员理解和实践的微妙的体育道德考虑。在计时赛和 FIA 认证的格兰赛车锦标赛系列赛中，它也击败了顶尖的人力车手。

据报道， GT Sophy 在短短几个小时内就学会了绕道而行。在大约两天的时间里，它可以击败大约 95% 的人类玩家。给它 10 到 12 天，大约 45 ， 00 个驾驶小时， GT Sophy 就等于或超过了世界顶级车手。

凭借其赛车实力， GT Sophy 的目标是让 GT 运动更有趣、更具竞争力和教育性。一些与 GT Sophy 竞争的专家报告说，他们学习了转弯和驾驶技术的新方法。

研究人员还发现， deep RL 有可能改善协作机器人、无人机或自动驾驶车辆等系统的实际应用。

关于作者

Michelle Horton 是 NVIDIA 的高级开发人员通信经理，拥有通信经理和科学作家的背景。她在 NVIDIA 为开发者博客撰文，重点介绍了开发者使用 NVIDIA 技术的多种方式。

审核编辑：郭婷

声明：本文内容及配图由入驻作者撰写或者入驻合作网站授权转载。文章观点仅代表作者本人，不代表电子发烧友网立场。文章及其配图仅供工程师学习之用，如有内容侵权或者其他违规问题，请联系本站处理。举报投诉