当AI站在聚光灯下

60 minute read

如果一款 3D 动作游戏,把聚光灯打在 AI 身上,要求玩家作为“幕后黑手”进行间接操控,这在体验架构上会发生什么?

三年前我加入了这样一个以“即时动作宝可梦”为愿景的项目负责战斗玩法设计。四个月高强度迭代,试图让玩家在观看、指挥和亲手操作之间找到平衡,最终我们拿出了一个团队内反馈最好的版本,也撞上了几个在当时的框架内无法解决的结构性问题。这篇文章是对这段经历的复盘。

一、项目概述

基本信息

  • 类型:单机3D动作游戏
  • 核心玩法:2v2多回合单局对战(赛博斗蛐蛐)
  • 阵容结构:玩家(召唤师)+ AI同伴(宝宝) vs 敌方召唤师(AI)+ 敌方宝宝(AI)
  • 胜负条件:小队中任意一方死亡即回合战败,战败回合数达到上限即失败
  • AI技术:游戏中所有宝宝和敌对召唤师由 RL(强化学习)驱动
  • 核心幻想:训练师——“成为最强训练师”

项目愿景

宏观目标类似宝可梦:获取宝宝 → 养成 → 击败更强对手 → 获取更强宝宝 → 成为唯一幸存的召唤师。2v2对战是大世界/箱庭中的关键节点事件之一,原始设计还包含探索、解谜寻宝、NPC奇遇等内容(所有 NPC 由 AI Agent 驱动),战前可对出战宝宝和技能进行搭配并指定战斗策略。后因局外玩法过于庞大难以快速验证,局外部分改为类似杀戮尖塔的走格子玩法。

除了训练师幻想本身,这个项目也承载着一个更现实的目标:验证 RL 驱动 AI 能否从 NPC、陪玩等外围场景,走到更贴近核心玩法的位置。

贯穿全程的基础设计

项目以“战斗中玩家的注意力集中于双方的 AI同伴上”为核心设计方向。为此,双方召唤师常态隐身(攻击/释放技能/被命中时现形),从机制层强制执行“注意力在宝宝身上”。召唤师战斗力较弱、倾向于在暗处辅助和施号发令;宝宝战斗力较强、在明处自主战斗并响应玩家技能。这套基础设定贯穿了所有迭代阶段。


二、迭代历程

项目距今已三年有余,以下阶段划分基于回忆与逻辑推演,部分细节顺序可能存在偏差,但设计思路的演变脉络是确定的。

这条迭代线的本质,是玩家掌控力从低到高逐步增强:先尝试让玩家“少量干预”,再让玩家“持续参与”,最后补足策略层深度。它确实逐步解决了“玩家无聊”的问题,但也一步步侵蚀了“AI同伴是核心”的初始设想。

迭代总览

阶段 核心调整 直接收益 新暴露的问题
第一阶段A:初版 低干预观战,少量强力技能介入 强化“训练师在旁观察、关键时刻出手”的幻想 玩家体验两极分化,且难以主动调控宝宝表现
第一阶段B:加入战中指令 + 增强弓箭 增加战中指令与普攻影响力 提升玩家控制感与干预能力 指令不可靠,普攻强化反而侵蚀核心幻想
第二阶段:双线行动 强化召唤师战斗能力,加入联动技能 解决“玩家无聊”,显著提升参与感 注意力过载、擒王、AI可替代性问题出现
第三阶段A:构筑池 + 发牌 + 资源 在双线行动上叠加策略层 增加赛前构筑与局内资源管理深度 发牌随机性在即时战斗中失控
第三阶段B:去掉发牌,改为构筑池 + CD + 资源 保留构筑与资源,移除发牌 获得团队内部反馈最好的战斗版本 结构性问题仍未解决
补充尝试:引入养成系统 尝试补上局外养成与 RL 成长整合 指向 AI同伴不可替代性的真正支撑 启动过晚,来不及验证

第一阶段:低干预观战

初版(我加入项目时的现状,也是线下测试玩家体验的版本)

设计:玩家仅有少量强力技能作为干预手段,大部分时间观看宝宝自主战斗。

技能设计上,我们以“召唤师与宝宝的空间几何关系”为核心设计语言,天然引导玩家关注宝宝位置;而在终结技上,会额外强化玩家“观察→决策→执行”的微型循环——宝宝是发起者,玩家是响应者。

  • 小技能(召唤师发起,少量伤害+硬直)
    • 飞盘:释放后朝面朝方向飞出,飞行一定距离或玩家再次点击时转向宝宝方向,接触宝宝后消失,轨迹上的敌人被命中。
    • 连线:释放后与宝宝形成连线,敌人被连线首次扫到时判定命中。
  • 终结技(宝宝发起,接近半血伤害+强制倒地)
    • 裂波斩:宝宝朝召唤师发出能量波,途经敌人受少量硬直伤害;玩家可按指定按键吸收能量波(不被判定命中),吸收后获得一发限时的强力范围伤害弹药,玩家可自主选择释放时机。

飞盘是折返关系,连线是扫掠关系,裂波斩是接力关系——三者共同要求玩家追踪的不仅是敌人本身,更是“我和宝宝现在构成了什么空间关系”。这就是后文所有注意力分析的起点。

此外,召唤师可常态使用弓箭普攻(极低伤害、能对非普攻/技能/格挡状态下的宝宝造成极短硬直),以此解决技能 CD 期玩家“观察到机会却无法执行”的问题。玩家普攻期间会解除隐身状态,以此平衡风险和收益,引导玩家有限度地使用普攻。

体验预期:玩家像训练师一样观看宝宝战斗,在关键时刻用普攻或大招帮助宝宝建立优势甚至扭转战局,获得“运筹帷幄”的感受。

关键数据:在真实 AI 环境下进行的线下玩家测试中发现了一个非常突出的现象:策略背景的玩家对玩法评价更高但战斗表现更差,战斗背景的玩家战斗表现更好但评价更低。喜欢这个游戏的人玩不好它,玩得好的人不喜欢它——这直接指向了目标受众与操作界面之间的错配风险。

核心问题

  • 玩家体验两极分化:战斗核心玩家大部分时候无所事事,体验空洞——弓箭普攻是技能 CD 期唯一的操作出口,但极低的伤害和硬直让它缺乏操作反馈,填不满等待时间。非战斗核心玩家则已经操作过载——弓箭普攻要求实时读懂宝宝行为才能创造有效收益,同时技能又要求即时反应,两者叠加构成认知负担。
  • 玩家缺乏手段主动调控宝宝行为:一旦宝宝在关键回合表现不佳,玩家既难以及时介入,也很难把失败归因为“自己的决策问题”,挫败感会直接落在“队友不听话”上。

结论:低干预观战模式陷入两难——战斗向玩家嫌操作太少,策略向玩家已经过载;同时,玩家又缺乏足够手段去调控宝宝表现。在当前框架内,无法通过简单调整操作量同时满足两类玩家。

加入战中指令 + 增强弓箭

针对初版暴露的问题,团队做了两个方向的尝试:通过战中指令给玩家更多掌控感,缓解“宝宝表现不好但我管不了”的挫败感;同时增强弓箭硬直,提升普攻影响力。

设计:给玩家更多战略层指令(进攻/防守/站位等),以供玩家及时调整宝宝的战斗模式;增加弓箭命中造成的硬直,以期玩家能更好地利用宝宝对抗中的机会。

体验预期:在不显著增加操作负担的前提下,让玩家对宝宝的战斗表现更有控制感,同时让普攻成为更可靠的战中干预手段。

问题:RL 的不确定性反而降低了指令的执行效果,玩家感到指令“不可靠”——我下了命令,但宝宝未必按预期方式执行。弓箭硬直的强化并未明显提升其对宝宝战局的正向价值,反而导致 RL 训练的召唤师策略向射杀敌方召唤师的方向拟合,开始侵蚀“注意力应集中在宝宝身上”的核心幻想。

结论:低干预观战路线下的优化空间已接近极限——间接指令受限于 RL 的不确定性,直接强化普攻又会把注意力从宝宝身上拉走。

回过头看,在做第一阶段技能设计的时候,有一个问题反复困扰着我:为什么要把技能释放全部通过宝宝转译一遍?我们到底从中得到了什么?

这种设计的初衷是把玩家注意力拉回宝宝,但在即时动作玩法里,转译对输入体验的伤害是很大的——玩家按下按键后,结果不是立刻发生,而是要等宝宝理解、响应、执行,这条链路每多一环,操作的直接感就削弱一分。我越来越觉得,这个思路总体上带来的问题比它解决的问题更多。我们更像是在强行为了维护"宝宝是核心"这个设定,而牺牲了即时动作最基本的输入体验。

这也是第二阶段迭代显著强化玩家自主行为影响力的直接原因。

第二阶段:双线行动

低干预路线走不通后,团队转向了另一种思路:不再只让玩家”看宝宝打”,而是让召唤师和宝宝各自行动、通过联动技能形成合力。

其实”让召唤师自己也能打”是我最先考虑的方向,团队其他人在同一时期也不谋而合地得出了类似判断。回头看,这个共识本身就说明了一些问题——当所有人都觉得”给玩家更多直接操作”是最自然的解法时,我们其实已经在不自觉地寻找局部最优解,而不是退一步审视”为什么低干预路线走不通”这个问题本身。

设计:大幅加强召唤师自身战斗能力,强化技能中宝宝和玩家行为的联动效果——技能结果由双方的行为共同决定(如划线斩:双方各自冲刺留下轨迹,轨迹相交处产生额外大量伤害和硬直),玩家不只是在释放时需要关注宝宝,释放后的收益也取决于宝宝接下来的行动。同时,玩家拥有独立的实时操作目标:收集资源点、干扰对方召唤师(导致技能释放失败)、破坏地形(主要是对方生成的陷阱)。小技能由 CD 控制,大招由资源控制(通过场上收集和战斗行为获取),技能组固定不可自由装配。

体验预期:玩家在整个战斗过程中持续参与,不再无聊;联动技能通过机制本身把玩家的注意力重新拉回宝宝,让“宝宝是核心”以另一种方式成立。

效果:玩家确实不再无聊了。联动技能比第一阶段更自然地把操作收益绑定到宝宝状态上,同时延续了第一阶段”空间几何关系”的设计语言——只是从”我观察宝宝位置”变成了”我和宝宝共同创造位置”。

更具体地说,第二阶段的联动设计思路和第一阶段有一个关键区别:联动更多是基于双方行为结果去判定,而不是执行过程中对宝宝位置、状态的强依赖。玩家释放自己的技能时,主要关注的是敌人状态——包括宝宝技能对敌人状态产生的影响——而不需要时刻追踪宝宝本身的行为。这让输入到结果之间的链路变短了,体验也明显更直接。

但这也让我不断问自己另一个问题:如果玩家主要围绕敌人状态做判断,宝宝的技能效果只是作为战场状态的一部分被纳入考量,那这和大部分多人 PvP 游戏里队友之间的配合有什么本质区别?比如守望先锋里查莉娅吸住敌人,队友跟进补上伤害——宝宝在这里扮演的角色,实际上又回到了”陪玩”。这也是 AI 存在理由被质疑这个问题真正开始变尖锐的起点。

问题:新的问题也随之出现:

  • 注意力过载:玩家的注意力被四个单位同时争夺——己方宝宝、敌方宝宝、敌方召唤师、自身走位,普通玩家很容易晕头转向。
  • 策略深度不足:技能组固定,缺少赛前构筑空间,战斗虽然更忙但长期策略层偏薄。
  • 擒王策略出现:高玩逐渐发现,直接抛开宝宝战斗、猛攻对方召唤师的性价比很高。
  • AI存在理由被质疑:当召唤师自己的操作量和战斗影响力都显著提高后,“为什么队伍里的另一个位置一定要由 AI 承担,而不是直接由真人操控?”

结论:双线行动解决了“玩家无聊”,但也改变了项目的重心——宝宝不再是唯一的注意力中心,AI同伴的不可替代性开始被侵蚀。

第三阶段:叠加策略层

第二阶段解决了战斗参与感,但暴露出策略深度不足的问题。团队开始在“双线行动”的实时战斗框架上叠加策略层,补足赛前构筑和局内资源管理。

技能卡组构筑池(DB) + 局内发牌 + 资源消耗

设计:玩家在局外构筑对局可用的技能池(卡组),局内固定间隔从卡组抽牌,卡牌即技能。资源系统从第二阶段的”大招能量条”扩展为贯穿所有技能的统一费用——每次释放技能都需要消耗费用,费用通过自然增长和战斗行为(命中/受击)获取。

坦白说,发牌机制被提出时我就持保留态度。动作游戏中单次操作的代价远高于卡牌游戏,随机性一旦引入,要么需要足够大的策略空间来消化它,要么需要足够长的决策时间来应对它——而即时动作战斗这两者都给不了。但这个判断在当时只是直觉,缺少足够清晰的论据来说服团队,所以我们还是决定先做出来验证。

体验预期:通过”局外构筑 + 局内抽牌 + 资源管理”的组合,让玩家既有赛前策略,又能在局内围绕随机到手的技能做动态应变。

问题:发牌机制在即时战斗中的影响远超预期。动作游戏中单次失误的代价远高于卡牌游戏——抽到弱牌时不是“这一轮亏了节奏”,而是“宝宝可能被打一整套”。同时实时战斗缺少消化随机性的时间窗口,玩家往往来不及围绕手牌做规划,随机性就已经转化成了战损。

结论:策略空间不足放大了单次随机的影响权重,实时节奏又压缩了应对随机的决策时间,两者叠加导致玩家体感为“运气决定胜负”。

去掉发牌,改为 DB + CD技能 + 资源消耗

发牌路线失败后,团队保留了“构筑”和“资源管理”这两个有效的策略支点,去掉了局内发牌。

调整:DB 仅决定带入局内的技能(相应降低可携带技能数),技能改为正常 CD 流程,保留资源消耗逻辑。联动技能、召唤师战场目标、资源获取方式等第二阶段框架保持不变。

体验预期:保留赛前构筑和局内资源运营带来的策略深度,同时恢复玩家对技能使用节奏的掌控感。

结果:这是所有迭代版本中战斗玩法反馈最好的一版(团队内部评估)。

为什么反馈最好:去掉发牌随机性后,玩家对技能使用重新获得了稳定预期;DB 构筑提供了赛前策略深度(我带什么进局决定了我的打法);资源运营提供了局内决策深度(什么时候花资源、花在哪个技能上);联动技能继续把玩家的决策锚定在宝宝的位置和状态上。三者叠加,形成了赛前构筑 → 局内运营 → 战中联动执行的决策链。

结论:这版是战斗框架的局部最优,但结构性问题——AI 不可替代性、注意力过载、擒王——没能在战斗层面解决。

补充说明:引入养成系统

需要说明的是,局外养成并不是项目临近终止时才临时想到的补丁,而是最早就存在于整体规划中的一环。问题不在于“有没有想到”,而在于开发优先级始终没有被提到最高,导致直到项目终止前约半个月,团队才真正开始尝试把局外养成系统与 RL成长机制整合为一个可体验版本。

这次尝试虽然来不及落地,却在复盘时显得尤为关键——后文会展开说明,养成并不是这个项目可有可无的外围系统,而是 AI同伴“为什么不能被真人替代”的核心支撑之一。

验证方式说明

每次迭代大致遵循相似的验证流程:先用 4 个真人对战快速验证机制手感、节奏和可理解性;待 RL 训练完当前版本 AI 后(约需 1-2 周),再切入符合设想的”1真人+1AI vs 2AI”单机体验。这种方式能较快验证”战斗是否好玩”,但也存在适用范围的限制:真人测试能验证手感和节奏,真实 AI 环境能验证间接操控体验和 AI 可读性。回过头看,项目中测试用的 RL 宝宝大致处于中期”配合阶段”,因此这套验证对”中期配合是否成立”是有效的,但无法外推到前期养成爬坡和后期大成体验。


三、结构性矛盾分析

3.1 两条问题线索:从表层到根源

表层问题:玩家在战斗中该如何介入,注意力又该围绕谁来组织?

├─ 线索A:战斗结构问题
│   敌人是胜负逻辑核心,宝宝是玩法逻辑核心
│   → 注意力主轴缺失
│   → 围绕宝宝的判断还要经过 AI 转译,直接闭环不足

├─ 线索B:系统支撑问题
│   养成缺位,成长阶段定义不清
│   → AI难以被感知为”被我塑造的伙伴”
│   → AI同伴的不可替代性不成立

↓ 汇合

根源问题:
项目试图把”训练师 + AI同伴”的策略体验,
放进完全即时、对称、单一复杂 AI同伴为核心的动作对战里,
而这本身就是最难成立的承载形式。

回过头看,项目后期暴露出的许多问题并不是同一条链上的连锁反应,而是战斗结构与系统支撑两条线索同时失稳,最终汇合到了同一个根源上。

3.2 三个难以同时满足的设计要求

这个项目真正难的地方,是它试图在同一个战斗架构里同时满足三项要求:

  1. 宝宝必须既自主又是玩法核心 它不只是一个会自己战斗的队友,还需要持续成为玩家注意力、联动收益和核心幻想的主要承载者。

  2. 玩家必须持续参与且影响结果可归因 玩家不能闲着,而且要能明确感到”这波优势是我打出来的””这次失误是我判断错了”,而不是把结果归因给一个不稳定的 AI 队友。

  3. 实时对战必须保留动作游戏的直接性 判断、输入和结果之间的链路要尽量短,玩家的思路应能尽快兑现为战场变化,而不是长期经过黑盒转译。

这三项要求分别看都合理,难点在于它们在当前架构下很难同时成立。

需要先澄清一点:AI同伴的自主性与玩家持续参与本身并不矛盾,多人 PvP 就能同时成立。真正困难的是,在这个项目里,宝宝不仅要自主,还要长期占据玩法核心;玩家不仅要持续参与,还要让自己的影响在即时战斗中稳定、直接、可归因地落到结果上。

  • 如果优先满足 2 和 3,最自然的做法就是增强玩家自己的直接操作与战斗影响力,让玩家能快速把判断兑现成结果;但这样一来,宝宝就很容易从”玩法核心”退化成”高价值搭档”,第 1 条会被削弱。
  • 如果优先满足 1 和 2,就要求玩家的参与必须持续围绕宝宝展开,而且这些参与还要足够有意义;可一旦这些判断和操作都必须通过宝宝兑现,实时战斗中的注意力负担和转译噪声就会迅速上升,第 3 条会变差。
  • 如果优先满足 1 和 3,就意味着既要让宝宝持续站在舞台中央,又不能让系统转译拖慢动作反馈;在当前”单一复杂 AI同伴 + 玩家非主战 + 对称实时对战”的组合下,这几乎是最难的解法。现实结果往往是玩家为了不打断宝宝的核心地位而被限制操作密度,第 2 条又难成立。

所以问题并不是”宝宝自主”和”玩家有事做”天然冲突,而是:在本项目的具体结构里,宝宝不仅要自主,还要是核心;玩家不仅要参与,还要参与得直接、可靠、可归因。真正彼此拉扯的,是这组更具体的要求。

3.3 注意力主轴缺失与转译闭环不足

前一节提到的三项要求,最终会在战斗过程中具体表现为一个注意力问题:系统没有给玩家一个稳定的注意力主轴。

动作游戏、射击游戏,甚至多人 PvP 中的辅助角色,同样要求玩家同时关注敌我状态、资源、站位和时机差异。它们能成立,是因为这些信息大多服务于同一条清晰的胜利链,玩家通常知道此刻该优先围绕什么来组织行动。

本项目的问题在于,系统同时要求玩家围绕两个不同对象组织注意力,却没有建立稳定的主次关系。

  • 胜负逻辑要求玩家盯敌人:敌方威胁、破绽、击杀机会、回合胜负都在这一边。
  • 玩法逻辑又要求玩家盯宝宝:宝宝是核心幻想的承载者,也是联动技能、空间关系和局势判断的重要依据。

于是,敌人和宝宝都像”主目标”。玩家并不是单纯忙,而是会长期处在一种被撕扯的状态:如果围绕敌人组织行动,容易错过围绕宝宝展开配合的关键窗口;如果持续围绕宝宝思考,又容易丢掉即时战斗中真正决定胜负的敌方信息。

而且这里的问题不在于”看不见”——玩家作为隐身单位,很多时候完全可以通过站位与视角选择同时观察敌人和宝宝。问题在于:即便两边都看到了,系统仍然没有清晰回答——此刻我的判断应该优先服务哪条逻辑?是优先围绕敌方威胁与胜负条件行动,还是优先围绕宝宝状态与联动窗口行动?

这使得项目虽然也把”看”和”做”放在同一个时间轴上,却没有像优秀动作游戏那样,把判断压缩进操作本身,形成”判断—输入—结果”几乎直接连通的高速闭环。尤其是围绕宝宝的很多判断,并不能直接作用到战场,而是还要经过宝宝这层”转译”:我观察到机会 → 我做出输入 → 宝宝是否理解、是否响应、是否来得及执行 → 结果才真正发生。于是,闭环被拉长,反馈噪声变大,归因也变难。

所以,这里的问题不是简单的任务切换,也不是单纯的操作负担,而是:胜负逻辑要求玩家盯敌人,玩法逻辑又不断把玩家拉回宝宝,两者同时成立,却没有被组织成清晰的优先级结构;与此同时,围绕宝宝的判断又缺少动作游戏那种直接、稳定、可归因的反馈闭环。 对高水平玩家来说,这套系统仍然可能被驾驭;但对大多数玩家来说,结果就是认知负担和执行压力同时在线,既难以获得纯动作游戏那种”操作即策略”的爽感,也难以获得经典间接操控游戏那种清晰、稳定的决策体验。

3.4 受众端的错配表现

这种结构性矛盾最终直接体现在受众分化上。

第一阶段测试中观察到的”喜欢的人玩不好,玩得好的人不喜欢”,并不是偶然现象。它背后反映的,是两类玩家天然会把注意力组织到不同的主轴上。

  • 策略玩家更容易接受”宝宝是核心”这件事,也更愿意围绕 AI 状态、空间关系和联动窗口去理解战斗。他们能理解这套玩法的设计意图,但问题在于:一旦这些判断必须在实时压力下快速兑现,他们往往缺少足够稳定的动作执行能力,于是容易出现”思路对了,但打不出来”的情况。
  • 战斗玩家则相反。他们天然更习惯围绕敌方威胁、破绽、走位和击杀效率来组织注意力,也更擅长把判断迅速转成输入与结果。所以他们往往能打出更好的即时表现。但对他们来说,系统持续要求自己把注意力拉回宝宝、围绕联动与空间关系思考,往往会被感受为一种额外负担,甚至像是在给本来直接的战斗体验强行加一层”转译”。

换句话说,这不是简单的”目标用户没找准”,而是玩法结构本身同时要求两套并不容易兼得的能力

  1. 像策略玩家那样,愿意把宝宝当作核心对象去观察、理解和配合;
  2. 又像动作玩家那样,在实时压力下快速执行、精准兑现判断。

问题在于,这两套能力并没有被拆到不同阶段,而是被压在一场连续战斗里;更进一步,它们还分别依附于不同的注意力主轴——一套围绕宝宝,一套围绕敌人。于是策略玩家更容易”懂但打不出来”,战斗玩家则更容易”打得出来但不想这样打”。

3.5 胜负条件与隐身机制的双重漏洞(擒王问题)

前面几节讨论的是战斗体验层面的结构性问题,而擒王则是这些问题在规则层面催生的最典型后果。

擒王的主要驱动力是效率。 规则”任一方死亡即回合战败”意味着攻击更弱的召唤师就是数学上的最优解。第一阶段迭代中就已发现,RL 训练的敌方召唤师最终会拟合到擒王行为上,唯一能打败这些 AI 的真人玩家采用的也是相同策略。即使去掉隐身机制,只要胜负条件不变,擒王仍然是理性选择。对比宝可梦——训练师不在场上,胜负条件严格绑定在宝可梦身上,所以不存在”绕过主力打弱点”的可能。

隐身机制在中后期叠加了乐趣驱动。 随着召唤师能力增强,搜寻并击杀隐身目标成为极具技巧表现力的行为(类比 OW 抓黑影、Dota 抓隐身英雄),为擒王策略增添了效率之外的吸引力。隐身的设计意图是让召唤师”消失在聚光灯外”,实际效果却给了召唤师一个聚光灯。

弓箭攻击提供了行为路径的铺垫。 从第一阶段就建立了”可以直接射击对方召唤师”的认知,射箭破隐的惩罚在早期尚能维持平衡,后期随着破隐频率大幅上升,该惩罚已不足以约束擒王行为。

设计教训: 一个机制的实际效果可能与设计意图完全相反——评估机制不仅要看它”鼓励什么”,也要看它”让什么变得有趣”,二者可能指向相反的方向。

3.6 MVP 优先级的误判

团队将养成体系归类为”局外系统”延后开发,将迭代资源集中于单局对抗玩法。但在当前即时动作战斗的框架下,养成系统不是锦上添花的留存手段,而是 AI同伴存在合理性的关键前提。

AI同伴的不可替代性来源于”养成/创造”幻想——所有权感(这是我养的)、观赛自豪感(看我的作品在战斗)、跨对局的成长记忆、可被设计的行为模式。当养成系统缺位时,这些不可替代性均不成立,AI同伴退化为”一个不如真人的队友”。

正如第二阶段的迭代经验所揭示的:当玩家的输入链路变短、主要围绕敌人状态做判断之后,宝宝的角色实际上和多人 PvP 里的队友配合没有本质区别。如果没有养成系统赋予的”这是我塑造出来的伙伴”这层情感权重,AI同伴的存在理由就很难成立。

MVP 的子系统优先级应由”核心体验成立的前提条件”决定,而非默认按”局内/局外”分层。

3.7 AI 行为的阶段定义缺失

技术展示目标和体验目标在项目中没有被拆开讨论,与此同时,团队也缺少一套玩家可感知、可验证的成长阶段定义。

这里的问题不是”用 RL 预训练宝宝来测试”本身错了,而是团队缺少一套外部可观测的阶段框架来解释训练结果。RL 驱动的宝宝是一个黑盒:训练多久算”中期”、什么表现算”大成”,没有显式的判定标准。但实际上,宝宝的成长阶段完全可以通过外部可观察的行为特征来定义——

  • 基础阶段:会使用技能、会攻击敌人,但不会主动配合召唤师的行动
  • 配合阶段:开始响应召唤师的技能节奏(如联动技能窗口期主动靠近或拉开距离),但对敌人的行为预判有限
  • 大成阶段:能读懂敌人意图,主动回避危险技能、抓对手硬直,与召唤师形成默契配合

这套标准不依赖 RL 的内部状态,只看行为输出,理论上甚至可以用行为树 bot 按阶段模拟。但项目中这套定义始终没有被显式建立,导致了两个后果:

一是验证目标模糊。 每次 RL 训练出一版宝宝,团队对它”算什么水平”的判断依赖个人体感。同一只宝宝,有人觉得”已经很聪明了”,有人觉得”还差得远”——缺少共识基准,验证结论的可靠性就打了折扣。回过头看,项目中测试用的 RL 宝宝大致处于”配合阶段”——有基础战斗理解但达不到见招拆招的程度,玩家需要主动配合才能打出优势。这个阶段的体验反馈是有参考价值的,但当时团队并没有用这样的框架去定位和解读它。

二是养成感知无从设计。 如果连开发者都说不清宝宝处于哪个成长阶段,玩家就更不可能感知到”我的宝宝在变强”。养成系统需要把 AI 的行为变化翻译成玩家可感知的反馈(如 5.1 中提到的行为变化报告、关键时刻回放),而翻译的前提是先有一套明确的”从哪里到哪里”的阶段划分。缺少这个基础,即使养成系统按时上线,玩家看到的也可能只是”宝宝好像变了,但我说不清怎么变的”。

3.8 为什么选了最难的形式

战斗结构线和系统支撑线最终汇合到同一个更深层的问题:为什么这个项目从一开始就选了最难成立的承载形式?

虽然我并没有参加立项的过程,但回过头看,选择即时动作作为战斗形式,背后其实有两层动机。

表层是市场定位的理由:”实时动作”提案时更有冲击力、3D 动作视觉表现力更强、市场叙事中”回合制 = 过时”的偏见也长期存在。但这些理由并不直接指向项目真正想成立的核心体验。

深层是技术展示的诉求: 对公司而言,这个项目还有一层更现实的意义:它是一次”秀肌肉”——试图把 RL bot 从 NPC、陪玩这类与核心玩法结合不强的场景里拎出来,推进到真正位于玩法中心的位置,验证它更大的想象空间。

但问题在于,玩家并不能直接感知”这是 RL”,也不会因为它”更强”就天然获得更好的体验。对玩家而言,一个很强的 RL bot,很多时候和”一个很强的 bot”并没有本质区别——这更像是在看一个高手打游戏,而不是在体验一种新的玩家关系。

RL 在这个项目里真正可能成立的价值,并不在”它很强”,而在”它会被我塑造”。只有当这种能力能够表现为”它越来越懂我””它会被我的玩法训练出来””这是我养出来的战斗伙伴”时,RL 才真正转化成可感知的玩家价值。

而从玩家体验出发,项目真正需要的是:给玩家足够时间去观察、思考、决策,再看 AI 执行。回合制只是其中一种解法,半即时(ATB)、阶段制、慢节奏实时 + 暂停都可以,但完全的即时动作,恰恰是所有选项里对这种体验最不友好的形式。

也就是说,团队在立项时同时追求了两件事:一是让”训练师 + AI同伴”的体验成立,二是把 RL bot 尽可能推到玩法中心。问题在于,这两者在这里并不是天然一致的——团队最后选中了技术含金量最高的形式,也恰好选中了玩家体验最难成立的形式。


四、横向品类对比

间接操控游戏为什么能成立

在分析过程中,我对比了多个间接操控品类的成功案例,最后发现关键不只是”玩家是否在看 AI 打”,而是玩家的决策是否仍然能够被稳定地验证、理解和修正

宝可梦的回合制让每一次”看动画”都是上一个决策的结算;Auto Chess 的战斗阶段是你构建策略的检验;足球经理的比赛画面是你战术布置的输出。在这些游戏里,玩家虽然不直接控制战斗执行,但并不会感到自己被排除在结果之外,因为”看”不是空窗期,而是一个明确的结果反馈阶段。

更重要的是,这些游戏里的”看”不仅用于确认结果,也用于提取下一轮决策所需的信息:对手用了什么招、暴露了什么弱点、当前布置哪里出了问题。玩家让渡的只是执行权,而不是理解权和决策权。

从这个角度看,间接操控游戏之所以能成立,并不是因为”观战也很好玩”,而是因为玩家与结果之间仍然保持着一条清晰、稳定、可学习的因果链:我做了一个判断 → 系统替我执行 → 我看到结果 → 我据此调整下一步决策。

一旦这条链路成立,”看”就不再是被动等待,而是策略体验的一部分。

实时间接操控的成立条件

如果把讨论进一步限定到”实时战斗 + 间接操控”这个范围内,那么真正稳定成立的案例其实很少。前一节提到的宝可梦、Auto Chess、足球经理,说明的是”间接操控”本身如何成立;但它们并不是实时间接操控游戏,不能直接作为这里的正例。

回过头看,少数相对成立的实时案例,大多共享一个核心条件:玩家自己必须拥有足够强、足够高密度的直接控制,去压住 AI 转译带来的延迟、噪声和归因困难。

这条路通常有两种常见形式:

  • 玩家控制的是大量简单单位:指令粒度较粗,单个单位的转译成本被摊薄,玩家管理的是整体趋势而不是某一个复杂个体。典型如 Pikmin、Overlord。
  • 玩家自己就是主战角色,AI 伙伴只承担辅助链路:核心胜负闭环仍然由玩家直接完成,AI 提供补充价值而不是决定性控制。典型如 Dragon’s Dogma。

这两种形式表面不同,本质上是一类:它们都不是把”单一复杂 AI同伴”稳定放在胜负核心,而是通过增强玩家自己的直接控制,来避免判断—输入—结果之间被 AI 这层转译拉得过长。

最接近本项目概念的先例,其实是 Digimon World 1——实时战斗、单一自主 AI同伴、玩家并不直接主战。但它的战斗系统恰恰也是整个游戏口碑最差的部分,这反而说明:如果坚持”实时战斗 + 单一复杂 AI同伴 + 玩家不直接主战”这三个条件同时成立,那么难度本来就极高。

本项目恰好选中了这条最难的路:玩家没有足够高密度的直接操作,被操控对象是一只高情感权重、强个体性的复杂同伴,而且 AI同伴还被放在核心胜负链路上。第三阶段后,项目某种程度上开始向”玩家自己成为主力”这条路靠拢,代价和收益在第三章已有分析。


五、未解决的设计问题

5.1 AI 行为的可读性

通过明确前摇解决了”玩家知道宝宝接下来要做什么”的问题,但对成长感知和胜负归因的感知始终未找到好的方案。RL 学习过程是黑箱的,需要一层”翻译”设计将 AI 的行为变化转化为可感知的养成反馈(如战后行为变化报告、关键时刻回放标注、行为倾向可视化面板)。

5.2 捕获机制与养成系统的交互

战胜敌人后可获得对方宝宝(类似宝可梦),定位横向拓宽为主(多只不同风格的宝宝轮换使用)。纵向加深通过给未上场的宝宝也喂玩家数据训练来降低切换成本,行为差异主要与技能组相关。

5.3 AI 技术选型的分层设计

常规敌人使用行为树驱动以保证设计预期精确落地;关键节点的对称对战使用 RL 驱动以产生涌现行为,利用技能设计本身作为行为边界约束——对称 2v2 中 AI 无法超越技能框定的能力边界,上限就是”像一个很强的真人对手”,体验天然可控。

5.4 支援战士转型的利弊

如果将核心幻想从”训练师”转为”支援战士”(玩家自己是主力,宝宝是辅助搭档),可以解决受众错配、注意力过载、擒王等多数问题。但代价是项目独特性消失(本质上变成了战神 + 阿特柔斯),且 RL 技术的必要性大幅降低。这是一个需要有意识做出的取舍,而非迭代中自然滑过去的结果。


六、核心教训

  1. MVP 的子系统优先级应由”核心体验成立的前提条件”决定,而非默认按”局内/局外”分层。在本项目的即时动作框架下,养成系统是 AI同伴不可替代性的关键支撑,不是后期锦上添花的留存工具。

  2. 玩法形式应服务于核心体验,而非反过来。”实时动作版宝可梦”是一个吸引人的立项叙事,但当需要”观察 + 思考 + 决策”的核心体验遇上需要”反应 + 操作 + 精度”的即时战斗,两者互相掣肘而非互相成就。技术展示的诉求与玩家体验的需求并不天然一致——团队选中了技术含金量最高的形式,也恰好选中了玩家体验最难成立的形式。

  3. 注意力结构需要被显式设计,而不是自然涌现。当系统同时要求玩家围绕多个对象组织注意力时,必须建立清晰的主次关系。本项目中,胜负逻辑把玩家拉向敌人,玩法逻辑又把玩家拉回宝宝,两者都像主目标,结果就是注意力被长期撕扯。

  4. 间接操控在实时动作中成立的条件极为苛刻。少数成立的案例都依赖玩家自身拥有足够强、足够高密度的直接控制,去压住 AI 转译带来的延迟与噪声。坚持”单一复杂 AI同伴 + 玩家非主战 + 实时对称对战”同时成立,难度极高。

  5. 胜负条件决定玩家行为,机制效果可能与意图相反。”任一方死亡即失败”的规则是擒王的根本原因(RL 自己都会拟合到这个行为上);隐身机制在后期叠加了乐趣驱动,进一步强化了擒王的吸引力。设计时需警惕”意图-效果倒挂”。

  6. RL 的玩家价值不在”更强”,而在”被我塑造”。玩家并不能直接感知”这是 RL”,一个很强的 RL bot 和一个很强的 bot 在体验上没有本质区别。只有当 RL 能力表现为”它越来越懂我””这是我养出来的战斗伙伴”时,它才真正转化成可感知的玩家价值。而这需要养成系统和成长阶段定义作为前提。

  7. 跨品类机制移植需评估策略空间和时间节奏的双重匹配。发牌机制在卡牌游戏中成立,一是因为丰富的策略空间能消化随机性,二是回合制给了玩家围绕手牌规划的时间。即时动作战斗中策略空间较窄(单次随机的代价更高)且缺少决策时间窗口,两者叠加导致随机性被放大为运气主导。


回到最初的问题:如果把聚光灯打在 AI 身上,要求玩家作为幕后黑手进行间接操控,会发生什么?

四个月的迭代给出的答案是:聚光灯可以打在 AI 身上,但舞台的形式必须让玩家有足够的时间和空间去理解、欣赏和回应这束光。我们选了一个最考验观众反应速度的舞台,结果灯光还没看清,演出就已经结束了。

如果有机会重来,我不会改变"让 AI 站在聚光灯下"这个方向——它仍然是一个值得探索的设计命题。但我会先问一个更前置的问题:什么样的舞台,才能让观众真正看见这束光?