当AI站在聚光灯下

2026-03-25

60 minute read

游戏

AI , 战斗 , 体验 , 验证

如果一款 3D 动作游戏，把聚光灯打在 AI 身上，要求玩家作为“幕后黑手”进行间接操控，这在体验架构上会发生什么？

三年前我加入了这样一个以“即时动作宝可梦”为愿景的项目负责战斗玩法设计。四个月高强度迭代，试图让玩家在观看、指挥和亲手操作之间找到平衡，最终我们拿出了一个团队内反馈最好的版本，也撞上了几个在当时的框架内无法解决的结构性问题。这篇文章是对这段经历的复盘。

一、项目概述

基本信息

类型：单机3D动作游戏
核心玩法：2v2多回合单局对战（赛博斗蛐蛐）
阵容结构：玩家（召唤师）+ AI同伴（宝宝） vs 敌方召唤师（AI）+ 敌方宝宝（AI）
胜负条件：小队中任意一方死亡即回合战败，战败回合数达到上限即失败
AI技术：游戏中所有宝宝和敌对召唤师由 RL（强化学习）驱动
核心幻想：训练师——“成为最强训练师”

项目愿景

宏观目标类似宝可梦：获取宝宝 → 养成 → 击败更强对手 → 获取更强宝宝 → 成为唯一幸存的召唤师。2v2对战是大世界/箱庭中的关键节点事件之一，原始设计还包含探索、解谜寻宝、NPC奇遇等内容（所有 NPC 由 AI Agent 驱动），战前可对出战宝宝和技能进行搭配并指定战斗策略。后因局外玩法过于庞大难以快速验证，局外部分改为类似杀戮尖塔的走格子玩法。

除了训练师幻想本身，这个项目也承载着一个更现实的目标：验证 RL 驱动 AI 能否从 NPC、陪玩等外围场景，走到更贴近核心玩法的位置。

贯穿全程的基础设计

项目以“战斗中玩家的注意力集中于双方的 AI同伴上”为核心设计方向。为此，双方召唤师常态隐身（攻击/释放技能/被命中时现形），从机制层强制执行“注意力在宝宝身上”。召唤师战斗力较弱、倾向于在暗处辅助和施号发令；宝宝战斗力较强、在明处自主战斗并响应玩家技能。这套基础设定贯穿了所有迭代阶段。

二、迭代历程

项目距今已三年有余，以下阶段划分基于回忆与逻辑推演，部分细节顺序可能存在偏差，但设计思路的演变脉络是确定的。

这条迭代线的本质，是玩家掌控力从低到高逐步增强：先尝试让玩家“少量干预”，再让玩家“持续参与”，最后补足策略层深度。它确实逐步解决了“玩家无聊”的问题，但也一步步侵蚀了“AI同伴是核心”的初始设想。

迭代总览

阶段	核心调整	直接收益	新暴露的问题
第一阶段A：初版	低干预观战，少量强力技能介入	强化“训练师在旁观察、关键时刻出手”的幻想	玩家体验两极分化，且难以主动调控宝宝表现
第一阶段B：加入战中指令 + 增强弓箭	增加战中指令与普攻影响力	提升玩家控制感与干预能力	指令不可靠，普攻强化反而侵蚀核心幻想
第二阶段：双线行动	强化召唤师战斗能力，加入联动技能	解决“玩家无聊”，显著提升参与感	注意力过载、擒王、AI可替代性问题出现
第三阶段A：构筑池 + 发牌 + 资源	在双线行动上叠加策略层	增加赛前构筑与局内资源管理深度	发牌随机性在即时战斗中失控
第三阶段B：去掉发牌，改为构筑池 + CD + 资源	保留构筑与资源，移除发牌	获得团队内部反馈最好的战斗版本	结构性问题仍未解决
补充尝试：引入养成系统	尝试补上局外养成与 RL 成长整合	指向 AI同伴不可替代性的真正支撑	启动过晚，来不及验证

第一阶段：低干预观战

初版（我加入项目时的现状，也是线下测试玩家体验的版本）

设计：玩家仅有少量强力技能作为干预手段，大部分时间观看宝宝自主战斗。

技能设计上，我们以“召唤师与宝宝的空间几何关系”为核心设计语言，天然引导玩家关注宝宝位置；而在终结技上，会额外强化玩家“观察→决策→执行”的微型循环——宝宝是发起者，玩家是响应者。

小技能（召唤师发起，少量伤害+硬直）：
- 飞盘：释放后朝面朝方向飞出，飞行一定距离或玩家再次点击时转向宝宝方向，接触宝宝后消失，轨迹上的敌人被命中。
- 连线：释放后与宝宝形成连线，敌人被连线首次扫到时判定命中。
终结技（宝宝发起，接近半血伤害+强制倒地）：
- 裂波斩：宝宝朝召唤师发出能量波，途经敌人受少量硬直伤害；玩家可按指定按键吸收能量波（不被判定命中），吸收后获得一发限时的强力范围伤害弹药，玩家可自主选择释放时机。

飞盘是折返关系，连线是扫掠关系，裂波斩是接力关系——三者共同要求玩家追踪的不仅是敌人本身，更是“我和宝宝现在构成了什么空间关系”。这就是后文所有注意力分析的起点。

此外，召唤师可常态使用弓箭普攻（极低伤害、能对非普攻/技能/格挡状态下的宝宝造成极短硬直），以此解决技能 CD 期玩家“观察到机会却无法执行”的问题。玩家普攻期间会解除隐身状态，以此平衡风险和收益，引导玩家有限度地使用普攻。

体验预期：玩家像训练师一样观看宝宝战斗，在关键时刻用普攻或大招帮助宝宝建立优势甚至扭转战局，获得“运筹帷幄”的感受。

关键数据：在真实 AI 环境下进行的线下玩家测试中发现了一个非常突出的现象：策略背景的玩家对玩法评价更高但战斗表现更差，战斗背景的玩家战斗表现更好但评价更低。喜欢这个游戏的人玩不好它，玩得好的人不喜欢它——这直接指向了目标受众与操作界面之间的错配风险。

核心问题：

玩家体验两极分化：战斗核心玩家大部分时候无所事事，体验空洞——弓箭普攻是技能 CD 期唯一的操作出口，但极低的伤害和硬直让它缺乏操作反馈，填不满等待时间。非战斗核心玩家则已经操作过载——弓箭普攻要求实时读懂宝宝行为才能创造有效收益，同时技能又要求即时反应，两者叠加构成认知负担。
玩家缺乏手段主动调控宝宝行为：一旦宝宝在关键回合表现不佳，玩家既难以及时介入，也很难把失败归因为“自己的决策问题”，挫败感会直接落在“队友不听话”上。

结论：低干预观战模式陷入两难——战斗向玩家嫌操作太少，策略向玩家已经过载；同时，玩家又缺乏足够手段去调控宝宝表现。在当前框架内，无法通过简单调整操作量同时满足两类玩家。

加入战中指令 + 增强弓箭

针对初版暴露的问题，团队做了两个方向的尝试：通过战中指令给玩家更多掌控感，缓解“宝宝表现不好但我管不了”的挫败感；同时增强弓箭硬直，提升普攻影响力。

设计：给玩家更多战略层指令（进攻/防守/站位等），以供玩家及时调整宝宝的战斗模式；增加弓箭命中造成的硬直，以期玩家能更好地利用宝宝对抗中的机会。

体验预期：在不显著增加操作负担的前提下，让玩家对宝宝的战斗表现更有控制感，同时让普攻成为更可靠的战中干预手段。

问题：RL 的不确定性反而降低了指令的执行效果，玩家感到指令“不可靠”——我下了命令，但宝宝未必按预期方式执行。弓箭硬直的强化并未明显提升其对宝宝战局的正向价值，反而导致 RL 训练的召唤师策略向射杀敌方召唤师的方向拟合，开始侵蚀“注意力应集中在宝宝身上”的核心幻想。

结论：低干预观战路线下的优化空间已接近极限——间接指令受限于 RL 的不确定性，直接强化普攻又会把注意力从宝宝身上拉走。

回过头看，在做第一阶段技能设计的时候，有一个问题反复困扰着我：为什么要把技能释放全部通过宝宝转译一遍？我们到底从中得到了什么？

这种设计的初衷是把玩家注意力拉回宝宝，但在即时动作玩法里，转译对输入体验的伤害是很大的——玩家按下按键后，结果不是立刻发生，而是要等宝宝理解、响应、执行，这条链路每多一环，操作的直接感就削弱一分。我越来越觉得，这个思路总体上带来的问题比它解决的问题更多。我们更像是在强行为了维护"宝宝是核心"这个设定，而牺牲了即时动作最基本的输入体验。

这也是第二阶段迭代显著强化玩家自主行为影响力的直接原因。

第二阶段：双线行动

低干预路线走不通后，团队转向了另一种思路：不再只让玩家”看宝宝打”，而是让召唤师和宝宝各自行动、通过联动技能形成合力。

其实”让召唤师自己也能打”是我最先考虑的方向，团队其他人在同一时期也不谋而合地得出了类似判断。回头看，这个共识本身就说明了一些问题——当所有人都觉得”给玩家更多直接操作”是最自然的解法时，我们其实已经在不自觉地寻找局部最优解，而不是退一步审视”为什么低干预路线走不通”这个问题本身。

设计：大幅加强召唤师自身战斗能力，强化技能中宝宝和玩家行为的联动效果——技能结果由双方的行为共同决定（如划线斩：双方各自冲刺留下轨迹，轨迹相交处产生额外大量伤害和硬直），玩家不只是在释放时需要关注宝宝，释放后的收益也取决于宝宝接下来的行动。同时，玩家拥有独立的实时操作目标：收集资源点、干扰对方召唤师（导致技能释放失败）、破坏地形（主要是对方生成的陷阱）。小技能由 CD 控制，大招由资源控制（通过场上收集和战斗行为获取），技能组固定不可自由装配。

体验预期：玩家在整个战斗过程中持续参与，不再无聊；联动技能通过机制本身把玩家的注意力重新拉回宝宝，让“宝宝是核心”以另一种方式成立。

效果：玩家确实不再无聊了。联动技能比第一阶段更自然地把操作收益绑定到宝宝状态上，同时延续了第一阶段”空间几何关系”的设计语言——只是从”我观察宝宝位置”变成了”我和宝宝共同创造位置”。

更具体地说，第二阶段的联动设计思路和第一阶段有一个关键区别：联动更多是基于双方行为结果去判定，而不是执行过程中对宝宝位置、状态的强依赖。玩家释放自己的技能时，主要关注的是敌人状态——包括宝宝技能对敌人状态产生的影响——而不需要时刻追踪宝宝本身的行为。这让输入到结果之间的链路变短了，体验也明显更直接。

但这也让我不断问自己另一个问题：如果玩家主要围绕敌人状态做判断，宝宝的技能效果只是作为战场状态的一部分被纳入考量，那这和大部分多人 PvP 游戏里队友之间的配合有什么本质区别？比如守望先锋里查莉娅吸住敌人，队友跟进补上伤害——宝宝在这里扮演的角色，实际上又回到了”陪玩”。这也是 AI 存在理由被质疑这个问题真正开始变尖锐的起点。

问题：新的问题也随之出现：

注意力过载：玩家的注意力被四个单位同时争夺——己方宝宝、敌方宝宝、敌方召唤师、自身走位，普通玩家很容易晕头转向。
策略深度不足：技能组固定，缺少赛前构筑空间，战斗虽然更忙但长期策略层偏薄。
擒王策略出现：高玩逐渐发现，直接抛开宝宝战斗、猛攻对方召唤师的性价比很高。
AI存在理由被质疑：当召唤师自己的操作量和战斗影响力都显著提高后，“为什么队伍里的另一个位置一定要由 AI 承担，而不是直接由真人操控？”

结论：双线行动解决了“玩家无聊”，但也改变了项目的重心——宝宝不再是唯一的注意力中心，AI同伴的不可替代性开始被侵蚀。

第三阶段：叠加策略层

第二阶段解决了战斗参与感，但暴露出策略深度不足的问题。团队开始在“双线行动”的实时战斗框架上叠加策略层，补足赛前构筑和局内资源管理。

技能卡组构筑池（DB） + 局内发牌 + 资源消耗

设计：玩家在局外构筑对局可用的技能池（卡组），局内固定间隔从卡组抽牌，卡牌即技能。资源系统从第二阶段的”大招能量条”扩展为贯穿所有技能的统一费用——每次释放技能都需要消耗费用，费用通过自然增长和战斗行为（命中/受击）获取。

坦白说，发牌机制被提出时我就持保留态度。动作游戏中单次操作的代价远高于卡牌游戏，随机性一旦引入，要么需要足够大的策略空间来消化它，要么需要足够长的决策时间来应对它——而即时动作战斗这两者都给不了。但这个判断在当时只是直觉，缺少足够清晰的论据来说服团队，所以我们还是决定先做出来验证。

体验预期：通过”局外构筑 + 局内抽牌 + 资源管理”的组合，让玩家既有赛前策略，又能在局内围绕随机到手的技能做动态应变。

问题：发牌机制在即时战斗中的影响远超预期。动作游戏中单次失误的代价远高于卡牌游戏——抽到弱牌时不是“这一轮亏了节奏”，而是“宝宝可能被打一整套”。同时实时战斗缺少消化随机性的时间窗口，玩家往往来不及围绕手牌做规划，随机性就已经转化成了战损。

结论：策略空间不足放大了单次随机的影响权重，实时节奏又压缩了应对随机的决策时间，两者叠加导致玩家体感为“运气决定胜负”。

去掉发牌，改为 DB + CD技能 + 资源消耗

发牌路线失败后，团队保留了“构筑”和“资源管理”这两个有效的策略支点，去掉了局内发牌。

调整：DB 仅决定带入局内的技能（相应降低可携带技能数），技能改为正常 CD 流程，保留资源消耗逻辑。联动技能、召唤师战场目标、资源获取方式等第二阶段框架保持不变。

体验预期：保留赛前构筑和局内资源运营带来的策略深度，同时恢复玩家对技能使用节奏的掌控感。

结果：这是所有迭代版本中战斗玩法反馈最好的一版（团队内部评估）。

为什么反馈最好：去掉发牌随机性后，玩家对技能使用重新获得了稳定预期；DB 构筑提供了赛前策略深度（我带什么进局决定了我的打法）；资源运营提供了局内决策深度（什么时候花资源、花在哪个技能上）；联动技能继续把玩家的决策锚定在宝宝的位置和状态上。三者叠加，形成了赛前构筑 → 局内运营 → 战中联动执行的决策链。

结论：这版是战斗框架的局部最优，但结构性问题——AI 不可替代性、注意力过载、擒王——没能在战斗层面解决。

补充说明：引入养成系统

需要说明的是，局外养成并不是项目临近终止时才临时想到的补丁，而是最早就存在于整体规划中的一环。问题不在于“有没有想到”，而在于开发优先级始终没有被提到最高，导致直到项目终止前约半个月，团队才真正开始尝试把局外养成系统与 RL成长机制整合为一个可体验版本。

这次尝试虽然来不及落地，却在复盘时显得尤为关键——后文会展开说明，养成并不是这个项目可有可无的外围系统，而是 AI同伴“为什么不能被真人替代”的核心支撑之一。

验证方式说明

每次迭代大致遵循相似的验证流程：先用 4 个真人对战快速验证机制手感、节奏和可理解性；待 RL 训练完当前版本 AI 后（约需 1-2 周），再切入符合设想的”1真人+1AI vs 2AI”单机体验。这种方式能较快验证”战斗是否好玩”，但也存在适用范围的限制：真人测试能验证手感和节奏，真实 AI 环境能验证间接操控体验和 AI 可读性。回过头看，项目中测试用的 RL 宝宝大致处于中期”配合阶段”，因此这套验证对”中期配合是否成立”是有效的，但无法外推到前期养成爬坡和后期大成体验。

三、结构性矛盾分析

3.1 两条问题线索：从表层到根源

表层问题：玩家在战斗中该如何介入，注意力又该围绕谁来组织？

├─ 线索A：战斗结构问题
│   敌人是胜负逻辑核心，宝宝是玩法逻辑核心
│   → 注意力主轴缺失
│   → 围绕宝宝的判断还要经过 AI 转译，直接闭环不足

├─ 线索B：系统支撑问题
│   养成缺位，成长阶段定义不清
│   → AI难以被感知为”被我塑造的伙伴”
│   → AI同伴的不可替代性不成立

↓ 汇合

根源问题：
项目试图把”训练师 + AI同伴”的策略体验，
放进完全即时、对称、单一复杂 AI同伴为核心的动作对战里，
而这本身就是最难成立的承载形式。

回过头看，项目后期暴露出的许多问题并不是同一条链上的连锁反应，而是战斗结构与系统支撑两条线索同时失稳，最终汇合到了同一个根源上。

3.2 三个难以同时满足的设计要求

这个项目真正难的地方，是它试图在同一个战斗架构里同时满足三项要求：

宝宝必须既自主又是玩法核心 它不只是一个会自己战斗的队友，还需要持续成为玩家注意力、联动收益和核心幻想的主要承载者。
玩家必须持续参与且影响结果可归因 玩家不能闲着，而且要能明确感到”这波优势是我打出来的””这次失误是我判断错了”，而不是把结果归因给一个不稳定的 AI 队友。
实时对战必须保留动作游戏的直接性 判断、输入和结果之间的链路要尽量短，玩家的思路应能尽快兑现为战场变化，而不是长期经过黑盒转译。

这三项要求分别看都合理，难点在于它们在当前架构下很难同时成立。

需要先澄清一点：AI同伴的自主性与玩家持续参与本身并不矛盾，多人 PvP 就能同时成立。真正困难的是，在这个项目里，宝宝不仅要自主，还要长期占据玩法核心；玩家不仅要持续参与，还要让自己的影响在即时战斗中稳定、直接、可归因地落到结果上。

如果优先满足 2 和 3，最自然的做法就是增强玩家自己的直接操作与战斗影响力，让玩家能快速把判断兑现成结果；但这样一来，宝宝就很容易从”玩法核心”退化成”高价值搭档”，第 1 条会被削弱。
如果优先满足 1 和 2，就要求玩家的参与必须持续围绕宝宝展开，而且这些参与还要足够有意义；可一旦这些判断和操作都必须通过宝宝兑现，实时战斗中的注意力负担和转译噪声就会迅速上升，第 3 条会变差。
如果优先满足 1 和 3，就意味着既要让宝宝持续站在舞台中央，又不能让系统转译拖慢动作反馈；在当前”单一复杂 AI同伴 + 玩家非主战 + 对称实时对战”的组合下，这几乎是最难的解法。现实结果往往是玩家为了不打断宝宝的核心地位而被限制操作密度，第 2 条又难成立。

所以问题并不是”宝宝自主”和”玩家有事做”天然冲突，而是：在本项目的具体结构里，宝宝不仅要自主，还要是核心；玩家不仅要参与，还要参与得直接、可靠、可归因。真正彼此拉扯的，是这组更具体的要求。

3.3 注意力主轴缺失与转译闭环不足

前一节提到的三项要求，最终会在战斗过程中具体表现为一个注意力问题：系统没有给玩家一个稳定的注意力主轴。

动作游戏、射击游戏，甚至多人 PvP 中的辅助角色，同样要求玩家同时关注敌我状态、资源、站位和时机差异。它们能成立，是因为这些信息大多服务于同一条清晰的胜利链，玩家通常知道此刻该优先围绕什么来组织行动。

本项目的问题在于，系统同时要求玩家围绕两个不同对象组织注意力，却没有建立稳定的主次关系。

胜负逻辑要求玩家盯敌人：敌方威胁、破绽、击杀机会、回合胜负都在这一边。
玩法逻辑又要求玩家盯宝宝：宝宝是核心幻想的承载者，也是联动技能、空间关系和局势判断的重要依据。

于是，敌人和宝宝都像”主目标”。玩家并不是单纯忙，而是会长期处在一种被撕扯的状态：如果围绕敌人组织行动，容易错过围绕宝宝展开配合的关键窗口；如果持续围绕宝宝思考，又容易丢掉即时战斗中真正决定胜负的敌方信息。

而且这里的问题不在于”看不见”——玩家作为隐身单位，很多时候完全可以通过站位与视角选择同时观察敌人和宝宝。问题在于：即便两边都看到了，系统仍然没有清晰回答——此刻我的判断应该优先服务哪条逻辑？是优先围绕敌方威胁与胜负条件行动，还是优先围绕宝宝状态与联动窗口行动？

这使得项目虽然也把”看”和”做”放在同一个时间轴上，却没有像优秀动作游戏那样，把判断压缩进操作本身，形成”判断—输入—结果”几乎直接连通的高速闭环。尤其是围绕宝宝的很多判断，并不能直接作用到战场，而是还要经过宝宝这层”转译”：我观察到机会 → 我做出输入 → 宝宝是否理解、是否响应、是否来得及执行 → 结果才真正发生。于是，闭环被拉长，反馈噪声变大，归因也变难。

所以，这里的问题不是简单的任务切换，也不是单纯的操作负担，而是：胜负逻辑要求玩家盯敌人，玩法逻辑又不断把玩家拉回宝宝，两者同时成立，却没有被组织成清晰的优先级结构；与此同时，围绕宝宝的判断又缺少动作游戏那种直接、稳定、可归因的反馈闭环。对高水平玩家来说，这套系统仍然可能被驾驭；但对大多数玩家来说，结果就是认知负担和执行压力同时在线，既难以获得纯动作游戏那种”操作即策略”的爽感，也难以获得经典间接操控游戏那种清晰、稳定的决策体验。

3.4 受众端的错配表现

这种结构性矛盾最终直接体现在受众分化上。

第一阶段测试中观察到的”喜欢的人玩不好，玩得好的人不喜欢”，并不是偶然现象。它背后反映的，是两类玩家天然会把注意力组织到不同的主轴上。

策略玩家更容易接受”宝宝是核心”这件事，也更愿意围绕 AI 状态、空间关系和联动窗口去理解战斗。他们能理解这套玩法的设计意图，但问题在于：一旦这些判断必须在实时压力下快速兑现，他们往往缺少足够稳定的动作执行能力，于是容易出现”思路对了，但打不出来”的情况。
战斗玩家则相反。他们天然更习惯围绕敌方威胁、破绽、走位和击杀效率来组织注意力，也更擅长把判断迅速转成输入与结果。所以他们往往能打出更好的即时表现。但对他们来说，系统持续要求自己把注意力拉回宝宝、围绕联动与空间关系思考，往往会被感受为一种额外负担，甚至像是在给本来直接的战斗体验强行加一层”转译”。

换句话说，这不是简单的”目标用户没找准”，而是玩法结构本身同时要求两套并不容易兼得的能力：

像策略玩家那样，愿意把宝宝当作核心对象去观察、理解和配合；
又像动作玩家那样，在实时压力下快速执行、精准兑现判断。

问题在于，这两套能力并没有被拆到不同阶段，而是被压在一场连续战斗里；更进一步，它们还分别依附于不同的注意力主轴——一套围绕宝宝，一套围绕敌人。于是策略玩家更容易”懂但打不出来”，战斗玩家则更容易”打得出来但不想这样打”。

3.5 胜负条件与隐身机制的双重漏洞（擒王问题）

前面几节讨论的是战斗体验层面的结构性问题，而擒王则是这些问题在规则层面催生的最典型后果。

擒王的主要驱动力是效率。 规则”任一方死亡即回合战败”意味着攻击更弱的召唤师就是数学上的最优解。第一阶段迭代中就已发现，RL 训练的敌方召唤师最终会拟合到擒王行为上，唯一能打败这些 AI 的真人玩家采用的也是相同策略。即使去掉隐身机制，只要胜负条件不变，擒王仍然是理性选择。对比宝可梦——训练师不在场上，胜负条件严格绑定在宝可梦身上，所以不存在”绕过主力打弱点”的可能。

隐身机制在中后期叠加了乐趣驱动。 随着召唤师能力增强，搜寻并击杀隐身目标成为极具技巧表现力的行为（类比 OW 抓黑影、Dota 抓隐身英雄），为擒王策略增添了效率之外的吸引力。隐身的设计意图是让召唤师”消失在聚光灯外”，实际效果却给了召唤师一个聚光灯。

弓箭攻击提供了行为路径的铺垫。 从第一阶段就建立了”可以直接射击对方召唤师”的认知，射箭破隐的惩罚在早期尚能维持平衡，后期随着破隐频率大幅上升，该惩罚已不足以约束擒王行为。

设计教训： 一个机制的实际效果可能与设计意图完全相反——评估机制不仅要看它”鼓励什么”，也要看它”让什么变得有趣”，二者可能指向相反的方向。

3.6 MVP 优先级的误判

团队将养成体系归类为”局外系统”延后开发，将迭代资源集中于单局对抗玩法。但在当前即时动作战斗的框架下，养成系统不是锦上添花的留存手段，而是 AI同伴存在合理性的关键前提。

AI同伴的不可替代性来源于”养成/创造”幻想——所有权感（这是我养的）、观赛自豪感（看我的作品在战斗）、跨对局的成长记忆、可被设计的行为模式。当养成系统缺位时，这些不可替代性均不成立，AI同伴退化为”一个不如真人的队友”。

正如第二阶段的迭代经验所揭示的：当玩家的输入链路变短、主要围绕敌人状态做判断之后，宝宝的角色实际上和多人 PvP 里的队友配合没有本质区别。如果没有养成系统赋予的”这是我塑造出来的伙伴”这层情感权重，AI同伴的存在理由就很难成立。

MVP 的子系统优先级应由”核心体验成立的前提条件”决定，而非默认按”局内/局外”分层。

3.7 AI 行为的阶段定义缺失

技术展示目标和体验目标在项目中没有被拆开讨论，与此同时，团队也缺少一套玩家可感知、可验证的成长阶段定义。

这里的问题不是”用 RL 预训练宝宝来测试”本身错了，而是团队缺少一套外部可观测的阶段框架来解释训练结果。RL 驱动的宝宝是一个黑盒：训练多久算”中期”、什么表现算”大成”，没有显式的判定标准。但实际上，宝宝的成长阶段完全可以通过外部可观察的行为特征来定义——

基础阶段：会使用技能、会攻击敌人，但不会主动配合召唤师的行动
配合阶段：开始响应召唤师的技能节奏（如联动技能窗口期主动靠近或拉开距离），但对敌人的行为预判有限
大成阶段：能读懂敌人意图，主动回避危险技能、抓对手硬直，与召唤师形成默契配合

这套标准不依赖 RL 的内部状态，只看行为输出，理论上甚至可以用行为树 bot 按阶段模拟。但项目中这套定义始终没有被显式建立，导致了两个后果：

一是验证目标模糊。 每次 RL 训练出一版宝宝，团队对它”算什么水平”的判断依赖个人体感。同一只宝宝，有人觉得”已经很聪明了”，有人觉得”还差得远”——缺少共识基准，验证结论的可靠性就打了折扣。回过头看，项目中测试用的 RL 宝宝大致处于”配合阶段”——有基础战斗理解但达不到见招拆招的程度，玩家需要主动配合才能打出优势。这个阶段的体验反馈是有参考价值的，但当时团队并没有用这样的框架去定位和解读它。

二是养成感知无从设计。 如果连开发者都说不清宝宝处于哪个成长阶段，玩家就更不可能感知到”我的宝宝在变强”。养成系统需要把 AI 的行为变化翻译成玩家可感知的反馈（如 5.1 中提到的行为变化报告、关键时刻回放），而翻译的前提是先有一套明确的”从哪里到哪里”的阶段划分。缺少这个基础，即使养成系统按时上线，玩家看到的也可能只是”宝宝好像变了，但我说不清怎么变的”。

3.8 为什么选了最难的形式

战斗结构线和系统支撑线最终汇合到同一个更深层的问题：为什么这个项目从一开始就选了最难成立的承载形式？

虽然我并没有参加立项的过程，但回过头看，选择即时动作作为战斗形式，背后其实有两层动机。

表层是市场定位的理由：”实时动作”提案时更有冲击力、3D 动作视觉表现力更强、市场叙事中”回合制 = 过时”的偏见也长期存在。但这些理由并不直接指向项目真正想成立的核心体验。

深层是技术展示的诉求： 对公司而言，这个项目还有一层更现实的意义：它是一次”秀肌肉”——试图把 RL bot 从 NPC、陪玩这类与核心玩法结合不强的场景里拎出来，推进到真正位于玩法中心的位置，验证它更大的想象空间。

但问题在于，玩家并不能直接感知”这是 RL”，也不会因为它”更强”就天然获得更好的体验。对玩家而言，一个很强的 RL bot，很多时候和”一个很强的 bot”并没有本质区别——这更像是在看一个高手打游戏，而不是在体验一种新的玩家关系。

RL 在这个项目里真正可能成立的价值，并不在”它很强”，而在”它会被我塑造”。只有当这种能力能够表现为”它越来越懂我””它会被我的玩法训练出来””这是我养出来的战斗伙伴”时，RL 才真正转化成可感知的玩家价值。

而从玩家体验出发，项目真正需要的是：给玩家足够时间去观察、思考、决策，再看 AI 执行。回合制只是其中一种解法，半即时（ATB）、阶段制、慢节奏实时 + 暂停都可以，但完全的即时动作，恰恰是所有选项里对这种体验最不友好的形式。

也就是说，团队在立项时同时追求了两件事：一是让”训练师 + AI同伴”的体验成立，二是把 RL bot 尽可能推到玩法中心。问题在于，这两者在这里并不是天然一致的——团队最后选中了技术含金量最高的形式，也恰好选中了玩家体验最难成立的形式。

四、横向品类对比

间接操控游戏为什么能成立

在分析过程中，我对比了多个间接操控品类的成功案例，最后发现关键不只是”玩家是否在看 AI 打”，而是玩家的决策是否仍然能够被稳定地验证、理解和修正。

宝可梦的回合制让每一次”看动画”都是上一个决策的结算；Auto Chess 的战斗阶段是你构建策略的检验；足球经理的比赛画面是你战术布置的输出。在这些游戏里，玩家虽然不直接控制战斗执行，但并不会感到自己被排除在结果之外，因为”看”不是空窗期，而是一个明确的结果反馈阶段。

更重要的是，这些游戏里的”看”不仅用于确认结果，也用于提取下一轮决策所需的信息：对手用了什么招、暴露了什么弱点、当前布置哪里出了问题。玩家让渡的只是执行权，而不是理解权和决策权。

从这个角度看，间接操控游戏之所以能成立，并不是因为”观战也很好玩”，而是因为玩家与结果之间仍然保持着一条清晰、稳定、可学习的因果链：我做了一个判断 → 系统替我执行 → 我看到结果 → 我据此调整下一步决策。

一旦这条链路成立，”看”就不再是被动等待，而是策略体验的一部分。

实时间接操控的成立条件

如果把讨论进一步限定到”实时战斗 + 间接操控”这个范围内，那么真正稳定成立的案例其实很少。前一节提到的宝可梦、Auto Chess、足球经理，说明的是”间接操控”本身如何成立；但它们并不是实时间接操控游戏，不能直接作为这里的正例。

回过头看，少数相对成立的实时案例，大多共享一个核心条件：玩家自己必须拥有足够强、足够高密度的直接控制，去压住 AI 转译带来的延迟、噪声和归因困难。

这条路通常有两种常见形式：

玩家控制的是大量简单单位：指令粒度较粗，单个单位的转译成本被摊薄，玩家管理的是整体趋势而不是某一个复杂个体。典型如 Pikmin、Overlord。
玩家自己就是主战角色，AI 伙伴只承担辅助链路：核心胜负闭环仍然由玩家直接完成，AI 提供补充价值而不是决定性控制。典型如 Dragon’s Dogma。

这两种形式表面不同，本质上是一类：它们都不是把”单一复杂 AI同伴”稳定放在胜负核心，而是通过增强玩家自己的直接控制，来避免判断—输入—结果之间被 AI 这层转译拉得过长。

最接近本项目概念的先例，其实是 Digimon World 1——实时战斗、单一自主 AI同伴、玩家并不直接主战。但它的战斗系统恰恰也是整个游戏口碑最差的部分，这反而说明：如果坚持”实时战斗 + 单一复杂 AI同伴 + 玩家不直接主战”这三个条件同时成立，那么难度本来就极高。

本项目恰好选中了这条最难的路：玩家没有足够高密度的直接操作，被操控对象是一只高情感权重、强个体性的复杂同伴，而且 AI同伴还被放在核心胜负链路上。第三阶段后，项目某种程度上开始向”玩家自己成为主力”这条路靠拢，代价和收益在第三章已有分析。

五、未解决的设计问题

5.1 AI 行为的可读性

通过明确前摇解决了”玩家知道宝宝接下来要做什么”的问题，但对成长感知和胜负归因的感知始终未找到好的方案。RL 学习过程是黑箱的，需要一层”翻译”设计将 AI 的行为变化转化为可感知的养成反馈（如战后行为变化报告、关键时刻回放标注、行为倾向可视化面板）。

5.2 捕获机制与养成系统的交互

战胜敌人后可获得对方宝宝（类似宝可梦），定位横向拓宽为主（多只不同风格的宝宝轮换使用）。纵向加深通过给未上场的宝宝也喂玩家数据训练来降低切换成本，行为差异主要与技能组相关。

5.3 AI 技术选型的分层设计

常规敌人使用行为树驱动以保证设计预期精确落地；关键节点的对称对战使用 RL 驱动以产生涌现行为，利用技能设计本身作为行为边界约束——对称 2v2 中 AI 无法超越技能框定的能力边界，上限就是”像一个很强的真人对手”，体验天然可控。

5.4 支援战士转型的利弊

如果将核心幻想从”训练师”转为”支援战士”（玩家自己是主力，宝宝是辅助搭档），可以解决受众错配、注意力过载、擒王等多数问题。但代价是项目独特性消失（本质上变成了战神 + 阿特柔斯），且 RL 技术的必要性大幅降低。这是一个需要有意识做出的取舍，而非迭代中自然滑过去的结果。

六、核心教训

MVP 的子系统优先级应由”核心体验成立的前提条件”决定，而非默认按”局内/局外”分层。在本项目的即时动作框架下，养成系统是 AI同伴不可替代性的关键支撑，不是后期锦上添花的留存工具。
玩法形式应服务于核心体验，而非反过来。”实时动作版宝可梦”是一个吸引人的立项叙事，但当需要”观察 + 思考 + 决策”的核心体验遇上需要”反应 + 操作 + 精度”的即时战斗，两者互相掣肘而非互相成就。技术展示的诉求与玩家体验的需求并不天然一致——团队选中了技术含金量最高的形式，也恰好选中了玩家体验最难成立的形式。
注意力结构需要被显式设计，而不是自然涌现。当系统同时要求玩家围绕多个对象组织注意力时，必须建立清晰的主次关系。本项目中，胜负逻辑把玩家拉向敌人，玩法逻辑又把玩家拉回宝宝，两者都像主目标，结果就是注意力被长期撕扯。
间接操控在实时动作中成立的条件极为苛刻。少数成立的案例都依赖玩家自身拥有足够强、足够高密度的直接控制，去压住 AI 转译带来的延迟与噪声。坚持”单一复杂 AI同伴 + 玩家非主战 + 实时对称对战”同时成立，难度极高。
胜负条件决定玩家行为，机制效果可能与意图相反。”任一方死亡即失败”的规则是擒王的根本原因（RL 自己都会拟合到这个行为上）；隐身机制在后期叠加了乐趣驱动，进一步强化了擒王的吸引力。设计时需警惕”意图-效果倒挂”。
RL 的玩家价值不在”更强”，而在”被我塑造”。玩家并不能直接感知”这是 RL”，一个很强的 RL bot 和一个很强的 bot 在体验上没有本质区别。只有当 RL 能力表现为”它越来越懂我””这是我养出来的战斗伙伴”时，它才真正转化成可感知的玩家价值。而这需要养成系统和成长阶段定义作为前提。
跨品类机制移植需评估策略空间和时间节奏的双重匹配。发牌机制在卡牌游戏中成立，一是因为丰富的策略空间能消化随机性，二是回合制给了玩家围绕手牌规划的时间。即时动作战斗中策略空间较窄（单次随机的代价更高）且缺少决策时间窗口，两者叠加导致随机性被放大为运气主导。

回到最初的问题：如果把聚光灯打在 AI 身上，要求玩家作为幕后黑手进行间接操控，会发生什么？

四个月的迭代给出的答案是：聚光灯可以打在 AI 身上，但舞台的形式必须让玩家有足够的时间和空间去理解、欣赏和回应这束光。我们选了一个最考验观众反应速度的舞台，结果灯光还没看清，演出就已经结束了。

如果有机会重来，我不会改变"让 AI 站在聚光灯下"这个方向——它仍然是一个值得探索的设计命题。但我会先问一个更前置的问题：什么样的舞台，才能让观众真正看见这束光？