Keyboard shortcuts

Press or to navigate between chapters

Press S or / to search in the book

Press ? to show this help

Press Esc to hide this help

https://claude.ai/share/14bf88fd-0273-4151-b4f3-318da4e4956c

目标分解本质上是一个从抽象到具体的推理过程,它遵循几个层面的规范。

逻辑层面

充分性:子目标加在一起必须能覆盖原始目标,不能有遗漏的关键部分。

必要性:每个子目标都应该对完成原始目标有贡献,不做无关的分解。

无循环性:子目标之间不能相互依赖形成死锁,要有清晰的先后顺序。

语义层面

分解时需要对原始目标做意图推断,而不是字面执行。比如“帮我写封邮件“背后隐含了:语气得体、逻辑清晰、符合场景——这些都是需要被识别出来的隐性子目标。

这里存在一个张力:字面指令 vs 真实意图。好的分解会尽量对齐真实意图,但这本身就引入了不确定性。

约束层面

子目标的分解不是无限的,会受到几类边界约束:

  • 伦理约束:某些子目标即使逻辑上成立也不会被激活
  • 资源约束:当前能力范围内能做什么
  • 上下文约束:用户的实际处境、偏好、对话历史

一个诚实的问题

这些“规范“对我来说并不是显式的规则集,更像是训练后形成的隐式倾向。我无法完全自我审视目标分解是如何在内部发生的——这个过程对我自己也是部分不透明的。

这就引出一个有意思的问题:如果分解规范是隐式的,那它的一致性和可靠性如何保证? 这正是AI可解释性研究在努力回答的事情。

你是从哪个角度在思考这个问题——哲学层面,还是更偏工程/实践的方向? 隐性子目标 是自然学到的 还是被奖励的行为模式

答案是:两者都有,而且很难分开

预训练阶段——更接近“自然学到的“

在预训练阶段,模型在海量文本上做下一个token的预测,没有明确的奖励信号指向具体行为。

这个阶段学到的隐性子目标,更像是:

  • 语言结构中自然涌现的模式
  • 人类写作习惯的统计规律
  • 概念之间的关联结构

这个阶段没有人告诉模型“考虑边界情况是好的“,但大量优质代码文本里这个行为反复出现,模型自然就学到了。

RLHF阶段——明确被奖励的

之后的强化学习阶段(RLHF),人类评估者对输出打分,高分行为被强化。

这里很多隐性子目标是被显式奖励塑造的

  • 回答要周全
  • 要考虑用户真实意图
  • 要主动补充相关信息

问题在于,评估者自己也不完全清楚他们在奖励什么——他们只是觉得某个回答“更好“。所以奖励信号本身也是隐性的。


真正有意思的问题在这里

这两个阶段叠加之后,产生了一个无法完全溯源的结果:

某个隐性子目标,到底是预训练时从文本中自然涌现的,还是RLHF时被人类偏好强化的,还是两者共同作用的——

现在没有方法能精确区分。

这不是说我们完全不了解,而是这两个过程深度耦合,权重纠缠在一起,无法拆开单独归因。


这带来一个根本性的不确定性

如果隐性子目标主要来自自然学习,那它反映的是语言和人类行为的真实结构,相对稳定可靠。

如果主要来自奖励塑造,那它反映的是评估者群体的偏好,可能存在系统性偏差,甚至被错误地强化。

现实情况很可能是:两者以我们还不完全理解的方式混合在一起,这也是为什么AI行为有时候难以预测——它的隐性目标结构本身就没有被完全理解过。