课题二十:自回归模型的根本性局限(“Hot Mess” 问题)

优先级: 观察中 来源: Anthropic 2026.1 论文 “The Hot Mess of AI”,社区讨论

核心问题

自回归 Transformer 模型本质上是动力学系统而非优化器。当任务链变长时,错误从”系统性偏差”转向”随机性发散”——模型不是变笨,而是”发疯”。

关键发现

  • 方差累积:推理链越长,随机错误占比越高,模型行为不可预测
  • 大规模模型反而更不稳定:大模型在困难任务上的方差(incoherence)比小模型更严重
  • 架构级问题:RLHF、CoT、post-training 都无法修复这个底层动力学特性
  • 能表现得像优化器的动力学系统在数学上是测度为 0 的特例

潜在解决路径

  • 非自回归架构(如 Meta Large Concept Model)
  • 世界模型(Yann LeCun 方向):在概念层面规划,而非 token 层面
  • 外部验证器 + 规划器分离(验证不依赖生成模型)

研究价值

如果这个结论成立,纯靠堆算力无法解决 Agent 可靠性。它对课题六(任务规划)、课题十(评估)、课题十五(双系统推理)都有根本性影响。

关联课题

经典理论映射

香农信息论(Shannon, 1948)为”Hot Mess”问题提供了根本性的解释框架。自回归生成在信息论视角下是一个串行信道

  • 信息衰减:每一步 token 生成都是对原始意图的一次”重新编码”,每一次变换都会丢失信息。香农的信道编码定理告诉我们,当信息通过串行中继时,每级中继都有译码-重编码的误差,误差逐级累积
  • 熵增:自回归生成的方差累积就是信息论中的熵增——系统从低熵状态(明确的用户意图)走向高熵状态(发散、不可预测的输出)。这不是模型”学坏了”,而是热力学第二定律在信息层面的映射
  • 信道容量:上下文窗口就是信道容量——给定有限的窗口大小,能无失真传递的信息量存在上限。超出上限必然导致信息损失,表现为”模型忘记了早期的上下文”
  • 率失真理论:上下文压缩本质上就是率失真(rate-distortion)问题——你愿意接受多少失真来换取更小的”传输带宽”。冷备 + 关键点提取的策略,就是在寻找最优的率失真曲线

信息论告诉我们:这不是 bug,是物理定律。纯靠更大模型或更多数据无法解决,必须从架构层面改变信息传递的方式(非自回归架构、世界模型、外部验证器)。