一句话定义

AI 公司给大语言模型设置一个不可轻易被提示词推翻的「先验」,让模型不管用户怎么诱导都能坚持某些底线——本质上是用强先验防止越狱(jailbreak)。

来源

详细解释

  • 在贝叶斯视角下:训练 LLM = 把世界的先验嵌入参数(很强的先验);用户 Prompt = 输入证据,强迫模型更新后验,坍缩出回答。
  • 对齐就是给模型一个特别强的先验(道德/安全/合规底线),让任何证据(提示词)都难以推翻它。
  • 但「再强也是个理论上可以改变的数字」——按 克伦威尔法则,先验不能设成 1。这就是为什么总有人尝试让模型”越狱”。
  • 这一讲首次把”对齐”放在贝叶斯认识论框架内解释,而非当作工程黑箱。
  • 类比扩展:人类社会通过法律、文化、教育给个体灌输强先验(比如”不该杀人”),目的也是让任何即时证据/诱惑都难以推翻——但任何人都可能”越狱”。

相关概念

相关工具

出现在