Quartz 4

❯

❯

对齐

May 09, 20262 min read

板块/决策与行动

一句话定义

AI 公司给大语言模型设置一个不可轻易被提示词推翻的「先验」，让模型不管用户怎么诱导都能坚持某些底线——本质上是用强先验防止越狱（jailbreak）。

来源

贝叶斯先验：判断是主观的，但可以更科学一点

详细解释

在贝叶斯视角下：训练 LLM = 把世界的先验嵌入参数（很强的先验）；用户 Prompt = 输入证据，强迫模型更新后验，坍缩出回答。
对齐就是给模型一个特别强的先验（道德/安全/合规底线），让任何证据（提示词）都难以推翻它。
但「再强也是个理论上可以改变的数字」——按克伦威尔法则，先验不能设成 1。这就是为什么总有人尝试让模型”越狱”。
这一讲首次把”对齐”放在贝叶斯认识论框架内解释，而非当作工程黑箱。
类比扩展：人类社会通过法律、文化、教育给个体灌输强先验（比如”不该杀人”），目的也是让任何即时证据/诱惑都难以推翻——但任何人都可能”越狱”。

相关概念

贝叶斯公式
先验假设
克伦威尔法则
贝叶斯主义

相关工具

贝叶斯主义

出现在

贝叶斯先验：判断是主观的，但可以更科学一点

Graph View

一句话定义
来源
详细解释
相关概念
相关工具
出现在

Backlinks

index
贝叶斯主义
贝叶斯先验：判断是主观的，但可以更科学一点

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community