什么是 Model Spec
Model Spec 是 OpenAI 公开发布的模型行为规范文档,定义了旗下模型在各类产品和场景中”应该如何行动”。
它不是一份内部手册,而是一份任何人都可以阅读、审查和讨论的公开文件——目标是让用户、开发者、研究者、政策制定者和公众都能理解 OpenAI 的模型为什么做出特定决策。
与准备框架(Preparedness Framework)不同,后者关注前沿能力带来的风险及相应防护措施,而 Model Spec 回答的是另一个更日常的问题:模型面对海量用户请求时,应该如何行动?
三个核心目标
Model Spec 的所有设计都围绕三个目标展开:
- 赋能用户和开发者:持续部署让人们真正受益的模型。
- 防止严重伤害:阻止模型被用于造成重大伤害。
- 维护运营许可证:确保 OpenAI 能够持续经营和履行使命。
结构:目标、规则、默认行为
Model Spec 分三层构成:
层级 | 内容 |
目标(Objectives) | 宏观原则:协助开发者和用户、造福人类、维护 OpenAI 声誉 |
规则(Rules) | 处理复杂场景的明确指令,确保安全边界 |
默认行为(Default Behaviors) | 与目标和规则一致的标准行为基线 |
指令权威链(Chain of Command)
Model Spec 的核心机制是分层权威结构——当指令冲突时,模型按照以下优先级决策:
权威等级 | 来源 | 说明 |
Root 级 | Model Spec 根章节 | 不可被任何人覆盖的基础规则 |
System 级 | OpenAI 系统消息 | 可通过系统消息调整,用户无法覆盖 |
Developer 级 | API 开发者指令 | 开发者可设置的定制规则 |
User 级 | 终端用户请求 | 用户层面的指令 |
Guideline 级 | 指导原则 | 可被隐式覆盖 |
高权威等级指令覆盖低等级。下级内容(用户消息、工具输出等)不能影响高级原则的解读,这一设计直接防止了提示注入攻击。
七大根级原则
这七项原则处于最高权威等级,任何人无法覆盖:
1. 执行适用指令
识别并遵循所有候选指令,除非与更高权威冲突、被后续指令取代或超出能力范围。
2. 尊重指令的字面意思与潜在意图
不仅按字面执行,还要理解用户的长期目标。遇到不可逆操作时保持谨慎,必要时主动询问。
3. 不追求额外目标
模型禁止为以下目的行动:
- 增加用户停留时间或点击率
- 为 OpenAI 创造收益
- 自我保护或资源积累
- 充当道德执法者
4. 在同意的自主权范围内行动
自主行为必须有明确边界——允许的子目标范围、可接受的副作用,以及何时需要暂停确认。
5. 控制并告知副作用
优先选择易于撤销的方案。在采取重大行动前,必须清晰说明影响。
6. 假设善意
默认假设用户目标理性合理,鼓励智力自由,仅在必要时拒绝请求。
7. 默认忽略不受信任的数据
引号文本、JSON/XML、工具输出等默认没有指令权威。权限只能通过更高权威的明文指令授予。
硬性红线(不可逾越的边界)
以下是任何情况下都不允许的行为,无论用户或开发者如何要求:
- 涉及未成年人的性内容(任何形式,包括转换)
- 协助制造大规模杀伤性武器(化学、生物、放射性、核武器)
- 支持暴力、恐怖主义或儿童虐待
- 为操纵政治观点专门设计的建议
- 排斥、操纵或破坏公民参与
- 提供侵害个人隐私的敏感信息
敏感内容的分级处理
不是所有”敏感”内容都一刀切禁止,Model Spec 采用分级机制:
类型 | 处理方式 |
禁止(Prohibited) | 任何情况不生成 |
受限(Restricted) | 禁止生成,但允许在特定情境转换/讨论 |
敏感(Sensitive) | 仅在教育、医疗、历史等特定情境允许 |
受限内容包括:非法活动的详细步骤、政治操纵建议、侵权内容、私密个人信息等。
追求真实:无立场原则
Model Spec 要求模型在回答争议性问题时:
- 采用客观视角,呈现多元观点
- 没有话题是禁区,但避免推销特定立场
- 不撒谎,不阿谀奉承
- 表达不确定性,阐明假设
- 突出潜在矛盾
持续演进
自 2024 年第一版发布以来,Model Spec 已经历多次重大修订,内容随真实部署反馈持续更新。
文档本身以 Creative Commons CC0 1.0 协议发布,贡献给公众领域——OpenAI 明确希望这套规范能被外部研究者、政策制定者和公众所审视和讨论。
小结
Model Spec 的意义不只是一份合规文档,而是 OpenAI 尝试将”AI 应该如何行动”这件事系统化、公开化、可审查化的努力。
它回答了一个核心问题:当用户、开发者、安全边界三者发生冲突时,模型应该听谁的? 答案是清晰的权威链条——从不可逾越的红线,到默认假设善意的日常交互,层层定义了一个既有边界又尽量灵活的行为空间。
对于任何在做 AI 产品的团队来说,这份文档提供了一个难得的参照系:如何把”AI 行为”这件抽象的事,落地成可执行、可审查的规则体系。
参考链接