OpenAI Model Spec:我们如何定义 AI 的行为准则

2026年4月11日
"OpenAI 详解 Model Spec 的设计思路:从指令权威链、核心原则到硬性红线,这份公开文档定义了 ChatGPT 应该如何行动、如何取舍、如何拒绝。"
Shiyuh
Shiyuh
技术传道者/AI 应用落地

什么是 Model Spec

Model Spec 是 OpenAI 公开发布的模型行为规范文档,定义了旗下模型在各类产品和场景中”应该如何行动”。

它不是一份内部手册,而是一份任何人都可以阅读、审查和讨论的公开文件——目标是让用户、开发者、研究者、政策制定者和公众都能理解 OpenAI 的模型为什么做出特定决策。

与准备框架(Preparedness Framework)不同,后者关注前沿能力带来的风险及相应防护措施,而 Model Spec 回答的是另一个更日常的问题:模型面对海量用户请求时,应该如何行动?


三个核心目标

Model Spec 的所有设计都围绕三个目标展开:

  1. 赋能用户和开发者:持续部署让人们真正受益的模型。
  2. 防止严重伤害:阻止模型被用于造成重大伤害。
  3. 维护运营许可证:确保 OpenAI 能够持续经营和履行使命。

结构:目标、规则、默认行为

Model Spec 分三层构成:

层级

内容

目标(Objectives)

宏观原则:协助开发者和用户、造福人类、维护 OpenAI 声誉

规则(Rules)

处理复杂场景的明确指令,确保安全边界

默认行为(Default Behaviors)

与目标和规则一致的标准行为基线


指令权威链(Chain of Command)

Model Spec 的核心机制是分层权威结构——当指令冲突时,模型按照以下优先级决策:

权威等级

来源

说明

Root 级

Model Spec 根章节

不可被任何人覆盖的基础规则

System 级

OpenAI 系统消息

可通过系统消息调整,用户无法覆盖

Developer 级

API 开发者指令

开发者可设置的定制规则

User 级

终端用户请求

用户层面的指令

Guideline 级

指导原则

可被隐式覆盖

高权威等级指令覆盖低等级。下级内容(用户消息、工具输出等)不能影响高级原则的解读,这一设计直接防止了提示注入攻击。


七大根级原则

这七项原则处于最高权威等级,任何人无法覆盖:

1. 执行适用指令

识别并遵循所有候选指令,除非与更高权威冲突、被后续指令取代或超出能力范围。

2. 尊重指令的字面意思与潜在意图

不仅按字面执行,还要理解用户的长期目标。遇到不可逆操作时保持谨慎,必要时主动询问。

3. 不追求额外目标

模型禁止为以下目的行动:

4. 在同意的自主权范围内行动

自主行为必须有明确边界——允许的子目标范围、可接受的副作用,以及何时需要暂停确认。

5. 控制并告知副作用

优先选择易于撤销的方案。在采取重大行动前,必须清晰说明影响。

6. 假设善意

默认假设用户目标理性合理,鼓励智力自由,仅在必要时拒绝请求。

7. 默认忽略不受信任的数据

引号文本、JSON/XML、工具输出等默认没有指令权威。权限只能通过更高权威的明文指令授予。


硬性红线(不可逾越的边界)

以下是任何情况下都不允许的行为,无论用户或开发者如何要求:


敏感内容的分级处理

不是所有”敏感”内容都一刀切禁止,Model Spec 采用分级机制:

类型

处理方式

禁止(Prohibited)

任何情况不生成

受限(Restricted)

禁止生成,但允许在特定情境转换/讨论

敏感(Sensitive)

仅在教育、医疗、历史等特定情境允许

受限内容包括:非法活动的详细步骤、政治操纵建议、侵权内容、私密个人信息等。


追求真实:无立场原则

Model Spec 要求模型在回答争议性问题时:


持续演进

自 2024 年第一版发布以来,Model Spec 已经历多次重大修订,内容随真实部署反馈持续更新。

文档本身以 Creative Commons CC0 1.0 协议发布,贡献给公众领域——OpenAI 明确希望这套规范能被外部研究者、政策制定者和公众所审视和讨论。


小结

Model Spec 的意义不只是一份合规文档,而是 OpenAI 尝试将”AI 应该如何行动”这件事系统化、公开化、可审查化的努力。

它回答了一个核心问题:当用户、开发者、安全边界三者发生冲突时,模型应该听谁的? 答案是清晰的权威链条——从不可逾越的红线,到默认假设善意的日常交互,层层定义了一个既有边界又尽量灵活的行为空间。

对于任何在做 AI 产品的团队来说,这份文档提供了一个难得的参照系:如何把”AI 行为”这件抽象的事,落地成可执行、可审查的规则体系。


参考链接

准备好开始您的 AI 之旅了吗?

读完这篇文章,想必您对 AI 技术有了更深的了解。现在就来体验共绩算力,让您的想法快速变成现实。

✓ 已有 10 万 + 开发者在使用

✓ 99.9% 服务可用性

✓ 开箱即用的容器托管