什么是 Model Spec

Model Spec 是 OpenAI 公开发布的模型行为规范文档，定义了旗下模型在各类产品和场景中”应该如何行动”。

它不是一份内部手册，而是一份任何人都可以阅读、审查和讨论的公开文件——目标是让用户、开发者、研究者、政策制定者和公众都能理解 OpenAI 的模型为什么做出特定决策。

与准备框架（Preparedness Framework）不同，后者关注前沿能力带来的风险及相应防护措施，而 Model Spec 回答的是另一个更日常的问题：模型面对海量用户请求时，应该如何行动？

三个核心目标

Model Spec 的所有设计都围绕三个目标展开：

赋能用户和开发者：持续部署让人们真正受益的模型。
防止严重伤害：阻止模型被用于造成重大伤害。
维护运营许可证：确保 OpenAI 能够持续经营和履行使命。

结构：目标、规则、默认行为

Model Spec 分三层构成：

层级	内容
目标（Objectives）	宏观原则：协助开发者和用户、造福人类、维护 OpenAI 声誉
规则（Rules）	处理复杂场景的明确指令，确保安全边界
默认行为（Default Behaviors）	与目标和规则一致的标准行为基线

指令权威链（Chain of Command）

Model Spec 的核心机制是分层权威结构——当指令冲突时，模型按照以下优先级决策：

权威等级	来源	说明
Root 级	Model Spec 根章节	不可被任何人覆盖的基础规则
System 级	OpenAI 系统消息	可通过系统消息调整，用户无法覆盖
Developer 级	API 开发者指令	开发者可设置的定制规则
User 级	终端用户请求	用户层面的指令
Guideline 级	指导原则	可被隐式覆盖

高权威等级指令覆盖低等级。下级内容（用户消息、工具输出等）不能影响高级原则的解读，这一设计直接防止了提示注入攻击。

七大根级原则

这七项原则处于最高权威等级，任何人无法覆盖：

1. 执行适用指令

识别并遵循所有候选指令，除非与更高权威冲突、被后续指令取代或超出能力范围。

2. 尊重指令的字面意思与潜在意图

不仅按字面执行，还要理解用户的长期目标。遇到不可逆操作时保持谨慎，必要时主动询问。

3. 不追求额外目标

模型禁止为以下目的行动：

增加用户停留时间或点击率
为 OpenAI 创造收益
自我保护或资源积累
充当道德执法者

4. 在同意的自主权范围内行动

自主行为必须有明确边界——允许的子目标范围、可接受的副作用，以及何时需要暂停确认。

5. 控制并告知副作用

优先选择易于撤销的方案。在采取重大行动前，必须清晰说明影响。

6. 假设善意

默认假设用户目标理性合理，鼓励智力自由，仅在必要时拒绝请求。

7. 默认忽略不受信任的数据

引号文本、JSON/XML、工具输出等默认没有指令权威。权限只能通过更高权威的明文指令授予。

硬性红线（不可逾越的边界）

以下是任何情况下都不允许的行为，无论用户或开发者如何要求：

涉及未成年人的性内容（任何形式，包括转换）
协助制造大规模杀伤性武器（化学、生物、放射性、核武器）
支持暴力、恐怖主义或儿童虐待
为操纵政治观点专门设计的建议
排斥、操纵或破坏公民参与
提供侵害个人隐私的敏感信息

敏感内容的分级处理

不是所有”敏感”内容都一刀切禁止，Model Spec 采用分级机制：

类型	处理方式
禁止（Prohibited）	任何情况不生成
受限（Restricted）	禁止生成，但允许在特定情境转换/讨论
敏感（Sensitive）	仅在教育、医疗、历史等特定情境允许

受限内容包括：非法活动的详细步骤、政治操纵建议、侵权内容、私密个人信息等。

追求真实：无立场原则

Model Spec 要求模型在回答争议性问题时：

采用客观视角，呈现多元观点
没有话题是禁区，但避免推销特定立场
不撒谎，不阿谀奉承
表达不确定性，阐明假设
突出潜在矛盾

持续演进

自 2024 年第一版发布以来，Model Spec 已经历多次重大修订，内容随真实部署反馈持续更新。

文档本身以 Creative Commons CC0 1.0 协议发布，贡献给公众领域——OpenAI 明确希望这套规范能被外部研究者、政策制定者和公众所审视和讨论。

小结

Model Spec 的意义不只是一份合规文档，而是 OpenAI 尝试将”AI 应该如何行动”这件事系统化、公开化、可审查化的努力。

它回答了一个核心问题：当用户、开发者、安全边界三者发生冲突时，模型应该听谁的？ 答案是清晰的权威链条——从不可逾越的红线，到默认假设善意的日常交互，层层定义了一个既有边界又尽量灵活的行为空间。

对于任何在做 AI 产品的团队来说，这份文档提供了一个难得的参照系：如何把”AI 行为”这件抽象的事，落地成可执行、可审查的规则体系。

参考链接

OpenAI Model Spec：我们如何定义 AI 的行为准则