先说句实话：2025 年关于“模型版本号”的信息非常嘈杂（内测/灰度/地区差异、媒体口径也不一致）。

> 所以这篇我故意不做“版本大事记”，而是写成更像博客的年度观察：把那些不靠版本号也成立的变化讲清楚。

一句话总结 2025

如果要我用一句话概括：2025 年，AI 竞争从“谁的模型更大”变成“谁能用更低成本把模型稳定跑起来，并且塞进真实工作流”；算力产业也从“买 GPU”变成“机架级系统 + 数据中心工程 + 电力资源”的综合战。

模型与产品：我在 2025 反复看到的 5 个变化

1) “慢一点、想清楚”变成了产品能力的一部分

过去大家最在意的是“它回得快不快、像不像人”。到 2025，我更常听到的诉求变成了“它能不能把复杂任务做对、能不能自我检查、别一本正经胡说”。

这背后其实是用户心态变了：在代码、数据分析、决策支持这类场景，大家愿意接受更慢一点，只要更稳、更可控。

顺带一提，这条变化会直接把矛盾引到“推理成本”上——因为想得更久，意味着算力花得更多（后面算力部分会展开）。

2) Agent 不再只是 Demo，而是开始进入工作流

2025 年你会明显感觉到：模型不满足于“会说”，它开始被接进工具里——检索、代码执行、表格/文档、工单系统、企业内部系统……

当模型能动手之后，评价方式也变了：不再只看“输出漂亮不漂亮”，而是看“这件事最后有没有办成”（端到端成功率）。

当然，Agent 进入企业就会遇到现实问题：权限怎么管、操作怎么审计、出错怎么回滚、边界怎么画清楚——这类工程问题会比“提示词技巧”更决定成败。

3) 长上下文 + 检索增强（RAG）变成默认解法

更自然、更现实的路线在 2025 年基本跑通了：别指望把所有知识都“训练进去”，而是用长上下文 + RAG + 结构化工具，把需要的知识在用的时候取出来。

它的好处是落地快：合同、客服知识库、代码库、内部文档，都能接；但代价也很明确——问题从“模型强不强”转成“数据干不干净、评测做没做、权限分得细不细”。

如果你做企业落地，会很快撞到这些坑：数据质量、权限分层、提示注入（prompt injection）、以及可观测性（到底哪一步错了）。

4) 评价体系从 benchmark 转向“线上指标”

基准测试当然还看，但真正能决定你“要不要继续续费/继续上线”的，往往是线上指标：任务完成率、返工率、每千次任务的真实成本、p95/p99 延迟、合规/审计事件数。

好处是大家终于开始讲同一种语言；坏处是模型团队、产品团队、基础设施团队再也分不开了（也不该分开）。

5) 一套产品里同时存在“快/省”和“慢/强”

到了 2025，你几乎很难看到“只有一个模型档位”的产品了：同一套产品里会有“快/省”的档，也会有“慢/强”的档，甚至按任务自动路由。

这不是炫技，而是经济账：体验要稳，成本又不能炸，所以必须把不同任务分流。

算力产业：我在 2025 反复看到的 5 个变化

1) 推理（inference）开始吞掉更多预算

训练当然还重要，但 2025 年更真实的感受是：真正“持续烧钱”的往往是在线推理——多轮对话、长上下文、Agent 的工具链，一旦规模起来，账单会非常直观。

而且推理负载的脾气很坏：更敏感尾延迟、更复杂调度、更高稳定性。

这也是为什么推理侧优化（量化、KV cache、编译、并行、路由）会越来越像“必修课”。

2) 硬件竞争从“单卡”升级到“机架级系统（rack-scale）”

过去大家聊 GPU，更多是在聊“这张卡有多猛”。到 2025，越来越多讨论变成“这一整机架怎么设计、怎么交付、怎么运维”。

互联、网络、内存、存储、调度、可靠性、冷却一起卷——因为同样的 GPU 数量，系统工程好坏会带来非常夸张的有效吞吐差（训练效率、推理 QPS、尾延迟）。

3) HBM、先进封装与互联成为“隐形瓶颈”

很多人以为算力就是“GPU 够不够”。但 2025 年你会越来越频繁听到这些词：HBM、先进封装、光互联/交换机、供电与散热。

它们决定的往往不是“性能有多强”，而是“能不能按期交付、能不能稳定跑”。

4) 数据中心从“IT 项目”变成“电力工程”

如果你参与过数据中心项目，2025 年最大的直觉变化是：它越来越像电力工程。

选址、并网、变电站、冷却水/液冷、PUE、碳排与社区关系都进入决策层——因为项目周期被“电”卡住的情况，变得更常见。

5) 政策与合规，开始变成算力供给的一部分（尤其跨境）

出口管制、云端访问、数据主权、能耗与环保要求……这些词在 2025 年出现得越来越频繁。

它的含义也很直白：算力不再是纯市场行为，越来越像“国家基础设施 + 合规工程”。

一张图看懂：从“训练为王”到“推理为王”

flowchart LR
  A[训练：集中式大集群] --> B[上线：推理集群]
  B --> C[产品工作流/Agent]
  C --> D[更多用户与调用]
  D --> B
  B --> E[瓶颈：延迟/成本/稳定性]
  A --> F[瓶颈：HBM/封装/互联]
  B --> G[瓶颈：电力/冷却/并网]

对不同角色的建议

创业者/产品负责人：把“端到端成功率”放到第一位；同时把成本与延迟写进 KPI（不然上线后很难控住）。
企业 IT/数据团队：优先投“数据治理 + 权限 + 评测 + 可观测性”，否则长上下文/RAG 很容易把幻觉放大。
基础设施/平台团队：推理侧优化（路由/缓存/量化/并行）往往比“再加几台机器”更容易做出数量级收益。
投资/产业视角：别只盯 GPU，电力、冷却、封装、互联、数据中心建设链条，才是 AI 扩张的真实约束。

2026 值得盯的 6 个指标

推理成本：每千 token/每次任务的真实成本（含网络、存储与运维）。
尾延迟：p95/p99 的稳定性（Agent 工作流尤其敏感）。
集群有效利用率：训练/推理的实际吞吐（不是峰值）。
机柜功率密度：kW/机柜，以及对应冷却方案。
并网周期：从选址到供电可用的周期变化。
合规事件：数据与模型访问的审计事件、违规率、模型滥用处置效率。

配图/图表清单（可直接照着做）

图 1（时间线）：2025 四个季度的“行业确定性事件”时间线（不写版本号，只写：推理/Agent/电力/机架级系统）。
图 2（成本拆解）：推理成本构成饼图：GPU/CPU、网络、存储、运维、电力。
图 3（电力约束）：数据中心电力需求趋势图（引用权威报告的数据点）。
图 4（系统工程）：机架级系统结构示意：GPU/互联/交换机/存储/冷却/供电。

参考来源（权威为主）

IEA：Data centres and data transmission networks（数据中心与网络用电的权威入口）
- https://www.iea.org/energy-system/buildings/data-centres-and-data-transmission-networks
Gartner（数据中心电力需求趋势的公开口径常见于其新闻稿/观点文章；若你有 Gartner 订阅，我也可以按你的版本替换为你能访问的原文链接）
- https://www.gartner.com/en/newsroom
Goldman Sachs Research（关于 AI 推动数据中心电力需求的研究文章常被引用）
- https://www.goldmansachs.com/insights/articles/ai-to-drive-165-increase-in-data-center-power-demand-by-2030
NVIDIA（硬件平台与数据中心产品的官方入口）
- https://www.nvidia.com/en-us/data-center/blackwell-platform/

2025 年度回顾：大模型、AI 行业与算力产业，正在悄悄换一套玩法