先说句实话:2025 年关于“模型版本号”的信息非常嘈杂(内测/灰度/地区差异、媒体口径也不一致)。
> 所以这篇我故意不做“版本大事记”,而是写成更像博客的年度观察:把那些不靠版本号也成立的变化讲清楚。
一句话总结 2025
如果要我用一句话概括:2025 年,AI 竞争从“谁的模型更大”变成“谁能用更低成本把模型稳定跑起来,并且塞进真实工作流”;算力产业也从“买 GPU”变成“机架级系统 + 数据中心工程 + 电力资源”的综合战。
模型与产品:我在 2025 反复看到的 5 个变化
1) “慢一点、想清楚”变成了产品能力的一部分
过去大家最在意的是“它回得快不快、像不像人”。到 2025,我更常听到的诉求变成了“它能不能把复杂任务做对、能不能自我检查、别一本正经胡说”。
这背后其实是用户心态变了:在代码、数据分析、决策支持这类场景,大家愿意接受更慢一点,只要更稳、更可控。
顺带一提,这条变化会直接把矛盾引到“推理成本”上——因为想得更久,意味着算力花得更多(后面算力部分会展开)。
2) Agent 不再只是 Demo,而是开始进入工作流
2025 年你会明显感觉到:模型不满足于“会说”,它开始被接进工具里——检索、代码执行、表格/文档、工单系统、企业内部系统……
当模型能动手之后,评价方式也变了:不再只看“输出漂亮不漂亮”,而是看“这件事最后有没有办成”(端到端成功率)。
当然,Agent 进入企业就会遇到现实问题:权限怎么管、操作怎么审计、出错怎么回滚、边界怎么画清楚——这类工程问题会比“提示词技巧”更决定成败。
3) 长上下文 + 检索增强(RAG)变成默认解法
更自然、更现实的路线在 2025 年基本跑通了:别指望把所有知识都“训练进去”,而是用长上下文 + RAG + 结构化工具,把需要的知识在用的时候取出来。
它的好处是落地快:合同、客服知识库、代码库、内部文档,都能接;但代价也很明确——问题从“模型强不强”转成“数据干不干净、评测做没做、权限分得细不细”。
如果你做企业落地,会很快撞到这些坑:数据质量、权限分层、提示注入(prompt injection)、以及可观测性(到底哪一步错了)。
4) 评价体系从 benchmark 转向“线上指标”
基准测试当然还看,但真正能决定你“要不要继续续费/继续上线”的,往往是线上指标:任务完成率、返工率、每千次任务的真实成本、p95/p99 延迟、合规/审计事件数。
好处是大家终于开始讲同一种语言;坏处是模型团队、产品团队、基础设施团队再也分不开了(也不该分开)。
5) 一套产品里同时存在“快/省”和“慢/强”
到了 2025,你几乎很难看到“只有一个模型档位”的产品了:同一套产品里会有“快/省”的档,也会有“慢/强”的档,甚至按任务自动路由。
这不是炫技,而是经济账:体验要稳,成本又不能炸,所以必须把不同任务分流。
算力产业:我在 2025 反复看到的 5 个变化
1) 推理(inference)开始吞掉更多预算
训练当然还重要,但 2025 年更真实的感受是:真正“持续烧钱”的往往是在线推理——多轮对话、长上下文、Agent 的工具链,一旦规模起来,账单会非常直观。
而且推理负载的脾气很坏:更敏感尾延迟、更复杂调度、更高稳定性。
这也是为什么推理侧优化(量化、KV cache、编译、并行、路由)会越来越像“必修课”。
2) 硬件竞争从“单卡”升级到“机架级系统(rack-scale)”
过去大家聊 GPU,更多是在聊“这张卡有多猛”。到 2025,越来越多讨论变成“这一整机架怎么设计、怎么交付、怎么运维”。
互联、网络、内存、存储、调度、可靠性、冷却一起卷——因为同样的 GPU 数量,系统工程好坏会带来非常夸张的有效吞吐差(训练效率、推理 QPS、尾延迟)。
3) HBM、先进封装与互联成为“隐形瓶颈”
很多人以为算力就是“GPU 够不够”。但 2025 年你会越来越频繁听到这些词:HBM、先进封装、光互联/交换机、供电与散热。
它们决定的往往不是“性能有多强”,而是“能不能按期交付、能不能稳定跑”。
4) 数据中心从“IT 项目”变成“电力工程”
如果你参与过数据中心项目,2025 年最大的直觉变化是:它越来越像电力工程。
选址、并网、变电站、冷却水/液冷、PUE、碳排与社区关系都进入决策层——因为项目周期被“电”卡住的情况,变得更常见。
5) 政策与合规,开始变成算力供给的一部分(尤其跨境)
出口管制、云端访问、数据主权、能耗与环保要求……这些词在 2025 年出现得越来越频繁。
它的含义也很直白:算力不再是纯市场行为,越来越像“国家基础设施 + 合规工程”。
一张图看懂:从“训练为王”到“推理为王”
flowchart LR A[训练:集中式大集群] --> B[上线:推理集群] B --> C[产品工作流/Agent] C --> D[更多用户与调用] D --> B B --> E[瓶颈:延迟/成本/稳定性] A --> F[瓶颈:HBM/封装/互联] B --> G[瓶颈:电力/冷却/并网]对不同角色的建议
-
创业者/产品负责人:把“端到端成功率”放到第一位;同时把成本与延迟写进 KPI(不然上线后很难控住)。
-
企业 IT/数据团队:优先投“数据治理 + 权限 + 评测 + 可观测性”,否则长上下文/RAG 很容易把幻觉放大。
-
基础设施/平台团队:推理侧优化(路由/缓存/量化/并行)往往比“再加几台机器”更容易做出数量级收益。
-
投资/产业视角:别只盯 GPU,电力、冷却、封装、互联、数据中心建设链条,才是 AI 扩张的真实约束。
2026 值得盯的 6 个指标
-
推理成本:每千 token/每次任务的真实成本(含网络、存储与运维)。
-
尾延迟:p95/p99 的稳定性(Agent 工作流尤其敏感)。
-
集群有效利用率:训练/推理的实际吞吐(不是峰值)。
-
机柜功率密度:kW/机柜,以及对应冷却方案。
-
并网周期:从选址到供电可用的周期变化。
-
合规事件:数据与模型访问的审计事件、违规率、模型滥用处置效率。
配图/图表清单(可直接照着做)
-
图 1(时间线):2025 四个季度的“行业确定性事件”时间线(不写版本号,只写:推理/Agent/电力/机架级系统)。
-
图 2(成本拆解):推理成本构成饼图:GPU/CPU、网络、存储、运维、电力。
-
图 3(电力约束):数据中心电力需求趋势图(引用权威报告的数据点)。
-
图 4(系统工程):机架级系统结构示意:GPU/互联/交换机/存储/冷却/供电。
参考来源(权威为主)
-
IEA:Data centres and data transmission networks(数据中心与网络用电的权威入口)
https://www.iea.org/energy-system/buildings/data-centres-and-data-transmission-networks
-
Gartner(数据中心电力需求趋势的公开口径常见于其新闻稿/观点文章;若你有 Gartner 订阅,我也可以按你的版本替换为你能访问的原文链接)
https://www.gartner.com/en/newsroom
-
Goldman Sachs Research(关于 AI 推动数据中心电力需求的研究文章常被引用)
https://www.goldmansachs.com/insights/articles/ai-to-drive-165-increase-in-data-center-power-demand-by-2030
-
NVIDIA(硬件平台与数据中心产品的官方入口)
https://www.nvidia.com/en-us/data-center/blackwell-platform/