2025 年度回顾:大模型、AI 行业与算力产业,正在悄悄换一套玩法

2026年2月3日

先说句实话:2025 年关于“模型版本号”的信息非常嘈杂(内测/灰度/地区差异、媒体口径也不一致)。

> 所以这篇我故意不做“版本大事记”,而是写成更像博客的年度观察:把那些不靠版本号也成立的变化讲清楚。

一句话总结 2025

如果要我用一句话概括:2025 年,AI 竞争从“谁的模型更大”变成“谁能用更低成本把模型稳定跑起来,并且塞进真实工作流”;算力产业也从“买 GPU”变成“机架级系统 + 数据中心工程 + 电力资源”的综合战。

模型与产品:我在 2025 反复看到的 5 个变化

1) “慢一点、想清楚”变成了产品能力的一部分

过去大家最在意的是“它回得快不快、像不像人”。到 2025,我更常听到的诉求变成了“它能不能把复杂任务做对、能不能自我检查、别一本正经胡说”。

这背后其实是用户心态变了:在代码、数据分析、决策支持这类场景,大家愿意接受更慢一点,只要更稳、更可控。

顺带一提,这条变化会直接把矛盾引到“推理成本”上——因为想得更久,意味着算力花得更多(后面算力部分会展开)。

2) Agent 不再只是 Demo,而是开始进入工作流

2025 年你会明显感觉到:模型不满足于“会说”,它开始被接进工具里——检索、代码执行、表格/文档、工单系统、企业内部系统……

当模型能动手之后,评价方式也变了:不再只看“输出漂亮不漂亮”,而是看“这件事最后有没有办成”(端到端成功率)。

当然,Agent 进入企业就会遇到现实问题:权限怎么管、操作怎么审计、出错怎么回滚、边界怎么画清楚——这类工程问题会比“提示词技巧”更决定成败。

3) 长上下文 + 检索增强(RAG)变成默认解法

更自然、更现实的路线在 2025 年基本跑通了:别指望把所有知识都“训练进去”,而是用长上下文 + RAG + 结构化工具,把需要的知识在用的时候取出来。

它的好处是落地快:合同、客服知识库、代码库、内部文档,都能接;但代价也很明确——问题从“模型强不强”转成“数据干不干净、评测做没做、权限分得细不细”。

如果你做企业落地,会很快撞到这些坑:数据质量、权限分层、提示注入(prompt injection)、以及可观测性(到底哪一步错了)。

4) 评价体系从 benchmark 转向“线上指标”

基准测试当然还看,但真正能决定你“要不要继续续费/继续上线”的,往往是线上指标:任务完成率、返工率、每千次任务的真实成本、p95/p99 延迟、合规/审计事件数。

好处是大家终于开始讲同一种语言;坏处是模型团队、产品团队、基础设施团队再也分不开了(也不该分开)。

5) 一套产品里同时存在“快/省”和“慢/强”

到了 2025,你几乎很难看到“只有一个模型档位”的产品了:同一套产品里会有“快/省”的档,也会有“慢/强”的档,甚至按任务自动路由。

这不是炫技,而是经济账:体验要稳,成本又不能炸,所以必须把不同任务分流。


算力产业:我在 2025 反复看到的 5 个变化

1) 推理(inference)开始吞掉更多预算

训练当然还重要,但 2025 年更真实的感受是:真正“持续烧钱”的往往是在线推理——多轮对话、长上下文、Agent 的工具链,一旦规模起来,账单会非常直观。

而且推理负载的脾气很坏:更敏感尾延迟、更复杂调度、更高稳定性。

这也是为什么推理侧优化(量化、KV cache、编译、并行、路由)会越来越像“必修课”。

2) 硬件竞争从“单卡”升级到“机架级系统(rack-scale)”

过去大家聊 GPU,更多是在聊“这张卡有多猛”。到 2025,越来越多讨论变成“这一整机架怎么设计、怎么交付、怎么运维”。

互联、网络、内存、存储、调度、可靠性、冷却一起卷——因为同样的 GPU 数量,系统工程好坏会带来非常夸张的有效吞吐差(训练效率、推理 QPS、尾延迟)。

3) HBM、先进封装与互联成为“隐形瓶颈”

很多人以为算力就是“GPU 够不够”。但 2025 年你会越来越频繁听到这些词:HBM、先进封装、光互联/交换机、供电与散热。

它们决定的往往不是“性能有多强”,而是“能不能按期交付、能不能稳定跑”。

4) 数据中心从“IT 项目”变成“电力工程”

如果你参与过数据中心项目,2025 年最大的直觉变化是:它越来越像电力工程。

选址、并网、变电站、冷却水/液冷、PUE、碳排与社区关系都进入决策层——因为项目周期被“电”卡住的情况,变得更常见。

5) 政策与合规,开始变成算力供给的一部分(尤其跨境)

出口管制、云端访问、数据主权、能耗与环保要求……这些词在 2025 年出现得越来越频繁。

它的含义也很直白:算力不再是纯市场行为,越来越像“国家基础设施 + 合规工程”。


一张图看懂:从“训练为王”到“推理为王”

flowchart LR
A[训练:集中式大集群] --> B[上线:推理集群]
B --> C[产品工作流/Agent]
C --> D[更多用户与调用]
D --> B
B --> E[瓶颈:延迟/成本/稳定性]
A --> F[瓶颈:HBM/封装/互联]
B --> G[瓶颈:电力/冷却/并网]

对不同角色的建议


2026 值得盯的 6 个指标

  1. 推理成本:每千 token/每次任务的真实成本(含网络、存储与运维)。

  2. 尾延迟:p95/p99 的稳定性(Agent 工作流尤其敏感)。

  3. 集群有效利用率:训练/推理的实际吞吐(不是峰值)。

  4. 机柜功率密度:kW/机柜,以及对应冷却方案。

  5. 并网周期:从选址到供电可用的周期变化。

  6. 合规事件:数据与模型访问的审计事件、违规率、模型滥用处置效率。


配图/图表清单(可直接照着做)


参考来源(权威为主)

准备好开始您的 AI 之旅了吗?

读完这篇文章,想必您对 AI 技术有了更深的了解。现在就来体验共绩算力,让您的想法快速变成现实。

✓ 已有 10 万 + 开发者在使用

✓ 99.9% 服务可用性

✓ 开箱即用的容器托管