> 一句话答案:AI 离不开电,因为它的“智能”本质上是大规模计算与数据搬运,而这些都要在数据中心里持续消耗电力;更关键的是,AI 的瓶颈往往不在“有没有模型”,而在“有没有稳定、足够、可负担的电 + 冷却 + 并网能力”。
1.TL;DR(给赶时间的读者)
-
AI 的电主要花在三件事上:算(GPU/加速器)、搬(网络/存储/数据)、降温(风冷/液冷/配电损耗)。
-
训练很耗电,但推理(inference)更“持续烧钱”:一旦用户量起来,日复一日的请求会把能耗与成本推到台前。
-
数据中心问题越来越像电力工程:选址、并网、变电站、冷却水/液冷、PUE、碳排与社区关系,都会限制 AI 扩张速度。
-
未来的竞争不只是“谁模型更强”,也是“谁能把每个 token 的电耗/成本压下来”。
很多人以为 AI 用电就是“GPU 耗电”。但在数据中心里,电力通常会分摊到计算 + 冷却 + 配电损耗 + 网络/存储。
2. 训练 vs 推理:为什么推理越来越关键?
2.1 训练是“爆发式耗电”,推理是“长期流水”
-
训练:像一次集中施工,短时间内把电吃到很高;训练完成后,这部分负载会回落。
-
推理:像全天候营业。只要用户在用、产品在跑、Agent 在工作流里循环,电就停不下来。
很多团队会在 0→1 阶段低估推理:训练一次很吓人,但推理是每天都在发生的“成本底噪”,规模起来后反而更可怕。
2.2 推理更难的点:尾延迟与资源调度
推理不仅要“快”,还要“稳”。尤其是 Agent 工作流:
- 可能同时调用检索、数据库、浏览器、代码执行器
- 可能多轮交互、长上下文、长输出
这些都会放大 p95/p99 的尾延迟与资源抖动,而尾延迟往往直接决定用户体验。
3. 数据中心为什么这么像“电力工程”?
当 AI 工作负载把单机柜功率密度推高后,数据中心的核心约束往往变成:
-
能不能拿到足够的电:电价、购电协议、用电指标、峰谷电策略
-
能不能并上网:变电站、输电线路、审批周期
-
能不能把热带走:风冷是否够用?液冷怎么上?水资源怎么解决?
-
能不能合规:碳排、噪音、用水、社区影响
这也是为什么你会越来越频繁看到“AI 数据中心”和“电网”“发电厂”“核能/可再生能源”的新闻绑在一起。
4. 为什么这件事跟“地理/地区”强相关?
同样是建设 AI 算力,不同地区的难点完全不一样。原因很现实:电网结构、能源结构、电价、气候、土地与政策都不一样。
4.1 中国:算力布局与电网/能耗指标高度耦合
在国内做算力项目,往往会同时考虑:
- 电价与长期供电稳定性
- 机房选址(气候、用地、网络骨干、政策)
- 能耗、碳排与绿色电力比例要求(不同地区口径不同)
4.2 美国:电力市场与地区电网承载差异大
美国不同电网区域(例如 PJM 等)对数据中心带来的电力压力讨论很多,常见矛盾是:电网扩容的成本由谁承担、电价如何传导、项目审批周期如何缩短。
4.3 欧洲:碳约束与电价敏感度更高
欧洲很多地区对碳排、能效与合规要求更严格;同时电价波动也会更直接地影响算力运营成本,因此“绿色算力”与“可解释的合规”常常是硬门槛。
5. 能做什么?从技术到策略的降耗路线图
下面这张表可以当作“行动清单”。如果你做产品/工程/运营,基本都能从里边找到抓手。
方向 | 目标 | 常见做法(示例) |
| 模型/算法 | 同样体验更省电 | 蒸馏、小模型优先、MoE/稀疏、合理的上下文长度策略 |
| 推理工程 | 降低每次请求成本 | 量化、KV cache、batching、路由(小模型→大模型) |
| 系统工程 | 提升有效吞吐 | 机架级互联优化、网络拥塞控制、存储层次化 |
| 冷却与配电 | 降低非计算开销 | 液冷/浸没、优化 PUE、减少配电转换损耗 |
| 能源策略 | 让“电”可持续且可预期 | 购电协议 (PPA)、选址靠近清洁能源、削峰填谷 |
| 治理与合规 | 降低政策风险 | 能耗与碳披露、审计、社区沟通、环境评估前置 |
FAQ:读者最常问的 7 个问题
Q1:为什么不把 AI 都搬到本地(手机/PC)就省电了?
本地推理可以把一部分负载从数据中心挪走,但本地设备同样要耗电,而且模型越大越难在端侧跑稳定。更常见的形态是“端侧 + 云端”混合:端侧做轻量任务,云端做重任务。
Q2:训练和推理,哪个更耗电?
很多时候总量上推理更可怕,因为训练是阶段性的,但推理是持续性的:产品一上线就要长期供给。
不过在某个时间窗口内(比如发布新一代大模型、集中训练期),训练也可能在短期内把电力需求拉到极高。
Q3:除了 GPU,还有哪些“隐形耗电”?
常见被低估的有三类:
-
冷却:功率密度越高,冷却越难;传统风冷到一定密度会逼着你上液冷。
-
配电与冗余:UPS、变压器、供电冗余等会带来转换损耗与额外建设成本。
-
网络与存储:越大的训练/推理吞吐,越依赖高速网络与存储体系,电力也会随之上升。
Q4:PUE 是什么?为什么经常被提到?
PUE(Power Usage Effectiveness)是数据中心能效的常用指标,直觉上可以理解为:为了让 IT 设备(服务器/GPU)真正工作,你额外花了多少“基础设施的电”(冷却、配电等)。PUE 越接近 1,说明基础设施越高效。
(注意:PUE 不是“唯一指标”,但它是讨论能效时最常见的共同语言。)
Q5:为什么“选址”能决定 AI 项目的成败?
因为选址会同时影响:
-
电能否拿到:电价、容量、并网周期
-
热能否散掉:气候越凉爽,冷却越省;水资源条件也很关键
-
网能否接上:骨干网络与时延对推理业务尤为敏感
一句话:算力不是“放哪都一样”,它会被地理条件约束。
Q6:AI 用电会不会把居民电价推高?
这取决于地区电网结构与监管方式。在一些电力紧张或扩容滞后的区域,大用电户的增长可能带来电网投资与峰值压力,进而引发电价、配额或“成本由谁承担”的讨论(美国一些区域已有类似争议与政策博弈)。
Q7:作为普通用户,我能做什么?
很简单也很现实:
-
减少无意义的“生成式刷屏”:大量无目的生成会放大推理成本与能耗。
-
能用小模型就别强上大模型:很多日常任务并不需要最强档。
-
关注产品是否提供节能模式:例如“快速/标准/深度推理”档位,本质是成本与能耗的选择权。
参考来源
-
IEA(国际能源署):数据中心与数据传输网络的能源主题入口(包含电力趋势与方法论)
https://www.iea.org/energy-system/buildings/data-centres-and-data-transmission-networks
-
Gartner(新闻稿):对数据中心电力需求增长的预测与口径说明(可用作趋势引用)
https://www.gartner.com/en/newsroom
-
Goldman Sachs(研究文章):AI 驱动数据中心电力需求增长的研究入口
https://www.goldmansachs.com/insights/articles/ai-to-drive-165-increase-in-data-center-power-demand-by-2030
-
Pew Research Center(科普向但引用规范):美国数据中心用电与 AI 热潮背景
https://www.pewresearch.org/short-reads/2025/10/24/what-we-know-about-energy-use-at-us-data-centers-amid-the-ai-boom/