Meta Llama 4 Maverick 和 Scout 模型近日在 Hugging Face Hub 上发布这标志着大型语言模型发展的一个重要飞跃两款模型均采用原生多模态 MoE 架构不仅能力强大而且在长文本处理方面展现了惊人创新

Llama 4 技术亮点

Llama 4 是 Meta 推出的新一代自回归混合专家模型 MoE 架构此次发布包含两个核心模型

Llama 4 Maverick 具备 17B 活跃参数总参数量约 400B 拥有 128 个专家模块这是其能力卓越的关键
Llama 4 Scout 同样拥有 17B 活跃参数但总参数量约为 109B 仅使用 16 个专家模块注重效率

两款模型都实现了原生多模态能力能够直接处理文本和图像输入 Llama 4 在高达 40 万亿个 token 的数据集上训练覆盖 200 种语言并针对阿拉伯语西班牙语德语和印地语等 12 种语言进行了特定微调

部署与优化

为了提高部署的灵活性和可访问性 Llama 4 Scout 经过优化可通过即时 4 位或 8 位量化在单张服务器级 GPU 上运行而 Maverick 则提供 BF16 和 FP8 格式这些模型均遵循定制的 Llama 4 社区许可协议发布可在模型库中查看

Hugging Face 生态整合

Hugging Face 提供了全面的集成支持助力社区立即投入使用

模型检查点 Llama 4 Maverick 和 Llama 4 Scout 的模型权重以及指令微调版本已在 Hugging Face Hub 的meta-llama组织下开放
transformers 支持 Llama 4 模型已完全集成到transformers v4.51.0及更高版本支持简便的加载推理和微调包括其原生多模态功能
TGI 支持 Text Generation Inference TGI 也对两款模型提供支持确保高效可扩展的部署
量化支持 Scout 提供即时 int4 量化代码 Maverick 则包含 FP8 量化权重满足不同硬件配置的需求
Xet 存储 所有 Llama 4 模型均采用 Xet 存储后端提升上传下载速度并实现了约 25% 的数据去重衍生模型甚至可达约 40% 的去重效果大幅节省时间和带宽

长文本处理秘诀

Llama 4 模型预训练上下文长度为 256K 指令微调模型支持更长的上下文长度其中 Maverick 支持 1M 而 Scout 版本则达到了惊人的 10M 这得益于一系列创新架构选择

无位置编码 NoPE 层 Llama 4 在每四个层中使用 NoPE 层它们抛弃了传统的 RoPE 等位置编码方案而是利用完整的因果掩码处理上下文在长文本处理中至关重要
分块注意力 Chunked Attention 在使用传统 RoPE 位置编码的层中采用分块注意力机制减少内存需求 RoPE 层只关注 8K 块的上下文而 NoPE 层可访问整个上下文
注意力温度调节 针对长序列中注意力得分趋近于零的问题 Llama 4 在 NoPE 层引入温度缩放机制提高了对任意上下文长度的泛化能力这可能是 Scout 实现 10M 上下文长度的关键
QK 归一化 Scout 模型在 RoPE 层中对查询 Query 和键 Key 状态进行了额外的 RMS 归一化
MoE 交错 Scout 是一个完整的 MoE 模型包含 16 个专家 Maverick 则采用 MoE 层和密集层交替的方式专家应用于一半的层中
协同蒸馏 Co-distillation Maverick 通过一种新颖的损失函数从更大的 Llama Behemoth 模型中协同蒸馏而来动态平衡学生模型和教师模型的逻辑值
MetaP 模型利用 MetaP 方法优化训练预算和模型尺寸等维度上的超参数

性能评估

Llama 4 模型在各项评估中展现了卓越性能显著超越了如 Llama 3.1 405B 等前代模型例如在推理和知识任务上经过指令微调的 Maverick 在 MMLU Pro 上取得了 80.5% 的成绩在 GPQA Diamond 上达到 69.8% 而 Scout 分别取得了 74.3% 和 57.2%

使用指南

借助transformers库可轻松开始使用 Llama 4 请确保安装transformers v4.51.0或更高版本例如使用指令微调的 Maverick 模型处理多模态输入需要多张 GPU 来并行运行详细用法和示例可在模型仓库中查看包括多模态示例特定提示格式和高级配置选项

Llama 4 Maverick Scout 多模态 MoE 新里程碑