Meta Llama 4 Maverick 和 Scout 模型近日在 Hugging Face Hub 上发布 这标志着大型语言模型发展的一个重要飞跃 两款模型均采用原生多模态 MoE 架构 不仅能力强大 而且在长文本处理方面展现了惊人创新
Llama 4 技术亮点
Llama 4 是 Meta 推出的新一代自回归混合专家模型 MoE 架构 此次发布包含两个核心模型
- Llama 4 Maverick 具备 17B 活跃参数 总参数量约 400B 拥有 128 个专家模块 这是其能力卓越的关键
- Llama 4 Scout 同样拥有 17B 活跃参数 但总参数量约为 109B 仅使用 16 个专家模块 注重效率
两款模型都实现了原生多模态能力 能够直接处理文本和图像输入 Llama 4 在高达 40 万亿个 token 的数据集上训练 覆盖 200 种语言 并针对阿拉伯语 西班牙语 德语和印地语等 12 种语言进行了特定微调
部署与优化
为了提高部署的灵活性和可访问性 Llama 4 Scout 经过优化 可通过即时 4 位或 8 位量化 在单张服务器级 GPU 上运行 而 Maverick 则提供 BF16 和 FP8 格式 这些模型均遵循定制的 Llama 4 社区许可协议发布 可在模型库中查看
Hugging Face 生态整合
Hugging Face 提供了全面的集成支持 助力社区立即投入使用
- 模型检查点 Llama 4 Maverick 和 Llama 4 Scout 的模型权重以及指令微调版本 已在 Hugging Face Hub 的
meta-llama
组织下开放 - transformers 支持 Llama 4 模型已完全集成到
transformers v4.51.0
及更高版本 支持简便的加载 推理和微调 包括其原生多模态功能 - TGI 支持 Text Generation Inference TGI 也对两款模型提供支持 确保高效可扩展的部署
- 量化支持 Scout 提供即时 int4 量化代码 Maverick 则包含 FP8 量化权重 满足不同硬件配置的需求
- Xet 存储 所有 Llama 4 模型均采用 Xet 存储后端 提升上传下载速度 并实现了约 25% 的数据去重 衍生模型甚至可达约 40% 的去重效果 大幅节省时间和带宽
长文本处理秘诀
Llama 4 模型预训练上下文长度为 256K 指令微调模型支持更长的上下文长度 其中 Maverick 支持 1M 而 Scout 版本则达到了惊人的 10M 这得益于一系列创新架构选择
- 无位置编码 NoPE 层 Llama 4 在每四个层中使用 NoPE 层 它们抛弃了传统的 RoPE 等位置编码方案 而是利用完整的因果掩码处理上下文 在长文本处理中至关重要
- 分块注意力 Chunked Attention 在使用传统 RoPE 位置编码的层中 采用分块注意力机制 减少内存需求 RoPE 层只关注 8K 块的上下文 而 NoPE 层可访问整个上下文
- 注意力温度调节 针对长序列中注意力得分趋近于零的问题 Llama 4 在 NoPE 层引入温度缩放机制 提高了对任意上下文长度的泛化能力 这可能是 Scout 实现 10M 上下文长度的关键
- QK 归一化 Scout 模型在 RoPE 层中对查询 Query 和键 Key 状态进行了额外的 RMS 归一化
- MoE 交错 Scout 是一个完整的 MoE 模型 包含 16 个专家 Maverick 则采用 MoE 层和密集层交替的方式 专家应用于一半的层中
- 协同蒸馏 Co-distillation Maverick 通过一种新颖的损失函数 从更大的 Llama Behemoth 模型中协同蒸馏而来 动态平衡学生模型和教师模型的逻辑值
- MetaP 模型利用 MetaP 方法 优化训练预算和模型尺寸等维度上的超参数
性能评估
Llama 4 模型在各项评估中展现了卓越性能 显著超越了如 Llama 3.1 405B 等前代模型 例如 在推理和知识任务上 经过指令微调的 Maverick 在 MMLU Pro 上取得了 80.5% 的成绩 在 GPQA Diamond 上达到 69.8% 而 Scout 分别取得了 74.3% 和 57.2%
使用指南
借助transformers
库可轻松开始使用 Llama 4 请确保安装transformers v4.51.0
或更高版本 例如 使用指令微调的 Maverick 模型处理多模态输入 需要多张 GPU 来并行运行详细用法和示例可在模型仓库中查看包括多模态示例 特定提示格式和高级配置选项