智东西
编译 ZeR0
编辑 漠影
智东西4月6日报道,今日,Meta发布Llama 4系列首批模型,包括两款高效模型Llama 4 Scout、Llama 4 Maverick。这是Meta首款采用混合专家(MoE)架构构建的原生多模态模型,其中Scout更是首度支持超长10M上下文窗口。Meta还预览了其迄今最强大的新教师模型——Llama 4 Behemoth。
“小杯”Llama 4 Scout拥有16位专家、170亿个活跃参数、1090亿个总参数,被称作“同类产品中全球最好的多模态模型”,提供1000万tokens上下文窗口(对应多达500万个单词的文本),适用于单张NVIDIA H100 GPU(具有Int4量化),并在广泛基准测试中分数超过Gemma 3、Gemini 2.0 Flash-Lite、Mistral 3.1。
“中杯”Llama 4 Maverick拥有128位专家、170亿个活跃参数、4000亿个总参数,也是“同类中最好的多模态模型”,适用于单台H100主机,在广泛基准测试中击败了GPT-4o和Gemini 2.0 Flash,同时在推理和编程方面取得了与新DeepSeek-v3相当的结果,活跃参数不到后者的一半。
Llama 4 Maverick主打性价比,其实验性聊天版本在LMArena上的ELO得分为1417,每1M tokens输入和输出推理成本区间(0.19-0.49美元)也做到接近甚至低于DeepSeek v3.1(0.48美元)。
这些成绩归功于从Meta迄今最强大的模型“巨杯”Llama 4 Behemoth的提炼。Llama 4 Behemoth拥有16位专家、2880亿个活跃参数、近2万亿个总参数,在多个STEM基准测试中的表现优于GPT-4.5、Claude Sonnet 3.7和Gemini 2.0 Pro。
Llama 4 Behemoth仍在训练中,尚未正式发布,但Meta先分享了一些技术细节。
从llama.com和Hugging Face可下载Llama 4 Scout和Llama 4 Maverick模型。这些模型很快将在主流云和数据平台、边缘芯片和全球服务集成商上提供。
模型下载地址:
llama.com/llama-downloads/
huggingface.co/meta-llama
即日起,用户在WhatsApp、Messenger、Instagram Direct和Meta.AI网站上可试用使用Llama 4构建的Meta AI。
Meta还预告将在4月29日的LlamaCon上分享更多关于其愿景的内容。
一、MoE架构+多种预训练新方法,提高算力利用率
构建下一代Llama模型在预训练期间采用了多种新方法。
新Llama 4模型是Meta首批使用混合专家(MoE)架构的模型。在MoE模型中,单个token仅激活总参数的一小部分。MoE架构在训练和推理方面具有更高的计算效率,并且在给定固定训练FLOP预算的情况下,与密集模型相比,可提供更高的质量。
例如,Llama 4 Maverick模型有17B个活跃参数和400B个总参数。Meta使用交替的密集和混合专家(MoE)层来提高推理效率。
MoE层使用128位路由专家和一位共享专家。每个token都会发送给共享专家以及128位路由专家之一。因此,虽然所有参数都存储在内存中,但在为这些模型提供服务时,只有总参数的子集被激活。
这通过降低模型服务成本和延迟来提高推理效率。Llama 4 Maverick可在单台NVIDIA H100 DGX主机上运行,以便于部署,也可以通过分布式推理实现最高效率。
Llama 4模型采用原生多模态设计,结合早期融合,将文本和视觉token无缝集成到统一的模型主干中。早期融合是向前迈出的重要一步,因为它使Meta能够使用大量未标记的文本、图像和视频数据联合预训练模型。
Meta还改进了Llama 4中的视觉编码器。它基于MetaCLIP,但与冻结的Llama模型一起单独训练,以便更好地使编码器适应大语言模型。
Meta开发了一种新的训练技术MetaP,能可靠地设置关键模型超参数,例如每层的学习率和初始化尺度。该团队发现所选的超参数在不同的batch处理大小、模型宽度、深度和训练token值之间具有良好的迁移性。
Llama 4通过对200种语言进行预训练来实现开源微调工作,其中包括100多种语言,每种语言都有超过10亿个token,总体而言,多语言tokens比Llama 3多10倍。
此外,Meta专注于使用FP8精度进行高效的模型训练,而不会牺牲质量并确保较高的模型FLOP利用率。在使用FP8和32K GPU预训练Llama 4 Behemoth模型时,Meta实现了390 TFLOPs/GPU。用于训练的整体数据组合由超过30万亿个token组成,是Llama 3预训练组合的2倍多,包括各种文本、图像和视频数据集。
Meta继续在所谓的“中期训练”阶段训练模型,以使用新的训练方案(包括使用专门的数据集进行长上下文扩展)来提高核心功能。这使其能够提高模型质量,同时为Llama 4 Scout解锁超长的10M输入上下文长度。
二、改进后训练流程,权衡计算和准确性
新Llama 4模型有不同大小。Llama 4 Maverick在图像和文本理解方面提供行业领先性能,支持创建复杂的AI应用程序以跨越语言障碍。作为Meta针对通用助手和聊天用例的产品主力模型,Llama 4 Maverick非常适合精确的图像理解和创意写作。
在对Llama 4 Maverick模型进行后训练时,最大的挑战是在多种输入模式、推理和对话能力之间保持平衡。对于混合模式,Meta提出了一个精心策划的课程策略,与单个模式专家模型相比,该策略不会牺牲性能。
借助Llama 4,Meta通过采用不同的方法改进了后训练流程:轻量级监督微调(SFT)> 在线强化学习(RL)> 轻量级直接偏好优化 (DPO)。
一个关键的学习是,SFT和DPO可能会过度约束模型,限制在线强化学习阶段的探索并导致准确性不理想,特别是在推理、编程和数学领域。
为了解决这个问题,Meta使用Llama模型作为判断标准,删除了50%以上标记为简单的数据,并对剩余的较难数据集进行了轻量级SFT。
在随后的多模态在线强化学习阶段,通过仔细选择更难的提示,Meta能够实现性能的阶跃变化。
此外,Meta实施了持续在线RL策略,交替训练模型,然后使用它来持续过滤并仅保留中等难度到困难难度的提示。事实证明,这种策略在计算和准确性权衡方面非常有益。
然后,Meta做了一个轻量级DPO来处理与模型响应质量相关的极端情况,有效地在模型的智能和对话能力之间实现了良好的平衡。管道架构和具有自适应数据过滤的持续在线RL策略最终形成了业界领先的通用聊天模型,具有先进的智能和图像理解能力。
作为通用大语言模型,Llama 4 Maverick包含170亿个活跃参数、128位专家和4000亿个总参数,与Llama 3.3 70B相比,它以更低的价格提供高质量。
Llama 4 Maverick是同类最佳的多模态模型,在编程、推理、多语言、长上下文和图像基准测试中超越了GPT-4o和Gemini 2.0等同类模型,并且在编程和推理方面可与活跃参数规模大得多的DeepSeek v3.1相媲美。
小型模型Llama 4 Scout是一个通用模型,拥有170亿个活动参数、16位专家和1090亿个总参数,可提供同类中一流的性能。Llama 4 Scout将支持的上下文长度从Llama 3中的128K大幅增加到行业领先的1000万个token,适用于多文档摘要、解析大量用户活动以执行个性化任务以及对庞大的代码库进行推理。
Llama 4 Scout经过了预训练和后训练,上下文长度为256K,这为基础模型提供了高级长度泛化能力。
Meta在诸如对文本进行“大海捞针”式检索以及对1000万个代码token进行累积负对数似然(NLL)等任务中展示了令人信服的结果。
Llama 4架构的一个关键创新是使用没有位置嵌入的交错注意层。此外,Meta采用注意力的推理时间温度缩放来增强长度泛化,并称之为iRoPE架构。其中“i”代表“交错”注意层,突出了支持“无限”上下文长度的长期目标,“RoPE”指的是大多数层中使用的旋转位置嵌入。
Meta用各种图像和视频帧静态图像训练了两个模型,以便让它们具有广泛的视觉理解能力,包括时间活动和相关图像。这使得多图像输入以及用于视觉推理和理解任务的文本提示能够轻松交互。这些模型在多达48张图像上进行了预训练,在训练后测试了多达8张图像,取得了良好的效果。
Llama 4 Scout在图像基础方面也性能出色,能够将用户提示与相关的视觉概念对齐,并将模型响应锚定到图像中的区域。这使得大语言模型能够更精确地回答视觉问题,从而更好地理解用户意图并定位感兴趣的对象。
该模型在编程、推理、长上下文和图像基准方面也超越了同类模型,并比所有以前的Llama模型都具有更强大的性能。
三、Llama 4 Behemoth预览:近2万亿总参数,改造底层基础设施
Llama 4 Behemoth一个教师模型,也是一个多模态专家混合模型,拥有2880亿个活跃参数、16个专家、近2万亿个总参数,在数学、多语言和图像基准测试中为非推理模型提供了先进性能。
Meta开发了一种新颖的提炼损失函数,可通过训练动态加权软目标和硬目标。在预训练期间从Llama 4 Behemoth进行共同提炼,可摊销计算学生训练中使用的大多数训练数据的提炼目标所需的资源密集型前向传递的计算成本。为了在学生训练中加入更多新数据,Meta对Behemoth模型进行了前向传递,以创建提炼目标。
对具有2万亿个参数的模型进行后期训练也是一项重大挑战,这需要从数据规模开始彻底改革和改进配方。为了最大限度地提高性能,必须修剪95%的SFT数据,而对于较小的模型则需要修剪50%,以实现对质量和效率的必要关注。
Meta还发现,进行轻量级SFT后进行大规模强化学习(RL)可以更显著地提高模型的推理和编程能力。其RL配方专注于通过使用策略模型进行pass@k分析来采样硬提示,并制定增加提示难度的训练课程。
Meta还发现,在训练期间动态过滤掉没有优势的提示,并使用来自多种功能的混合提示构建训练批次,有助于提高数学、推理和编程的性能。
最后,从各种系统指令中采样对于确保模型保留其推理和编程的指令遵循能力并能够在各种任务中表现良好至关重要。
由于RL的规模空前巨大,因此将其扩展到2万亿参数模型也需要改造底层RL基础设施。
Meta优化了MoE并行化的设计以提高速度,从而实现了更快的迭代。该团队开发了一个完全异步的在线RL训练框架,提高了灵活性。与现有的分布式训练框架相比,后者牺牲了计算内存来将所有模型堆叠在内存中,而其新基础设施能够灵活地将不同的模型分配到单独的GPU上,根据计算速度在多个模型之间平衡资源。与前几代相比,这项创新使训练效率提高了约10倍。
结语:开源多种保护措施,改进消除偏见能力
Meta称其目标是开发最有帮助和实用的模型,同时防范和缓解最严重的风险,根据《开发人员使用指南:AI保护》中概述的最佳实践构建了Llama 4,使开发人员能够为其Llama支持的应用程序创建有用、安全且适应性强的体验。
Meta在预训练方面,结合使用数据过滤和其他数据缓解措施来保护模型;对于后训练,应用了一系列技术来确保模型符合对用户和开发者有益的政策,包括在每个阶段提供适当级别的安全数据。
在系统层面,Meta开源了几种保护措施,可帮助识别和防范潜在的有害输入和输出。这些工具(Llama Guard、Prompt Guard、CyberSecEval)可以集成到Llama模型中,也可以与其他第三方工具集成。
Meta以可控且可重复的方式对各种场景和用例中的模型进行系统测试,并将产生的数据整合到训练后的结果中。该团队还利用自动和手动测试对一系列主题的对抗性动态探测对模型进行压力测试,在理解和评估潜在模型风险方面取得了进展。
为消除AI模型的偏见,Meta将继续提高Llama的响应能力,以便它能够回答问题,能够对各种不同的观点做出回应而不作任何评判,并且不会偏袒某些观点。经改进,Llama 4的性能明显优于Llama 3,并且可与Grok相媲美:
Meta还致力于让模型能够以像人类一样的速度、以个性化的方式做出回复。Llama 4 经过了优化以满足这些需求。
来源:Meta